BiTA est une méthode de réglage bidirectionnel pour les grands modèles de langage, accélérant ces derniers grâce à une génération semi-autorégressive simplifiée et une validation d'ébauches. Module léger et plug-in, BiTA améliore de manière transparente l'efficacité d'inférence des grands modèles de langage existants, sans nécessiter de modèles auxiliaires supplémentaires ni entraîner de coûts mémoire significatifs. Après l'application de BiTA, LLaMA-2-70B-Chat a atteint une accélération de 2,7 fois sur le benchmark MT-Bench. De nombreuses expériences confirment que notre méthode surpasse les techniques d'accélération de pointe.