BiTA es un método de ajuste bidireccional para modelos lingüísticos grandes (LLM) que acelera estos modelos mediante la generación semi-autorregresiva simplificada y la verificación de borradores. Como un módulo de complemento ligero, BiTA mejora sin problemas la eficiencia de inferencia de los modelos LLM existentes sin necesidad de modelos auxiliares adicionales ni un aumento significativo en el coste de memoria. Tras la aplicación de BiTA, LLaMA-2-70B-Chat logró una aceleración de 2,7 veces en el benchmark MT-Bench. Amplios experimentos confirman que nuestro método supera las técnicas de aceleración de vanguardia.