BiTA ist eine Methode zur bidirektionalen Anpassung großer Sprachmodelle, die durch vereinfachte semi-autoregressive Generierung und Entwurfsüberprüfung die Geschwindigkeit großer Sprachmodelle verbessert. Als leichtgewichtiges Plugin-Modul verbessert BiTA nahtlos die Inferenzeffizienz bestehender großer Sprachmodelle, ohne zusätzliche Hilfsmodelle zu benötigen oder signifikante zusätzliche Speicherkosten zu verursachen. Nach der Anwendung von BiTA erreichte LLaMA-2-70B-Chat eine 2,7-fache Beschleunigung im MT-Bench-Benchmark. Umfangreiche Experimente bestätigen, dass unsere Methode die modernsten Beschleunigungstechniken übertrifft.