LLaMA-Omni est un modèle d'interaction vocale de bout en bout, à faible latence et de haute qualité, basé sur Llama-3.1-8B-Instruct. Il vise à atteindre des capacités vocales au niveau de GPT-4o. Ce modèle prend en charge l'interaction vocale à faible latence et peut générer simultanément des réponses textuelles et vocales. Entraîné en moins de 3 jours avec seulement 4 GPU, il démontre une capacité d'entraînement très efficiente.