LLaMA-Omni é um modelo de interação de voz de ponta a ponta de alta qualidade e baixa latência, baseado no Llama-3.1-8B-Instruct, projetado para atingir o nível de capacidade de voz do GPT-4o. O modelo suporta interação de voz de baixa latência, podendo gerar respostas de texto e voz simultaneamente. Treinado em menos de 3 dias usando apenas 4 GPUs, demonstra sua capacidade de treinamento eficiente.