小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio
9月19日,小米公司宣佈開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio,這一創新成果標誌着語音技術領域的一次重大突破。五年前,GPT-3的出現開啓了語言通用人工智能(AGI)的新紀元,但語音領域一直受限於對大規模標註數據的依賴,難以實現類似的語言模型的少樣本泛化能力。如今,小米推出的 Xiaomi-MiMo-Audio 模型基於創新的預訓練架構和上億小時的訓練數據,首次在語音領域實現了基於 In-Context Learning(ICL)的少樣本泛化,並在預訓練過程中觀察到了明顯的“涌現”行爲。
Xiaomi-MiMo-Audio 模型在多個標準評測基準中表現出色,其性能不僅超越了同參數量的開源模型,還在音頻理解基準 MMAU 的標準測試集上超過了 Google 的閉源語音模型 Gemini-2.5-Flash,並在音頻複雜推理基準 Big Bench Audio S2T 任務中超越