Mini-Omniは、リアルタイムの音声入力とストリーミング音声出力による対話機能を実現する、オープンソースのマルチモーダル大規模言語モデルです。追加のASRやTTSモデルを必要とせずに、リアルタイムの音声対音声対話機能を備えています。さらに、思考しながら音声出力ができ、テキストと音声の同時生成をサポートします。Mini-Omniは、『Audio-to-Text』と『Audio-to-Audio』のバッチ推論によって性能をさらに向上させています。