小米發佈自研語音合成大模型Xiaomi MiMo-V2-TTS,在可控、高表現力語音生成方面取得突破。該模型基於自研Audio Tokenizer及多碼本架構,通過大規模預訓練,實現從宏觀風格到微觀情緒的精準調節。它能在單句內完成語氣轉折與情感遞變,高度還原人類自然韻律,支持多種語音風格。