近日,微軟進一步擴展了 Phi-4家族,推出了兩款新模型:Phi-4多模態(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),這兩款模型的亮相,無疑將爲各類 AI 應用提供更加強大的處理能力。Phi-4多模態模型是微軟首款集成語音、視覺和文本處理的統一架構模型,擁有5600萬參數。這款模型在多項基準測試中表現優異,超越了目前市場上的許多競爭對手,例如谷歌的 Gemini2.0系列。在自動語音識別(ASR)和語音翻譯(ST)任務中,Phi-4多模態模型表現尤爲突出,成功擊敗瞭如 WhisperV3和 SeamlessM4T-v2-Large 等專業語音
["1. Meta推出了能支持近100種語言語音轉文本、語音轉語音、文本轉文本、文本轉語音的AI翻譯模型SeamlessM4T。","2. SeamlessM4T的語音識別能力已達到人類水準,大大提高了處理背景音和變化語音的能力。","3. Meta不僅免費開源了SeamlessM4T模型,還公開了關鍵訓練數據集SeamlessAlign。"]
["1. Meta開源全新翻譯模型SeamlessM4T,支持100種語言語音翻譯。","2. SeamlessM4T集成了NLLB、MMS等多個翻譯模型優點。","3. SeamlessM4T使用270,000小時對齊語音文本數據進行訓練。"]
{"1":"Meta 開源全球最大多模式翻譯大模型,支持 100 種語言,能識別地方語言。","2":"SeamlessM4T 是首個一體化 AI 翻譯大模型,支持語音到文本、語音到語音、文本到語音和文本到文本的多模式翻譯任務。","3":"SeamlessM4T 集成了 Meta 之前發佈的 NLLB、MMS 等翻譯模型,並使用了 270,000 小時的語音和文本對齊數據。"}
一款基於多模態模型的語音翻譯產品,支持近100種語言的自動語音識別、語音翻譯、文本翻譯、語音合成等功能。
ai4bharat
基於SeamlessM4T-v2微調的印度語言語音轉文字翻譯模型,支持13種印度語言,性能超越基礎模型及競爭系統。
WueNLP
從SeamlessM4Tv2-Large中提取的語音編碼器模塊,擅長跨語言和多語言的序列級音頻分類任務
audo
SeamlessM4T是一個大規模多語言多模態機器翻譯模型,支持近100種語言的語音和文本翻譯。
facebook
SeamlessM4T v2 是 Facebook 發佈的大規模多語言多模態機器翻譯模型,支持近100種語言的語音和文本翻譯。
SeamlessM4T 是一個支持多語言語音和文本翻譯的統一模型,能夠實現語音到語音、語音到文本、文本到語音和文本到文本的翻譯任務。
SeamlessM4T 是一個多語言翻譯模型,支持語音和文本的輸入輸出,實現跨語言交流。