微軟發佈 Phi-4 多模態與迷你模型,語音視覺文本處理再升級
近日,微軟進一步擴展了 Phi-4家族,推出了兩款新模型:Phi-4多模態(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),這兩款模型的亮相,無疑將爲各類 AI 應用提供更加強大的處理能力。Phi-4多模態模型是微軟首款集成語音、視覺和文本處理的統一架構模型,擁有5600萬參數。這款模型在多項基準測試中表現優異,超越了目前市場上的許多競爭對手,例如谷歌的 Gemini2.0系列。在自動語音識別(ASR)和語音翻譯(ST)任務中,Phi-4多模態模型表現尤爲突出,成功擊敗瞭如 WhisperV3和 SeamlessM4T-v2-Large 等專業語音