近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。在自动语音识别(ASR)和语音翻译(ST)任务中,Phi-4多模态模型表现尤为突出,成功击败了如 WhisperV3和 SeamlessM4T-v2-Large 等专业语音
["1. Meta推出了能支持近100种语言语音转文本、语音转语音、文本转文本、文本转语音的AI翻译模型SeamlessM4T。","2. SeamlessM4T的语音识别能力已达到人类水准,大大提高了处理背景音和变化语音的能力。","3. Meta不仅免费开源了SeamlessM4T模型,还公开了关键训练数据集SeamlessAlign。"]
["1. Meta开源全新翻译模型SeamlessM4T,支持100种语言语音翻译。","2. SeamlessM4T集成了NLLB、MMS等多个翻译模型优点。","3. SeamlessM4T使用270,000小时对齐语音文本数据进行训练。"]
{"1":"Meta 开源全球最大多模式翻译大模型,支持 100 种语言,能识别地方语言。","2":"SeamlessM4T 是首个一体化 AI 翻译大模型,支持语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。","3":"SeamlessM4T 集成了 Meta 之前发布的 NLLB、MMS 等翻译模型,并使用了 270,000 小时的语音和文本对齐数据。"}
一款基于多模态模型的语音翻译产品,支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。
ai4bharat
基于SeamlessM4T-v2微调的印度语言语音转文字翻译模型,支持13种印度语言,性能超越基础模型及竞争系统。
WueNLP
从SeamlessM4Tv2-Large中提取的语音编码器模块,擅长跨语言和多语言的序列级音频分类任务
audo
SeamlessM4T是一个大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
facebook
SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
SeamlessM4T 是一个支持多语言语音和文本翻译的统一模型,能够实现语音到语音、语音到文本、文本到语音和文本到文本的翻译任务。
SeamlessM4T 是一个多语言翻译模型,支持语音和文本的输入输出,实现跨语言交流。