蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0,在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异,部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力,支持在同一条音轨中生成语音、音效和音乐,用户通过自然语言指令即可调整音色、语速等参数。
百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
Wan2.5-Preview正式发布,这款AI模型通过革命性架构重塑视觉生成。其核心突破在于多模态处理、视频生成和图像编辑,采用统一框架实现文本、图像、视频和音频的灵活输入输出。通过联合训练,模型强化模态对齐,提升生成能力。
阶跃星辰发布开源语音大模型Step-Audio2mini,在国际基准测试中获SOTA成绩。该模型统一音频推理与生成,在语音理解、跨语言翻译和情感解析等场景表现优异,具备强大的多模态音频能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
HKUSTAudio
AudioX是一个统一的扩散变压器模型,可实现任意内容到音频及音乐的生成。它能生成高质量通用音频与音乐作品,提供灵活的自然语言控制,并能无缝处理多种模态输入。
FunAudioLLM
InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一框架,通过音频分词与自回归变换器及基于流匹配模型相结合,支持高质量长篇幅音频生成。
InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一框架,通过音频标记化技术整合自回归变换器与基于流匹配模型,支持高质量长音频生成。