谷歌将AI音频功能融入教育,推出基于Gemini模型的播客风格音频课生成工具。教师只需输入主题或大纲,即可自动创建结构清晰、富有感染力的音频内容,帮助学生通过听觉深化理解,尤其迎合Z世代对播客的偏好。
Meta发布SAM Audio,全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段,一键提取目标声音或过滤噪音,实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式,支持看、说等多种交互。
阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,支持文本、图像、音频和视频的无缝输入,并能实时流式同步生成高质量文本与自然语音,语音自然度接近真人。该模型采用实时流式架构,支持119种文本语言交互。
Qwen2.5-Omni 是阿里云通义千问团队开发的端到端多模态模型,支持文本、音频、图像、视频输入。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
MMAudio根据视频和/或文本输入生成同步音频。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$17.5
$0.7
$2.8
Alibaba
-
$15.8
$12.7
64
Bytedance
Tencent
$1
$4
32
Baidu
Openai
$0.35
400
Anthropic
$105
$525
200
$1.95
16
$2.4
$12
8
$140
$280
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基于Qwen3-Omni-30B-A3B-Instruct微调得到的细粒度音频分析模型,专门为任意音频输入生成详细且低幻觉的描述,在复杂多样的音频场景中表现出色。
chetwinlow1
Ovi是一款先进的音频-视频生成模型,能够根据文本或文本+图像输入同时生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒视频生成,为多媒体创作提供了强大的工具。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
Frane92O
本模型是Qwen2.5-Omni-7B的GGUF量化版本,使用llama.cpp工具从原始模型转换而来。Qwen2.5-Omni-7B是一个70亿参数的多模态大语言模型,支持文本、图像、音频等多种模态的输入和输出。
RedHatAI
这是 Google Gemma-3n-E2B-it 模型的量化版本,通过将权重量化为 INT4 数据类型进行优化,可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入,输出为文本。
这是一个基于Google Gemma-3n-E2B-it的量化版本模型,采用FP8数据类型进行权重和激活量化,支持音频、视觉和文本多模态输入,输出为文本。模型通过vLLM实现高效部署,在保持高精度的同时显著提升推理效率。
这是对 Google Gemma 3N E4B IT 模型进行 FP8 动态量化的版本,通过将权重和激活值量化为 FP8 数据类型,显著提升了推理效率,同时保持了原始模型的性能。支持多模态输入(文本、图像、音频、视频)和文本输出。
MohamedRashad
Voxtral Mini是基于Ministral 3B的增强版本,具备先进的音频输入能力,在语音转录、翻译和音频理解等方面表现出色。
NexaAI
Gemma 3n 是基于 Google Gemma 模型的多模态轻量级开源模型,支持文本、图像、视频和音频输入,专为低资源设备优化。
unsloth
Gemma 3n是谷歌推出的轻量级、最先进的多模态开放模型,基于Gemini技术构建。专为低资源设备设计,支持文本、图像、视频和音频输入,生成文本输出。采用选择性参数激活技术,在4B参数规模下高效运行。
OmniAvatar
OmniAvatar是一个能够根据音频输入生成带有自适应身体动画的头像视频的先进模型,为视频生成领域提供了高效且优质的解决方案。
google
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。支持文本、音频和视觉输入,适用于多种任务。
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型,采用新颖架构,有效参数少,支持文本、图像和音频输入,适用于资源有限环境,能助力各行业内容理解与创新。
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建,支持文本、音频和视觉输入。
Gemma 3n是谷歌推出的轻量级多模态模型,基于Transformer架构,支持文本、音频和视觉(图像和视频)输入,适用于低资源设备。
ggml-org
Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本,支持多模态输入,包括文本、音频和图像。
Qwen2.5-Omni-3B 是一个多模态模型,支持文本、音频和图像输入,但不支持视频输入和音频生成。
一个为AI助手提供音频输入输出功能的MCP服务器
一个提供音频输入/输出功能的MCP服务器,支持AI助手如Claude与电脑音频系统交互,包括录音、播放音频文件等功能。