OpenAI宣布Sora应用在美、加、日、韩取消邀请码限制,用户可直接登录。此举推动AI创意工具普及,标志从封闭测试转向广泛开放。Sora基于Sora2模型,支持文本或图片生成高质量带音频短视频,加速全球推广。
Adobe发布专业级AI图像生成模型Firefly Image5,实现从“够用”到专业级的质变。新功能包括原生400万像素输出、分层提示编辑、自定义艺术风格模型及AI语音配乐生成,打通图像、视频、音频的AI创作闭环,重新定义创意工作流。
谷歌发布Veo 3.1视频生成模型,新增音频功能和精细化编辑能力,提升了视频的真实感与编辑控制粒度,同时优化了图像转视频质量。
谷歌升级视频生成模型Veo3.1,提升音频输出、编辑控制精度和图像转视频质量,能生成更真实视频并精准响应指令。新增功能支持在视频中添加对象并自动匹配画面风格,即将在Flow工具中推出移除对象功能,增强编辑灵活性。
基于LTX 2模型,生成4K视频,音频同步,专业创作者适用。
Zarin是首个开源AI平台,集成了200多个热门和最新的AI多模型,可生成图片、视频、音频、代码、学术论文等。
Kimi-Audio 是一个开源音频基础模型,擅长音频理解与生成。
CSM 1B 是一个由 Sesame 开发的文本到语音生成模型,可生成高质量的音频。
openai
$18
Input tokens/M
$72
Output tokens/M
128k
Context Length
google
$0.72
$2.88
1M
-
$1.08
$4.32
azure
$0.36
CypressYang
SongBloom是一款专注于文本转音频的生成模型,能够将文本转化为生动的音频内容,为用户带来全新的语音合成体验。
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基于Qwen3-Omni-30B-A3B-Instruct微调得到的细粒度音频分析模型,专门为任意音频输入生成详细且低幻觉的描述,在复杂多样的音频场景中表现出色。
chetwinlow1
Ovi是一款先进的音频-视频生成模型,能够根据文本或文本+图像输入同时生成同步的视频和音频内容。该模型采用双骨干架构,支持5秒视频生成,为多媒体创作提供了强大的工具。
nineninesix
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
KrauthammerLab
CAST 0.7B 是基于0.7B参数Gemma3风格语言模型构建的语音转语音语言模型,能够生成自然的语音音频延续内容。该模型依赖于CAST WavTokenizer进行编码/解码操作,专门用于语音生成任务。
mispeech
MiDashengLM-7B-0804是小米发布的7B参数多模态语音语言模型,支持音频理解和文本生成任务,适用于通用场景的推理和微调。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
unsloth
Gemma 3n是谷歌推出的轻量级、最先进的多模态开放模型,基于Gemini技术构建。专为低资源设备设计,支持文本、图像、视频和音频输入,生成文本输出。采用选择性参数激活技术,在4B参数规模下高效运行。
DeSTA-ntu
DeSTA2.5-Audio是一个通用的大型音频语言模型,通过自生成的跨模态对齐技术,在无需特定任务指令调优数据的情况下实现高扩展性和效率,同时保留语言能力并避免灾难性遗忘。
bosonai
Higgs Audio V2是一个强大的音频基础模型,在超过1000万小时的音频数据和多样化的文本数据上进行了预训练,能够生成表现力丰富的音频。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
OmniAvatar
OmniAvatar是一个能够根据音频输入生成带有自适应身体动画的头像视频的先进模型,为视频生成领域提供了高效且优质的解决方案。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
ggml-org
Qwen2.5-Omni-3B 是一个多模态模型,支持文本、音频和图像输入,但不支持视频输入和音频生成。
CSM(对话语音模型)是Sesame开发的1B参数语音生成模型,可从文本和音频输入生成RVQ音频编码。
Qwen
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
stabilityai
基于文本提示生成最长11秒44.1kHz立体声音频的扩散模型
calcuis
ACE-Step-v1-3.5B是一个文本转音频模型,支持高质量音频生成,适用于音乐和声音效果创作。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。