爱诗科技发布影视专业大模型PixVerse C1,旨在重塑影视工业流程。该模型支持最高15秒1080P高清视频生成,实现从单镜头到自动分镜的飞跃,已上线Web端及API平台。
B站低调内测AI创作产品“updream”,旨在通过生成式AI技术降低视频创作门槛,助力UP主高效完成从创意到素材的全链路开发。此举标志着B站AI战略从后台优化转向前台赋能,通过将AI能力集成到创作端,在短视频与长视频的存量竞争中寻求技术突破。
Zopia是全球首个端到端AI视频导演Agent,用户只需输入创意文本或故事梗概,即可通过多智能体协同,自动完成剧本拆解、分镜设计、镜头生成到剪辑的全流程,输出高质量视频。它深度优化了Kling3和Vidu Q3等视频模型,实现逼真的真人场景效果。
阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
DiffRhythm 是一个基于扩散模型技术的 AI 音乐生成平台,可快速将歌词转化为专业音乐作品。
DiffRhythm 是一种基于潜在扩散模型的端到端全曲生成技术,可在短时间内生成包含人声和伴奏的完整歌曲。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
inclusionAI
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
Qwen
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,无需依赖外部模型即可实现多模态理解和生成。
awsaf49
用于端到端合成歌曲检测的先进模型,能够识别AI生成的完整歌曲(包括人声、音乐、歌词和风格)
用于检测端到端AI生成歌曲的先进模型,特别擅长识别长时程伪造音频特征
用于检测端到端AI生成歌曲的先进模型,特别擅长捕捉长时音频特征
scb10x
台风2-音频版是一个端到端的语音转语音模型架构,能够处理音频、语音和文本输入,并同时生成文本和语音输出。该模型专门针对泰语优化,同时也支持英语。
yesidcanoc
基于Swin Transformer和DistilGPT2的端到端图像描述生成模型,能够为输入图像生成自然语言描述。
funasr
Paraformer 是一种创新的非自回归端到端语音识别模型,相比传统自回归模型具有显著优势,能够并行生成整句目标文本,特别适合利用GPU进行并行推理。
ibm-research
Re2G是一个结合神经检索、重排序和生成的端到端系统,用于知识密集型任务。该模型是其NQ(Natural Questions)问题编码器组件。
fanxiao
CGRE是一种基于BART的中文端到端关系抽取模型,采用生成式方法实现实体关系抽取,在多个中文关系抽取数据集上表现优异。
valhalla
基于T5-base训练的端到端问题生成模型,能够从输入文本中自动生成相关问题。
UE5-MCP是一个集成AI驱动的自动化工具,旨在优化Blender与Unreal Engine 5的工作流程,提供从场景生成到游戏开发的端到端解决方案。
一个基于MCP协议的UI/UX设计自动化套件,通过AI辅助实现从设计灵感到开发交付的端到端工作流,包含网页灵感采集、Figma设计集成和React代码生成三大核心功能。
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。