火山引擎推出“火山剧创1.0”,这是一站式AIGC短剧创作平台,适配自研大模型,基于多智能体架构和火山方舟算力底座,为专业团队提供全生命周期端到端解决方案。其核心功能覆盖短剧生产全链路,包括剧本创作等环节,旨在重构短剧工业化流程。
2026年北京车展上,汽车智能化竞争升级至“类人智能”阶段。火山引擎发布基于Agentic AI架构的新一代汽车AI解决方案,实现行业首个全链路端到端AI座舱架构落地,其大模型搭载量已突破700万辆。该方案将智能座舱从“对话框”转变为“全能管家”,彻底颠覆传统架构。
美团LongCat团队发布并开源了LongCat-AudioDiT模型,采用端到端架构,直接在波形潜空间建模,摒弃了传统TTS系统中的梅尔频谱中间表征,有效减少了信息损耗与误差累积,显著提升了零样本语音克隆的性能。
阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
Anthropic
$21
Input tokens/M
$105
Output tokens/M
200
Context Length
Alibaba
$0.3
-
32
Google
$140
$280
Baidu
Tencent
$1
$3
4
$525
$0.7
$1.4
131
$2
$3.5
$10.5
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
speechbrain
这是一个基于SpeechBrain框架训练的端到端自动语音识别系统,使用Conformer架构在25,000小时英文语音数据上训练。
scb10x
台风2-音频版是一个端到端的语音转语音模型架构,能够处理音频、语音和文本输入,并同时生成文本和语音输出。该模型专门针对泰语优化,同时也支持英语。
nvidia
基于Sortformer架构的端到端说话人日志模型,通过按说话人语音段到达时间顺序解决日志中的排列问题,支持最多4个说话人识别。
facebook
MobileLLM是Meta开发的优化Transformer架构语言模型,专为资源受限的端侧应用设计,参数规模从125M到1.5B不等。
MohamedRashad
专为阿拉伯语设计的端到端结构化光学字符识别(OCR)系统,基于facebook/nougat-base架构微调
srimanth-d
GOT-OCR2.0是一个多语言通用OCR模型,采用端到端架构实现先进的文本识别能力。
Brian314
TexTeller是基于ViT架构的端到端公式识别模型,能够将自然场景图像中的数学公式直接转换为LaTeX格式公式。
DigitalUmuganda
这是一个基于端到端深度学习的基尼亚卢旺达语文本转语音(TTS)系统,使用Coqui的TTS库和YourTTS架构训练。
PekingU
首个实时端到端目标检测器,基于Transformer架构,消除非极大值抑制需求,在速度与精度上超越YOLO系列
hoang-quoc-trung
Sumen是一个基于Transformer架构的端到端模型,专门用于将数学公式图像转换为LaTeX序列,支持印刷体和手写体公式识别。
专为阿拉伯语设计的端到端结构化光学字符识别系统,基于facebook/nougat-small架构微调
OleehyO
TexTeller是基于ViT架构的端到端公式识别模型,能够识别自然图像中的数学公式并将其转换为LaTeX格式公式。
openaccess-ai-collective
Mistral架构的随机初始化模型,适用于端到端测试。
Meta公司开发的马绍尔语文本转语音模型,采用VITS端到端架构,支持高质量语音合成
Meta公司开发的莫西语文本转语音模型,基于VITS架构,支持端到端语音合成
Meta公司开发的加泰罗尼亚语文本转语音模型,采用VITS端到端架构,支持高质量语音合成
Meta公司开发的Kuwaa语(blh)文本转语音模型,属于大规模多语言语音计划的一部分,采用VITS端到端语音合成架构
Meta公司开发的哈里亚纳维语文本转语音模型,属于大规模多语言语音(MMS)项目的一部分,采用VITS端到端语音合成架构。
Meta公司开发的卢旺达语文本转语音(TTS)模型,采用VITS端到端架构,支持高质量语音合成