阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
英伟达在NeurIPS2025发布L4级自动驾驶推理模型Alpamayo-R1,基于Cosmos-Reason系列,可同时处理摄像头、激光雷达和文本指令,通过内部推理输出驾驶决策。模型采用视觉、语言、动作三模态端到端统一架构,避免模块误差叠加,旨在为车辆赋予“人类常识”。
腾讯发布1B参数开源模型HunyuanOCR,基于混元多模态架构,在OCR应用中达到SOTA水平。模型采用端到端设计,一次推理即可获得最优结果,包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。
复旦大学MOSS团队发布MOSS-Speech,首次实现端到端语音对话,模型已在Hugging Face上线并开源。采用“层拆分”架构,冻结原文本模型,新增语音理解、语义对齐和声码器层,可一次性完成语音问答、情绪模仿和笑声生成,无需传统三段式流程。评测显示,在ZeroSpeech2025任务中词错率降至4.1%,情感识别准确率达91.2%。
Anthropic
$21
Input tokens/M
$105
Output tokens/M
200
Context Length
Alibaba
$0.3
-
32
Google
$140
$280
Baidu
Tencent
$1
$3
4
$525
$0.7
$1.4
131
$2
$3.5
$10.5
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
speechbrain
这是一个基于SpeechBrain框架训练的端到端自动语音识别系统,使用Conformer架构在25,000小时英文语音数据上训练。
scb10x
台风2-音频版是一个端到端的语音转语音模型架构,能够处理音频、语音和文本输入,并同时生成文本和语音输出。该模型专门针对泰语优化,同时也支持英语。
nvidia
基于Sortformer架构的端到端说话人日志模型,通过按说话人语音段到达时间顺序解决日志中的排列问题,支持最多4个说话人识别。
facebook
MobileLLM是Meta开发的优化Transformer架构语言模型,专为资源受限的端侧应用设计,参数规模从125M到1.5B不等。
MohamedRashad
专为阿拉伯语设计的端到端结构化光学字符识别(OCR)系统,基于facebook/nougat-base架构微调
srimanth-d
GOT-OCR2.0是一个多语言通用OCR模型,采用端到端架构实现先进的文本识别能力。
Brian314
TexTeller是基于ViT架构的端到端公式识别模型,能够将自然场景图像中的数学公式直接转换为LaTeX格式公式。
DigitalUmuganda
这是一个基于端到端深度学习的基尼亚卢旺达语文本转语音(TTS)系统,使用Coqui的TTS库和YourTTS架构训练。
PekingU
首个实时端到端目标检测器,基于Transformer架构,消除非极大值抑制需求,在速度与精度上超越YOLO系列
hoang-quoc-trung
Sumen是一个基于Transformer架构的端到端模型,专门用于将数学公式图像转换为LaTeX序列,支持印刷体和手写体公式识别。
专为阿拉伯语设计的端到端结构化光学字符识别系统,基于facebook/nougat-small架构微调
OleehyO
TexTeller是基于ViT架构的端到端公式识别模型,能够识别自然图像中的数学公式并将其转换为LaTeX格式公式。
openaccess-ai-collective
Mistral架构的随机初始化模型,适用于端到端测试。
Meta公司开发的马绍尔语文本转语音模型,采用VITS端到端架构,支持高质量语音合成
Meta公司开发的莫西语文本转语音模型,基于VITS架构,支持端到端语音合成
Meta公司开发的加泰罗尼亚语文本转语音模型,采用VITS端到端架构,支持高质量语音合成
Meta公司开发的Kuwaa语(blh)文本转语音模型,属于大规模多语言语音计划的一部分,采用VITS端到端语音合成架构
Meta公司开发的哈里亚纳维语文本转语音模型,属于大规模多语言语音(MMS)项目的一部分,采用VITS端到端语音合成架构。
Meta公司开发的卢旺达语文本转语音(TTS)模型,采用VITS端到端架构,支持高质量语音合成