广汽发布星河智舱ADiGO Intelligence架构,深度融合阿里通义千问大模型,旨在革新智能座舱体验。该架构基于超375万辆车的真实数据,通过多模态感知、情感化交互与场景引擎三大核心,实现1.6秒内快速响应、超95%识别准确率,并能主动提供场景化服务,推动人车交互向更智能、情感化方向发展。
蚂蚁集团在CVPR 2026 NTIRE挑战赛中,于“复杂真实场景鲁棒性样本测试”和“人脸增强异常检测”两赛道夺冠。该成果有助于提升支付、内容审核、金融认证等场景的风险识别能力。面对深度伪造与AIGC滥用加剧、检测模型在真实场景及多模态大模型迭代中准确率不足的挑战,这一突破为应对提供了重要技术支撑。
阿里通义实验室推出FIPO算法,突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制,精准识别关键推理步骤,有效解决模型在数学等复杂问题中推理长度停滞的问题,显著提升推理准确率和效率。
IBM推出Granite4.01B Speech语音模型,专为边缘计算和企业部署设计。该模型参数量减半,但性能显著提升,支持多语种自动语音识别和双向翻译,新增日语识别和关键词偏置功能,并大幅提高英文转录准确率。
Anthropic
$21
Input tokens/M
$105
Output tokens/M
200
Context Length
Alibaba
$1
$10
256
$8
$240
52
Bytedance
$1.2
$3.6
4
$15.8
$12.7
64
-
$0.8
$2
128
Baidu
32
Iflytek
$1.8
$5.4
16
Xai
$0.3
Google
Tencent
$3
$9
Shawon16
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集上预训练,并在一个未知的、可能与手语识别相关的数据集上进行了微调。模型在评估集上取得了78.11%的准确率,适用于视频分类任务。
这是一个基于VideoMAE-base架构在未知数据集上微调的视频理解模型,专门用于手语识别任务。模型在20个训练周期后达到了18.64%的准确率。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
这是一个基于VideoMAE-base架构在WLASL数据集上微调的视频动作识别模型,专门针对手语识别任务进行优化,在评估集上达到48.22%的准确率。
这是一个基于VideoMAE-Base架构在WLASL数据集上微调的视频动作识别模型。经过200轮训练,在评估集上达到52.96%的前1准确率和79.88%的前5准确率,专门用于手语动作识别任务。
rtr46
这是一个专门针对日本电子游戏文本优化的字符检测模型,采用帕累托最优设计,在准确率和延迟之间取得了最佳平衡。模型将文本识别重新定义为字符检测任务,在日本电子游戏数据上训练,实现了先进的识别性能。
adoamesh
本模型是基于OpenAI Whisper-small模型针对斯瓦希里语进行微调的自动语音识别模型。在FLEURS-SLU数据集的斯瓦希里语部分进行训练,显著提升了斯瓦希里语的转录准确率,单词错误率相比基础模型降低了68%。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
ReportAId
MedWhisper Large ITA是基于OpenAI Whisper Large v3 Turbo的领域适配变体,专门针对意大利语医疗语音识别进行了优化。该模型在精心挑选的意大利语门诊专科就诊录音集上使用LoRA技术进行微调,显著提升了医学术语和临床表达的识别准确率。
stanford-oval
CHURRO是一个30亿参数的开放权重视觉语言模型,专门用于历史文档转录。它能够识别跨越22个世纪和46个语言集群的手写和印刷文本,包括历史语言和已消亡语言,在显著降低成本的条件下实现了比大型商业模型更高的准确率。
openchs
基于OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里语数据集上微调的语音识别模型,专为坦桑尼亚儿童求助热线的斯瓦希里语语音识别任务设计,相比基础模型在斯瓦希里语识别准确率上有显著提升。
Priyanshuchaudhary2425
ScamGuard是基于bert-base-cased微调的诈骗信息检测模型,在评估集上准确率达到98.13%,能够有效识别诈骗信息,提升检测准确性和效率。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT联合JHU CLSP/HLTCOE和CMU LTI开发的目标说话人多说话人自动语音识别模型。该模型基于Whisper large-v3-turbo,通过自注册机制和改进的数据增强技术,在高度重叠的多说话人场景下显著提升了识别准确率。
PaddlePaddle
PaddleOCR团队开发的PP-OCRv3_rec系列中的天城文专用文本行识别模型,支持天城文识别,平均准确率96.44%。
超轻量级韩语文本行识别模型,支持韩语和数字字符识别,平均准确率60.21%。
preszzz
这是一个基于AST架构的音频检测模型,专门针对无人机音频识别任务进行微调。在评估集上取得了99.6%的准确率和99.74%的F1值,表现出色。
mlx-community
Parakeet CTC 0.6B是一个基于FastConformer架构的自动语音识别模型,专门为MLX框架优化转换而来。该模型支持英语语音识别任务,具有高效的推理性能和良好的识别准确率。
Adun
olmOCR是一款基于Qwen2-VL-7B-Instruct微调的光学字符识别模型,专注于将PDF等图像内容转换为文本,并通过微调提升特定场景下的识别准确率。
jsbeaudry
基于OpenAI Whisper-medium微调的海地克里奥尔语语音识别模型,专注高准确率转录
dihuzz
该模型基于Wav2Vec2架构微调训练,专门用于识别英语语音中的六种情绪状态(悲伤、愤怒、厌恶、恐惧、快乐、中性),准确率达92.42%。