阿里云飞天实验室研发的“析言XiYan-SQL”数据分析智能体,在全球权威SQL诊断评测BIRD-CRITIC中登顶所有开放榜单,超越国内外顶尖团队,刷新行业纪录。该基准由学术界与Google Cloud合作推出,旨在测试大语言模型解决真实数据库应用问题的能力,聚焦企业常见数据库报错的诊断与修复。
沙特AI实验室Misraj AI在AWS大会上推出阿拉伯语大模型Kawn,旨在推动各行业阿拉伯语应用。其特色包括双向阿英翻译模型Mutarjim,以及首个支持15种方言的翻译模型Lahjawi,便于跨方言交流,尤其适用于聊天机器人等场景。
金域医学推出AI癌症病理基因大模型DeepGEM,已投入临床应用。该模型融合组织切片、基因测序和临床数据,显著提升基因突变识别效率与准确率,推动AI从实验室走向癌症诊疗一线,加速精准医疗发展。
上海人工智能实验室联合浙江大学推出IVR-Bench基准测试,首次专门评估大语言模型将视频转化为交互式网页代码的能力。该测试通过观看记录用户操作流程的视频,要求模型重建动态网页,填补了AI前端开发领域动态交互评测的空白,推动多模态大语言模型在真实场景中的应用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4