韩国政府为发展自主AI,大力扶持本土大模型,但近期调查发现其核心代码与中美开源模型高度相似,引发对“国产”纯度的争议。
韩国政府斥巨资推动的“本土大模型竞赛”陷入争议。五家决赛入围企业中,至少三家被指使用了中国和美国公司的开源代码,包括智谱AI、阿里巴巴、OpenAI等,引发对“国产AI是否真正自主”的激烈辩论。该项目旨在三年内打造纯韩国技术大模型,但代码依赖问题使其目标受到质疑。
国产大模型正通过提升中文数据占比(普遍超60%)来增强对本土文化和用户需求的理解,降低对英文语料的依赖,使AI能更精准解析“上火”等特有概念,推动技术革新。
西藏发布千亿级藏语大模型“阳光清言”V1.0,由院士尼玛扎西宣布,标志西藏AI从应用迈向系统性研发。目前AI已广泛用于政务、社区、公共服务及生态科考等领域,推动技术本土化发展。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
suayptalha
Sungur-14B 是一个专门针对土耳其语的大语言模型,基于 Qwen/Qwen3-14B 派生而来。该模型使用包含 41.1k 个土耳其语样本的数据集进行微调,涵盖数学、医学和常识等领域的推理对话,旨在增强土耳其语的本土推理能力。
britllm
BritLLM是一个未经加工的预训练模型,支持多种英国本土语言,适用于多种自然语言处理任务,但需要进一步微调以适应大多数使用场景。
Rijgersberg
GEITje-7B是基于Mistral 7B的大型开源荷兰语模型,通过额外训练100亿荷兰语文本标记显著提升了荷兰语能力与本土知识。
基于Mistral 7B的大规模开源荷兰语模型,通过100亿荷兰语文本标记的增量训练,显著提升荷兰语理解能力及本土知识覆盖。