THUDM 发布 GLM 4:32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争
在快速发展的语言模型领域,研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低,但在性能上往往不及更大的模型。因此,开发中型模型以有效平衡计算效率与强大的推理及指令跟随能力,成为了当前的趋势。近日,清华大学发布了 GLM4,特别是其 GLM-Z1-32B-0414变体,有效应对了这些挑战。GLM4在一个包含15万亿个标记的大型数据集上进行训练,旨在提供可靠的多语言能力,并引入了