智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。

GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。其9亿参数规模结合高效推理能力,使其可在单张3090显卡上运行,且提供免费商用授权,极大降低了开发者门槛。

智谱AI表示,GLM-4.1V-Thinking通过强化学习与课程采样技术,优化了跨领域推理能力,展现出对复杂问题的深度思考与解决能力。模型已上线HuggingFace,供全球开发者免费体验。业界认为,此举将推动多模态AI在教育、科研、商业等领域的广泛应用,标志着智谱AI在通用人工智能道路上的又一里程碑。