中国研究人员推出名为CogVLM的强大开源视觉语言基础模型,通过深度整合语言和视觉信息,在跨模态任务中取得显著进展。CogVLM采用新颖训练方法,引入可训练的视觉专家提高语言模型的视觉理解能力,表现卓越在图像字幕、视觉问答等任务上。开源CogVLM-28B-zh支持中英文混合商业应用,为领域研究和实际应用带来显著影响。