CogVLM: puissante modèle de base de langue visuelle open source

中国の研究者らが、CogVLMと呼ばれる強力なオープンソースの視覚言語基盤モデルを発表しました。言語情報と視覚情報を深く統合することで、クロスモーダルタスクにおいて顕著な進歩を遂げています。

CogVLMは、新しいトレーニング方法を採用し、学習可能な視覚専門家を導入することで、言語モデルの視覚理解能力を向上させています。画像キャプションや視覚的な質問応答などのタスクにおいて、優れたパフォーマンスを発揮します。

オープンソースのCogVLM-28B-zhは、中国語と英語の混合商業利用をサポートしており、分野研究と実際の応用にもたらす影響は計り知れません。