2024年12月18日開催の火山引擎 FORCE 原動力カンファレンスにおいて、火山引擎は豆包大規模言語モデルファミリーの全面的なアップグレードを発表し、新たな画像理解モデルを正式にリリースしました。
火山引擎の譚待社長は、豆包大規模言語モデルの1日あたりのトークン使用量が過去数ヶ月で急増し、4兆トークンを超え、5月のリリース時と比べて33倍に増加したと述べました。この急増は、豆包大規模言語モデルが様々なアプリケーションシナリオで広く利用されていることを示しています。
今回の画像理解モデルのリリースにより、ユーザーはテキストと画像を同時に入力できるようになり、モデルはこれらを総合的に理解して正確な回答を提供します。この革新的な機能は、アプリケーション開発プロセスを大幅に簡素化し、大規模言語モデルの可能性をさらに広げます。
画像理解モデルは、より強力なコンテンツ認識能力を備えています。画像内の物体の種類、形状などの基本要素を認識できるだけでなく、物体間の関係、空間配置、シーン全体の意味も理解できます。例えば、影の認識や自然知識の認識などです。
画像理解モデルは、より強力な理解力と推論能力を備えており、コンテンツをより正確に認識できるだけでなく、認識されたテキストと画像情報に基づいて複雑な論理計算を行うことができます。例えば、グラフ推論や物理推論などです。
さらに、より繊細な視覚的な記述能力を備えており、画像情報に基づいて画像の内容をより詳細に記述し、画像創作、画像詩の創作など、様々な文体の創作を行うことができます。
豆包画像理解モデルは、教育、観光、eコマースなど幅広い分野で大きな可能性を示しています。例えば、教育分野では、生徒の作文や科学知識の学習を支援し、観光分野では、観光客向けに外国語メニューの翻訳や建築物の背景知識の説明を提供し、eコマースマーケティングでは、商品の特徴を詳細に説明することで広告効果の向上に役立ちます。
画像理解モデルの使用コストも非常に安価で、1000トークンあたりの価格は0.003元であり、業界平均価格より85%低くなっています。この価格帯では、1元で720Pの画像を最大284枚処理できます。これは、画像理解技術が「厘時代」に突入したことを意味します。さらに、火山引擎は企業や開発者向けに最大15,000回の初期トラフィックサポートを提供し、この技術をより効果的に活用できるよう支援しています。
今回のカンファレンスでは、画像理解モデルの発表に加え、他の複数のモデルもアップグレードされました。豆包汎用モデルProの総合的なタスク処理能力は5月と比べて32%向上し、推論、指示遵守、コード、数学などの分野でもそれぞれ大幅な改善が見られました。また、豆包・動画生成モデルは2025年1月にサービス提供を開始する予定で、企業は現在予約可能です。
企業の情報取得と検索推薦能力の向上を目指し、火山引擎は全域AI検索サービスも発表しました。これは、企業が情報とユーザーニーズをより効果的に結びつけ、各業界のインテリジェント化転換を支援します。
要点:
🔍 豆包大規模言語モデルの1日あたりのトークン使用量は4兆トークンに達し、5月と比べて33倍に増加。
💡 新しくリリースされた画像理解モデルは、テキストと画像の同時入力をサポートし、教育、観光、eコマースなどの分野に適用可能。
💰 1000トークンあたりの使用コストはわずか0.003元で、業界平均価格を大幅に下回る。