先日、DoubaoはDoubao 1.5 深層思考モデルとDoubaoテキストから画像生成モデル3.0を含む一連のアップデートを発表し、火山引擎のオープンAPIを通じて開発者や企業顧客に正式に提供されました。これらの2つのモデルは、推論タスクと一般的なタスクにおいて業界最先端レベルの総合的なパフォーマンスを達成し、ビジュアル推論と画像生成において大きな進歩を遂げました。
Doubao 1.5 深層思考モデルは、専門分野の推論タスクで優れた成果を上げました。数学的推論のAIME2024テストではOpenAI o3-mini-highと同等のスコアを達成し、プログラミングコンテストのCodeforces pass@8ではOpenAI o1に迫るスコア、科学的推論のGPQAではo3-mini-highに迫るスコアを達成し、世界トップグループに匹敵する、もしくはそれに近い結果となりました。創作活動などの推論とは関係のないタスクでも、優れた汎化能力を示し、より広範で複雑な利用シナリオに対応できます。
モデルの総合能力を向上させるため、Doubaoチームはデータ処理戦略を最適化し、検証可能で創造的なデータを統合して様々なタスクのニーズに対応しました。大規模な強化学習は、推論モデルをトレーニングするための重要な技術です。「明確に正誤が判断できるタスク」と「主観的なタスク」を考慮するデュアルトラック報酬メカニズムを提案し、アルゴリズムの信頼できる最適化を効果的に実現しました。さらに、基盤となるアーキテクチャを最適化し、トレーニングの安定性、スケーラビリティ、再現性、計算効率を確保しました。
Doubao深層思考モデルはMoEアーキテクチャを採用し、パラメータ総数は2000億個ですが、活性化パラメータはわずか200億個で、トレーニングと推論のコストにおいて大きな利点があります。効率的なアルゴリズムと高性能な推論システムに基づき、非常に高い同時処理能力を実現しながら、わずか20ミリ秒という非常に低いレイテンシを実現しています。さらに、ビジュアル推論能力も備え、視覚情報に基づいて関連付けや考察を行うことができ、インテリジェント推論の応用範囲を大幅に拡大します。
Doubaoテキストから画像生成モデル3.0は、高解像度ネイティブの基盤的な画像生成モデルであり、中国語と英語に対応し、前世代と比較して総合的なパフォーマンスが大幅に向上しています。生成画像の解像度、構造精度、定量的精度、複数オブジェクトの属性関係、小さな文字の生成とレイアウト、美的効果、リアリズムにおいて大きな進歩を遂げました。Seedream3.0は、効率的な推論を実現するための様々な戦略を採用しており、1K解像度の画像生成にわずか3秒しかかかりません。これにより、高品質な画像を迅速に生成でき、創作効率が大幅に向上します。さらに、小さなフォントの高忠実度生成や複数行テキストのセマンティックレイアウトなど、業界の問題点を最適化し、AIに商用レベルのグラフィックデザイン能力を実現させました。
テキストから画像生成のベンチマークコンペティションであるArtificial Analysisでは、Doubaoテキストから画像生成モデルSeedream3.0は、GPT-4o、Imagen3、Midjourney v6.1、FLUX1.1Proなどのモデルと競合し、上位モデルにランクインしました。Seedream3.0は既にByteDanceのDoubaoとJimengプラットフォームで完全に利用可能であり、企業顧客に強力な画像生成能力を提供しています。
Doubao深層思考モデルとテキストから画像生成モデル3.0の提供により、企業顧客はより効率的で汎用性の高い推論能力とより強力な画像生成能力を獲得し、様々な分野におけるAI技術の応用と発展をさらに推進します。
Doubao深層思考モデルの技術レポート:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
Seedream3.0の技術レポート:https://team.doubao.com/tech/seedream3_0