7月30日、火山エッジは自社主催の「FORCE Link AIイノベーションツアー・厦门」イベントで、豆包(ドウバオ)シリーズの新モデルおよびAIクラウドネイティブサービスのアップグレード成果を発表しました。その内容には、豆包・画像編集モデル3.0、同声翻訳モデル2.0、そして新たにアップグレードされた豆包大モデル1.6シリーズが含まれます。さらに、コツ(クーツー)のコア機能のオープンソース化や、企業向けの独自モデルホスティングソリューションなどのツールも提供され、企業や開発者によるエージェント構築とAIアプリケーションの実装にフルスタックなサポートを提供しています。
図:火山エッジの総裁であるタン・ダイ氏が最新の豆包モデルを発表
豆包シリーズの新モデルが企業向けに公開
AI画像編集における「指示が理解できない」「誤って内容を変更してしまう」「生成結果が悪い」といった課題に対応するため、火山エッジは豆包・画像編集モデル3.0(SeedEdit3.0)をリリースしました。このモデルは、指示の理解力や画像の保持能力、生成品質を強化し、自然言語だけで余分な要素を削除したり、光の明るさを調整したり、要素を置き換えたりといった操作が可能になります。また、スタイルの変換、素材の変更、ポーズの調整など、画期的な画像編集シーンにも対応しています。このモデルは映像制作や広告マーケティングなどの分野で幅広く活用できます。企業ユーザーは火山方舟からAPIを呼び出すことができ、個人ユーザーはジーメンまたは豆包アプリで体験できます。
最新版の豆包・同声翻訳モデル2.0(Seed-LiveInterpret2.0)は、従来の「級連モデル」の制約を突破し、全双工フレームワークを採用して音声遅延を8〜10秒から2〜3秒に短縮し、テキストと音声の同時生成を実現します。また、0サンプルでの音声再現にも対応しており、事前に録音する必要がなく、リアルタイムで同じ音色の外国語音声を生成することが可能です。さらに、地方言語の口調にも合わせることができ、多言語コミュニケーションの没入感を大幅に向上させます。
豆包大モデル1.6シリーズもアップグレードされました。その中でも、高速版のDoubao-Seed-1.6-flashモデルは、強力な視覚理解能力を維持しながら、コード、推論、数学などの能力を強化し、スマート点検やスマホアシスタントなどの大規模な商用シナリオに適しています。このモデルのTPOT(最初のトークン出力時間)はわずか10msであり、業界をリードしています。コスト面では、0〜32kの入力テキスト長(企業で最も一般的な範囲)において、100万トークンの入力で0.15元、出力で1.5元と、顧客の利用事例では遅延が60%低下し、コストが70%削減されていることが確認されています。
さらに、「テキスト+画像+動画」の混合モダリティ統合検索を初めて実現した、全モダリティベクトル化モデルSeed1.6-Embeddingは、企業がより強力なマルチモーダル知識ベースを構築するのを支援し、公式評価でマルチモーダル全体のタスクおよび中国語テキストの最優秀成績を獲得しました。
AIクラウドネイティブサービスの最適化により、エージェント開発の実装を加速
エージェントのエンド・トゥ・エンド開発と実装を支援するために、火山エッジはAIクラウドネイティブの全スタックサービスを継続的に最適化しています。7月26日、AIエージェント開発プラットフォーム「コツ」のコア機能が正式にオープンソース化され、ワンストップの視覚的開発ツール「コツ開発プラットフォーム(Coze Studio)」と全フロー管理ツール「コツロビ(Coze Loop)」が含まれています。Apache2.0ライセンスで、ユーザーはGitHubからダウンロード可能です。オープンソース後3日間で、Coze Studioのスター数は1万を突破し、Coze Loopのスター数は3,000を超えました。火山エッジはこれらに対して全面的なサポートを提供しており、企業向けAIプラットフォームHiAgentはこれらの機能を呼び出すことができます。クラウド基盤製品は一括展開をサポートしています。
モデルカスタマイズが必要な企業に対しては、火山エッジは火山方舟のモデルユニットを基盤として、独自モデルホスティングソリューションを提供しています。企業は下層のGPUリソースや複雑な設定の運用不要で、自社開発モデルの完全なホスティングが可能となり、柔軟な計算能力を享受し、デプロイ方法や機種を選択できるようになり、正確な遅延制御が可能となります。また、業務のピーク時にのみ支払いを行う必要がなく、現在は招待テストが開始されています。
同時に、火山方舟はAPIシステムをアップグレードし、Responses APIをリリースしました。このAPIはネイティブなコンテキスト管理機能を持ち、複数の会話チェーンの管理やテキストや画像などのマルチモーダルデータの接続をサポートします。キャッシュ機能を組み合わせることで、コストを80%削減することができます。また、一度のリクエストで複数のツールやモデルの組み合わせによる応答が可能であり、スマートアシスタントエージェントの開発を460行のコード、1〜2日から60行のコード、1時間にまで短縮し、効率を大幅に向上させます。