バイトダンス傘下の即夢AI(Jimeng AI)が、即夢3.0の海外版を正式にリリースしました。これは、同社のテキストから画像・動画を生成する技術が世界市場へとさらに拡大することを意味します。AIbaseの調査によると、新バージョンは映画レベルの画質、2K解像度出力、超リアルな素材と正確な英語組版を主要な特徴としており、特に英語テキストの生成とフォント制御においては、以前の中国語バージョンを凌駕するパフォーマンスを見せています。リリース情報はソーシャルメディア上で大きな話題となっており、関連機能は即夢の公式ウェブサイトとモバイルアプリで体験できます。
主要機能:映画レベルのビジュアルと正確なテキスト生成
即夢3.0海外版は技術のアップグレードにより、かつてないビジュアル制作体験を提供します。AIbaseがその主要機能をまとめました:
映画レベルの画質:生成される画像と動画は、高ダイナミックレンジ(HDR)と繊細な陰影効果を備え、プロの映画制作レベルに近づいています。ハイエンドな広告や映画のプリビジュアライゼーションに最適です。
2K解像度出力:2048x2048ピクセルの画像と動画に対応し、細部までクリアで、ソーシャルメディア、デジタルアート、商業的なプレゼンテーションのニーズを満たします。
超リアルな素材とテクスチャ:改良された拡散モデルにより、リアルな肌、金属、布地などの素材を生成します。物体のテクスチャは層がはっきりしており、「サイバーパンクな街の夜景」のガラスの反射効果などが見られます。
正確な英語組版:フォントの選択、間隔、配置を最適化し、生成される英語テキスト(ポスターのタイトル、製品ラベルなど)はクリーンでプロフェッショナルな仕上がりになり、正確性は中国語バージョンよりも大幅に向上しています。
マルチモーダル創作サポート:テキストから画像(T2I)、画像から画像(I2I)、テキストから動画(T2V)に対応しており、ユーザーは「蒸気パンク風のロンドンの街並み」など、複雑なシーンを英語のプロンプトで生成できます。
AIbaseは、コミュニティテストにおいて、ユーザーが「A futuristic billboard with bold English text ‘Welcome to 2050’」というプロンプトを使用して、視覚的に衝撃的なポスターを生成したことに注目しました。英語の組版はクリアでスタイルが統一されており、プロのデザインソフトウェアに匹敵します。
公式からの動画
技術アーキテクチャ:マルチモーダルモデルとOCRの最適化
即夢3.0海外版は、バイトダンスのVeOmniフレームワークと改良されたGoku AIモデルに基づいており、マルチモーダル生成とテキストレンダリング技術を統合しています。AIbaseの分析によると、そのコア技術には以下が含まれます:
強化型拡散トランスフォーマー:整流流トランスフォーマー(Rectified Flow Transformer)を採用し、高解像度生成を最適化しています。2K画像の生成平均時間は5~7秒で、動画生成は5秒/129フレームに対応しています。
OCRと組版モジュール:事前学習済みのOCRデータセットとフォントレイアウトロジックにより、英語テキストのセマンティック理解と視覚的な表現が大幅に向上し、スペルミスや組版のずれが減少します。
多言語プロンプト最適化:多言語CLIPモデル(CLIP-ViT-L-336pxを参照)により、英語プロンプトのセマンティック解析が強化され、生成されたコンテンツとユーザーの意図が高度に一致するようになります。
効率的な推論:ByteScale分散型計算とFP8量子化技術を活用することで、GPUメモリのニーズを削減します。推奨ハードウェアはNVIDIA A100(40GB)またはRTX4090(24GB)です。
AIbaseは、即夢3.0の英語組版におけるブレークスルーは、西側市場への特別な最適化によるものであり、ByteDanceのTikTokコンテンツエコシステムにおけるビジュアルデザインの経験を活かしたものだと考えています。
適用事例:デジタルアートから商業マーケティングまで
即夢3.0海外版の映画レベルのビジュアルと正確な組版機能は、幅広い適用事例を生み出しています。AIbaseがその主な用途をまとめました:
デジタルアートとNFT:アーティストは高解像度のイラストやダイナミックな動画(「サイバーパンク風のNFTアバター」など)を生成し、OpenSeaなどのプラットフォームで直接使用できます。
映画と広告:映画ポスター、宣伝用短編動画、製品紹介動画の迅速な生成をサポートします(「2025年SF映画予告編」や「高級腕時計広告」など)。
ソーシャルメディアコンテンツ:TikTok、Instagramなどのプラットフォーム向けに目を引くビジュアルコンテンツを生成し、英語の組版により国際的なブランドの一貫性を確保します。
ブランドデザイン:企業は正確な英語テキストを含むパッケージデザインや宣伝資料(「オーガニックハチミツの瓶のラベル」や「テクノロジー企業のロゴ」など)を生成できます。
教育と文化発信:英語テキストを組み合わせた視覚的な教材や文化的な宣伝コンテンツ(「ロンドンの歴史的建造物のイラスト」など)を生成できます。
コミュニティの事例では、ユーザーが即夢3.0を使用して「超現実主義的なニューヨークの街並みポスター」を生成し、「New York 2050」という英語のタイトルの組版はスムーズで、視覚効果はAdobe Photoshopに匹敵します。AIbaseは、CapCutとの潜在的な統合により、動画のポストプロダクションワークフローがさらに簡素化されると見ています。
入門ガイド:世界中のユーザーがすぐに体験可能
AIbaseの調査によると、即夢3.0海外版は、即夢の公式ウェブサイト(jimeng.jianying.com)とiOS/Androidアプリで利用可能になり、一部の機能は有料サブスクリプション(月額約69元から)が必要です。ユーザーは以下の手順で簡単に始めることができます:
即夢AIアプリ(App Store/Google Play)をダウンロードするか、jimeng.jianying.comにアクセスします。
「Image3.0」または「Video3.0」モデルを選択し、英語のプロンプトを入力します(例:「A cinematic poster for a sci-fi movie, with bold English title ‘Galaxy Quest’」)。
解像度(デフォルトは2K)とスタイルパラメーターを調整し、生成を実行します。所要時間は約5~10秒です。
画像(PNG/JPEG)または動画(MP4)をエクスポートし、TikTokに直接共有したり、デバイスに保存したりできます。
コミュニティでは、具体的なプロンプトを使用し、フォントスタイルを明確にする(例:「futuristic sans-serif」)ことで、英語の組版効果を最適化することを推奨しています。AIbaseは、無料ユーザーは1日あたりのポイント数が制限されている(約100ポイント)ため、完全な機能を利用するにはサブスクリプションを検討することをお勧めします。
コミュニティの反応と改善の方向性
即夢3.0海外版のリリース後、コミュニティはその映画レベルのビジュアルと英語の組版機能を高く評価しています。開発者は「AI画像生成をプロのデザイン領域へと押し上げた」と述べており、特に国際的なマーケティングコンテンツの作成においてその優れたパフォーマンスが際立っています。しかし、一部のユーザーは、中国語の組版効果はまだ改善が必要であり、高解像度生成はハードウェアの要件が高いと指摘しています。コミュニティでは、4K出力とより長い動画生成(例:10秒)への対応も期待されています。バイトダンスは、次のバージョンでは多言語組版の一貫性を強化し、ローエンドデバイスのパフォーマンスを最適化すると回答しています。AIbaseは、即夢3.0がDoubaoエコシステムとさらに統合され、世界中のクリエイター向けの「AIコンテンツマーケット」が提供される可能性があると予測しています。
体験アドレス:https://dreamina.capcut.com/