【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、テンセント混元、5つのオープンソース3Dモデルを発表:30秒で生成、マルチプラットフォーム対応

テンセント混元は、Hunyuan3D-2.0をベースにした5つの新しいオープンソース3D生成モデルを発表しました。生成速度が速く、ディテールも豊富です。TurboシリーズモデルはFlashVDMフレームワークを利用して生成を高速化し、30秒以内での完了を実現しました。アップグレードされた3D AI創作エンジンはマルチビュー入力に対応しており、ユーザーは少量の画像をアップロードするだけで、高品質な3Dモデルを迅速に生成でき、制作コストを削減できます。新しいモデルは、UGC、商品素材合成、ゲームアセット生成など、幅広い用途でゲーム3Dアセットの標準を満たしています。

image.png

【AiBase要約:】

⚡ TurboシリーズモデルはFlashVDMフレームワークにより、生成時間を数十倍高速化し、30秒に短縮しました。

🖼️ Hunyuan3D-2-MVモデルはディテールをより正確に捉え、ユーザーの期待に応える3Dアセットを生成します。

🛠️ アップグレードされたエンジンはマルチビュー入力をサポートしており、ユーザーは2~4枚の画像をアップロードするだけで、高品質な3Dモデルを迅速に生成できます。

2、Anthropic、MCP転送メカニズムの大幅なアップグレードを発表:長接続からの脱却、より柔軟なStreamable HTTPへ

Anthropicは、Model Context Protocol(MCP)を大幅に更新し、従来のHTTP+SSE方式に代わるStreamable HTTP転送方式を発表しました。この革新により、MCPリモート転送の主要な制限が解消され、柔軟性と互換性が向上しました。新しいメカニズムにより、クライアントとサーバー間のより効率的な双方向通信が可能になり、ステートレスサーバーの運用をサポートし、展開プロセスを簡素化し、システムの拡張性を向上させます。

image.png

【AiBase要約:】

🚀 専用の/sseエンドポイントを削除し、すべてのメッセージを統一された/messageエンドポイントを介して転送することで、通信プロセスを簡素化しました。

🔄 サーバーはHTTPリクエストをSSEストリームに動的にアップグレードでき、柔軟な双方向通信をサポートし、SSEの単方向制限を解消します。

🌐 新しいソリューションの互換性が大幅に向上し、さまざまなネットワークインフラストラクチャに適用でき、ステートレスモードをサポートすることでリソース消費を削減します。

詳細リンク:https://github.com/modelcontextprotocol/specification/pull/206

3、生数科技Vidu、初の海外AIオリジナルSFアニメシリーズを制作へ

生数科技有限公司とAura Productionsは戦略的パートナーシップを締結し、初の海外AIオリジナルSFアニメシリーズを制作する予定です。この協力は、アニメ制作におけるAI技術の応用を象徴し、アニメ業界の新たな章を開きます。両社は共同で50話の短編SFアニメシリーズを制作し、Viduの高度なビデオ生成技術を活用して、制作効率と品質を向上させ、将来のアニメーション制作がよりインテリジェントで効率的になることを示唆しています。

image.png

【AiBase要約:】

🚀 50話の短編SFアニメシリーズを共同制作し、世界の主要なソーシャルメディアプラットフォームで公開予定です。

🤖 Viduのマルチエージェント一貫性機能により、キャラクターとシーンのシームレスな統合が確保され、高品質なアニメーションのナラティブを実現します。

⏱️ Vidu 2.0バージョンではビデオ生成効率が大幅に向上し、10秒以内で高品質なビデオを迅速に生成できます。

4、Google Cloud、高精細音声モデルChirp 3を発表、248種類の音声に対応

Google CloudはロンドンのDeepMind本社で、開発者に強力な音声合成ツールを提供することを目的とした高精細音声モデルChirp 3を発表しました。このモデルは248種類の異なる音声と31種類の言語に対応しており、開発者がスマート音声アシスタント、オーディオブック、ビデオの吹き替えなどのアプリケーションを作成するのに役立ちます。責任ある使用を確保するために、Googleは音声クローン機能へのアクセスを制限し、データプライバシーへのコミットメントを改めて表明しました。

image.png

【AiBase要約:】

🌟 Google CloudはChirp 3音声モデルを発表し、248種類の音声と31種類の言語に対応し、開発者がスマートアプリケーションを構築するのを支援します。

🔒 Googleは倫理的なAIの実践と悪用防止のために、音声クローン機能へのアクセスを制限しています。

💼 Googleは英国のAIスキル向上計画を開始し、スタートアップ企業にクラウドインフラストラクチャのサポートを提供して、イノベーションを促進しています。

詳細リンク:https://cloud.google.com/text-to-speech/docs/chirp3-hd

5、マスク氏のxAI、ビデオ生成スタートアップHotshotを買収、AIビデオ分野の競争が激化

イーロン・マスク氏のxAI社は、ビデオ生成AIスタートアップのHotshotを買収しました。これは、マルチモーダルAI技術分野へのさらなる拡大を示しています。Hotshotは独自の技術的優位性と強力なコンピューティングパワーにより、ビデオ生成能力の向上を目指しています。

image.png

【AiBase要約:】

🤖 HotshotはAIビデオ生成に特化しており、600万個のビデオクリップを使用してトレーニングを行い、モデルのビデオコンテンツの理解能力を向上させています。

⚙️ 買収後、HotshotはxAIのColossusスーパーコンピューターの強力なコンピューティングパワーを活用して、ビデオジェネレーターの開発を継続します。

💼 この買収は、マスク氏のAI技術分野へのさらなる投資を示しており、AIビデオ生成技術が新たなブレークスルーを迎えることを示唆しています。

6、Roblox、Cube3Dをオープンソース化:3Dオブジェクト生成を実現する初の基本AIモデル

Robloxは最近、3Dオブジェクト生成のための最初の基本AIモデルであるCube3Dを発表し、オープンソース化しました。これは3D創作効率の向上を目指しています。このモデルは革新的なトレーニング方法により、3Dオブジェクトをトークン化し、完全な3D形状を迅速に生成できます。将来的には、Cube3Dはテキスト、画像、ビデオなど、さまざまな入力タイプをサポートするマルチモーダルモデルに発展し、Robloxの既存のAI創作ツールとの統合をさらに強化します。

image.png

【AiBase要約:】

🛠️ Cube3DはRoblox初のオープンソース3Dオブジェクト生成AIモデルであり、開発者の創作効率の向上を目指しています。

🔍 このモデルは革新的なトレーニング方法により、3Dオブジェクトをトークン化し、次の形状を予測することで、完全な3Dオブジェクトを迅速に構築できます。

🌐 RobloxはCube3Dをマルチモーダルモデルに発展させる計画であり、将来的にはテキスト、画像、ビデオの入力をサポートし、創作ツールの機能を強化します。

7、Zoom AIアシスタントAI Companion機能のアップグレード

Zoom社は最近、AIアシスタントZoom AI Companionの機能アップグレードを発表しました。これは、ビデオ会議におけるユーザーのインタラクション体験と作業効率の向上を目指した、このツールの進化を示しています。新しい機能には、タスクを自動的に認識して完了するZoom Tasks、オフラインの会話を書き起こす新しい音声レコーダー、AIアシスタントのカスタマイズなどがあり、ユーザーの生産性とコラボレーション能力を大幅に向上させることが期待されています。image.png

【AiBase要約:】

🌟 Zoom Tasks機能は、会議中のタスクを自動的に認識して関連タスクを完了できます。

🗣️ 新しい音声レコーダーはオフラインの会話を書き起こし、リアルタイムの会議ノートを提供します。

📅 AIアシスタントのカスタマイズ機能は4月にリリースされ、ユーザーはニーズに合わせて機能をカスタマイズできます。

8、128K超長記憶!Mistral最新オープンソースモデルMistral Small 3.1登場、パラメーターはGPT-4o Miniを上回る

Mistral AIはオープンソースモデルMistral Small 3.1を発表しました。240億パラメーターの設計により、GoogleやOpenAIの製品に匹敵する性能を発揮します。このモデルはテキスト処理とマルチモーダル理解において顕著な改善が見られ、128kトークンのコンテキストウィンドウをサポートし、毎秒150トークンの処理速度を実現しています。

image.png

【AiBase要約:】

🌟 Mistral Small 3.1は240億パラメーターを備え、GoogleやOpenAIの同等の製品に匹敵する性能を持ち、AI市場の競争を促進します。

📈 このモデルは128kトークンのコンテキストウィンドウをサポートし、毎秒150トークンの処理速度を実現しており、長文ドキュメントや迅速な応答が必要なシナリオに適しています。

🌍 MistralはApache 2.0ライセンスでオープンソース化し、ヨーロッパのデジタル主権を強調し、世界中の開発者の参加を促しています。

詳細リンク:https://top.aibase.com/tool/mistral-small-3-1

9、ビデオは「ワンカット」だけじゃない?バイトダンスの革新的技術LCT、AIがまるで映画監督のように大作を撮影!

ロングコンテキスト調整(LCT)技術の登場により、AIによるビデオ生成のナラティブ能力が大幅に向上し、映画監督のように自由にショットを切り替え、より一貫性のあるストーリーシーンを構築できるようになりました。フルアテンションメカニズム、インターリーブされた3D位置埋め込み、非同期ノイズ戦略を導入することで、LCTはマルチショット生成における視覚的一貫性と時間ダイナミクスに関する問題を解決しました。

image.png

【AiBase要約:】

🎥 LCT技術により、AIビデオ生成モデルはマルチショットナラティブビデオを監督することができ、ナラティブ能力が向上します。

🔍 フルアテンションメカニズムとインターリーブされた3D位置埋め込みにより、LCTは視覚的一貫性と時間ダイナミクスを確保します。

🚀 LCTは自己回帰ショット拡張をサポートしており、長尺ビデオの作成とインタラクティブな修正が容易になります。

詳細リンク:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct

10、32Bパラメーターの「逆襲」!OLMo 2 32Bが登場、GPT-3.5 Turboに挑む

OLMo 2 32Bは、アレン人工知能研究所が発表した最新の巨大言語モデルです。320億パラメーターと完全にオープンソースである特性により、多くの独自モデルに挑戦しています。洗練されたトレーニングプロセスを通じて、OLMo 2 32Bは複数のベンチマークテストでGPT-3.5 TurboとGPT-4o miniを上回り、卓越した性能と高いトレーニング効率を示しました。

image.png

【AiBase要約:】

🌐 OLMo 2 32Bは完全にオープンソースの言語モデルであり、すべてのデータ、コード、トレーニングプロセスを公開して、世界的な研究協力に貢献します。

📈 このモデルは320億パラメーターを持ち、複数のベンチマークテストでGPT-3.5 Turboを上回り、オープンソースモデルの強力な能力を実証しています。

⚡ OLMo 2 32Bはトレーニング効率に優れており、計算リソースのわずか3分の1しか使用せず、効率的なAI開発の可能性を示しています。

詳細リンク:https://github.com/allenai/OLMo-core