AIニュース：テンセントが混元画像3.0を発表；快手がKATシリーズのAgentic Coding大規模モデルをリリース；アップルがChatGPT風アプリを開発中

【AIデイリーニュース】へようこそ！ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな情報をご提供し、開発者に焦点を当てて、技術トレンドや革新的なAI製品の応用について理解を深めていただきます。

新鮮なAI製品：クリックして詳細を確認：https://app.aibase.com/zh

1、快手がKATシリーズAgentic Coding大規模モデルを発表　コード処理能力が優れている

快手傘下のKwaipilotチームは、画期的な大規模モデルであるKATシリーズのKAT-Dev-32BとKAT-Coderを発表しました。これらのモデルはCode Intelligence分野で優れた性能を発揮しており、それぞれ異なるユーザーのニーズやアプリケーションシナリオに対応しています。SWE-Bench Verifiedテストにおいて、KAT-Dev-32Bは62.4％の解決率を達成し、KAT-Coderは73.4％という高い解決率を記録しています。

【AiBaseの要約：】
🧠 KAT-Dev-32Bはオープンソースの32億パラメータモデルで、解決率は62.4％です。
💻 KAT-Coderは閉鎖型のエリートモデルで、解決率は73.4％に達し、優れた性能を発揮しています。
🌐 KAT-Dev-32BはHugging Faceプラットフォーム上で公開されています。KAT-CoderはStreamLakeプラットフォームを通じてAPI呼び出しを行うことができます。
詳細リンク: https://kwaipilot.github.io/KAT-Coder/ https://huggingface.co/Kwaipilot/KAT-Dev

2、騰訊が「混元画像3.0」を正式発表　マルチモーダル画像生成の新時代を開く

騰訊は「混元画像3.0」を正式発表し、マルチモーダル画像生成分野における重要な突破を示しています。これは人工知能によるコンテンツ生成（AIGC）技術の進展に新たな活力をもたらします。

【AiBaseの要約：】
🧠 混元画像3.0は、最初のオープンソースの産業級マルチモーダル画像生成モデルで、強力な意味解析能力を持っています。
🚀 3.0バージョンは2.0バージョンよりもモデルの複雑さと表現力をさらに向上させ、ミリ秒単位の応答速度と超現実的な画像品質を実現しています。
💡 腾讯の混元シリーズは、3D生成やカスタマイズ可能な画像生成などのツールを含む、完全なAIGC技術マトリクスを構築しています。

3、アップルがチャットGPT風のアプリを開発中　Siriが大幅リニューアル予定

アップル社は、チャットGPTのようなiPhone向けアプリを開発中で、Siriの大幅リニューアルをテストしています。このアプリは、個人データの検索と操作の効率を向上させ、音声認識と理解能力を強化し、よりスマートで人間らしいサービスを提供する予定です。

【AiBaseの要約：】
🍎 新しいアプリにより、Siriは検索や操作能力が向上し、曲の検索や写真の編集が可能になります。
🤖 アップルはチャットGPTに似たアプリを開発しており、Siriの新しい機能をテストしています。
📈 今後、Siriの音声認識と理解能力が著しく向上し、より自然な会話体験を提供する予定です。

4、グーグルがGemini 2.5 Flash Liteを更新　最速の専有モデルに

グーグルはGeminiシリーズの大規模言語モデルを重要更新し、特にGemini2.5FlashとFlash Liteに注力して、速度と効率の向上を強調しました。これらの改善は、グーグルがAI分野で継続的に進歩していることを示しており、開発者に多くの柔軟性を提供しています。

【AiBaseの要約：】
🌟 Gemini2.5Flash Liteは最速の専有モデルで、出力速度は秒間887トークンです。
🚀 新モデルは出力品質とコスト効率が顕著に向上し、特にFlash Liteでは出力トークンが50％削減されています。
🗣️ Gemini Liveの更新により、音声アシスタントの機能が強化され、関数呼び出しの正確性と自然な会話の能力が向上しています。

5、アップルが新画像モデルManzanoをリリース　理解と生成の両方の能力を備える

アップルがリリースしたManzano画像モデルは、画像の理解と生成を同時に処理できるように設計されており、現在のオープンソースモデルがどちらか一方を選ぶ必要がある問題を解決しています。このモデルは混合画像マーカーを使用し、衝突を減少させ、テキストが密集したタスクにおいて優れた性能を発揮しています。

【AiBaseの要約：】
🌟 Manzanoは、画像の理解と生成の両方を行える新しい画像モデルです。
🔍 アップルの研究によると、Manzanoは複雑なテキストタスクにおいて優れた性能を発揮し、商業システムに近いレベルに達しています。
⚙️ このモデルは混合画像マーカーを使用し、画像の理解と生成の間に生じる衝突を減少させています。
詳細リンク: https://arxiv.org/abs/2509.16197

6、YouTube MusicがAI音楽キャスター機能をテスト　楽曲の裏話やファンのエピソードを提供し、Spotify AI DJと対抗

YouTube MusicはAI音楽キャスター機能をテストしており、ユーザーが再生する楽曲に関連する物語やファンのエピソード、コメント解説などを提供しています。この機能はSpotify AI DJへの対応であり、ユーザーの没入感のある聴覚体験を向上させる目的があります。

【AiBaseの要約：】
🎥 YouTube MusicはAI音楽キャスター機能を導入し、楽曲の裏話や面白みのある内容をユーザーに提供しています。
🎧 SpotifyのAI DJは既に音声コメントを提供しており、YouTube Musicは同様の機能によって競争しています。
🌐 YouTube Labsはすべてのユーザーに開放されていますが、現在は一部の米国ユーザーのみがテストに参加可能です。

7、粗い幾何からリアルな3D動画へ：VideoFrom3Dがグラフィックデザインの新時代を切り開く

本記事では、画像と動画の拡散モデルを融合して、非常にリアルでスタイルが一貫した3Dシーンの動画を生成する技術であるVideoFrom3Dフレームワークを紹介しています。このフレームワークは高価なペアリングされた3Dデータセットに依存することなく、デザインプロセスを大幅に簡素化し、生成効率を向上させ、複雑な動的シナリオでも優れた性能を発揮しています。

【AiBaseの要約：】
🧠 稀疏なアンカー視図生成（SAG）モジュールは、画像拡散モデルを活用し、参照画像と粗い幾何に基づいて高品質な跨視図の一貫したアンカー視図を生成します。
🎥 几何誘導生成插幀（GGI）モジュールは、ビデオ拡散モデルを利用して、アンカー視図に基づき中間フレームを補間し、滑らかな運動と時間的一貫性を実現します。
🚀 VideoFrom3Dは高価なペアリングされた3Dデータセットに依存しないため、デザインプロセスを大幅に簡素化し、デザイナーと開発者が創造性をより効率的に探求し、高品質な成果を迅速に出すことが可能になります。
詳細リンク: https://kimgeonung.github.io/VideoFrom3D/

8、Moondream3.0がリリース　複数のベンチマークテストでGPT-5などトップモデルを上回る

Moondream3.0は、効率的な混合エキスパートアーキテクチャと軽量設計により、視覚推論能力が優れており、複数のベンチマークテストでGPT-5、Gemini、Claude4などのトップモデルを上回っています。また、オープンワードオブジェクト検出、構造化出力、および多様なシナリオ応用、例えばセキュリティ監視、医療画像、ドキュメント処理などにも対応しています。オープンソース設計により、配置や使用が容易で、エッジコンピューティング環境にも適しています。

【AiBaseの要約：】
🧠 Moondream3.0は効率的な混合エキスパートアーキテクチャを採用しており、2億パラメータのみを活性化させ、軽量設計を実現しています。
🔍 オープンワードオブジェクト検出と構造化出力をサポートし、さまざまな複雑なシナリオに適用できます。
💻 オープンソース設計により、エッジコンピューティングに適しており、開発者は簡単にその強力な機能を解放することができます。