【AIデイリーニュース】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな情報をご提供し、開発者に焦点を当てて、技術トレンドや革新的なAI製品の応用について理解を深めていただきます。

新鮮なAI製品:クリックして詳細を確認https://app.aibase.com/zh

1、快手がKATシリーズAgentic Coding大規模モデルを発表 コード処理能力が優れている

快手傘下のKwaipilotチームは、画期的な大規模モデルであるKATシリーズのKAT-Dev-32BとKAT-Coderを発表しました。これらのモデルはCode Intelligence分野で優れた性能を発揮しており、それぞれ異なるユーザーのニーズやアプリケーションシナリオに対応しています。SWE-Bench Verifiedテストにおいて、KAT-Dev-32Bは62.4%の解決率を達成し、KAT-Coderは73.4%という高い解決率を記録しています。

image.png

【AiBaseの要約:】

🧠 KAT-Dev-32Bはオープンソースの32億パラメータモデルで、解決率は62.4%です。

💻 KAT-Coderは閉鎖型のエリートモデルで、解決率は73.4%に達し、優れた性能を発揮しています。

🌐 KAT-Dev-32BはHugging Faceプラットフォーム上で公開されています。KAT-CoderはStreamLakeプラットフォームを通じてAPI呼び出しを行うことができます。

詳細リンク: https://kwaipilot.github.io/KAT-Coder/ https://huggingface.co/Kwaipilot/KAT-Dev

2、騰訊が「混元画像3.0」を正式発表 マルチモーダル画像生成の新時代を開く

騰訊は「混元画像3.0」を正式発表し、マルチモーダル画像生成分野における重要な突破を示しています。これは人工知能によるコンテンツ生成(AIGC)技術の進展に新たな活力をもたらします。

image.png

【AiBaseの要約:】

🧠 混元画像3.0は、最初のオープンソースの産業級マルチモーダル画像生成モデルで、強力な意味解析能力を持っています。

🚀 3.0バージョンは2.0バージョンよりもモデルの複雑さと表現力をさらに向上させ、ミリ秒単位の応答速度と超現実的な画像品質を実現しています。

💡 腾讯の混元シリーズは、3D生成やカスタマイズ可能な画像生成などのツールを含む、完全なAIGC技術マトリクスを構築しています。

3、アップルがチャットGPT風のアプリを開発中 Siriが大幅リニューアル予定

アップル社は、チャットGPTのようなiPhone向けアプリを開発中で、Siriの大幅リニューアルをテストしています。このアプリは、個人データの検索と操作の効率を向上させ、音声認識と理解能力を強化し、よりスマートで人間らしいサービスを提供する予定です。

image.png

【AiBaseの要約:】

🍎 新しいアプリにより、Siriは検索や操作能力が向上し、曲の検索や写真の編集が可能になります。

🤖 アップルはチャットGPTに似たアプリを開発しており、Siriの新しい機能をテストしています。

📈 今後、Siriの音声認識と理解能力が著しく向上し、より自然な会話体験を提供する予定です。

4、グーグルがGemini 2.5 Flash Liteを更新 最速の専有モデルに

グーグルはGeminiシリーズの大規模言語モデルを重要更新し、特にGemini2.5FlashとFlash Liteに注力して、速度と効率の向上を強調しました。これらの改善は、グーグルがAI分野で継続的に進歩していることを示しており、開発者に多くの柔軟性を提供しています。

image.png

【AiBaseの要約:】

🌟 Gemini2.5Flash Liteは最速の専有モデルで、出力速度は秒間887トークンです。

🚀 新モデルは出力品質とコスト効率が顕著に向上し、特にFlash Liteでは出力トークンが50%削減されています。

🗣️ Gemini Liveの更新により、音声アシスタントの機能が強化され、関数呼び出しの正確性と自然な会話の能力が向上しています。

5、アップルが新画像モデルManzanoをリリース 理解と生成の両方の能力を備える

アップルがリリースしたManzano画像モデルは、画像の理解と生成を同時に処理できるように設計されており、現在のオープンソースモデルがどちらか一方を選ぶ必要がある問題を解決しています。このモデルは混合画像マーカーを使用し、衝突を減少させ、テキストが密集したタスクにおいて優れた性能を発揮しています。

image.png

【AiBaseの要約:】

🌟 Manzanoは、画像の理解と生成の両方を行える新しい画像モデルです。

🔍 アップルの研究によると、Manzanoは複雑なテキストタスクにおいて優れた性能を発揮し、商業システムに近いレベルに達しています。

⚙️ このモデルは混合画像マーカーを使用し、画像の理解と生成の間に生じる衝突を減少させています。

詳細リンク: https://arxiv.org/abs/2509.16197

6、YouTube MusicがAI音楽キャスター機能をテスト 楽曲の裏話やファンのエピソードを提供し、Spotify AI DJと対抗

YouTube MusicはAI音楽キャスター機能をテストしており、ユーザーが再生する楽曲に関連する物語やファンのエピソード、コメント解説などを提供しています。この機能はSpotify AI DJへの対応であり、ユーザーの没入感のある聴覚体験を向上させる目的があります。

image.png

【AiBaseの要約:】

🎥 YouTube MusicはAI音楽キャスター機能を導入し、楽曲の裏話や面白みのある内容をユーザーに提供しています。

🎧 SpotifyのAI DJは既に音声コメントを提供しており、YouTube Musicは同様の機能によって競争しています。

🌐 YouTube Labsはすべてのユーザーに開放されていますが、現在は一部の米国ユーザーのみがテストに参加可能です。

7、粗い幾何からリアルな3D動画へ:VideoFrom3Dがグラフィックデザインの新時代を切り開く

本記事では、画像と動画の拡散モデルを融合して、非常にリアルでスタイルが一貫した3Dシーンの動画を生成する技術であるVideoFrom3Dフレームワークを紹介しています。このフレームワークは高価なペアリングされた3Dデータセットに依存することなく、デザインプロセスを大幅に簡素化し、生成効率を向上させ、複雑な動的シナリオでも優れた性能を発揮しています。

image.png

【AiBaseの要約:】

🧠 稀疏なアンカー視図生成(SAG)モジュールは、画像拡散モデルを活用し、参照画像と粗い幾何に基づいて高品質な跨視図の一貫したアンカー視図を生成します。

🎥 几何誘導生成插幀(GGI)モジュールは、ビデオ拡散モデルを利用して、アンカー視図に基づき中間フレームを補間し、滑らかな運動と時間的一貫性を実現します。

🚀 VideoFrom3Dは高価なペアリングされた3Dデータセットに依存しないため、デザインプロセスを大幅に簡素化し、デザイナーと開発者が創造性をより効率的に探求し、高品質な成果を迅速に出すことが可能になります。

詳細リンク: https://kimgeonung.github.io/VideoFrom3D/

8、Moondream3.0がリリース 複数のベンチマークテストでGPT-5などトップモデルを上回る

Moondream3.0は、効率的な混合エキスパートアーキテクチャと軽量設計により、視覚推論能力が優れており、複数のベンチマークテストでGPT-5、Gemini、Claude4などのトップモデルを上回っています。また、オープンワードオブジェクト検出、構造化出力、および多様なシナリオ応用、例えばセキュリティ監視、医療画像、ドキュメント処理などにも対応しています。オープンソース設計により、配置や使用が容易で、エッジコンピューティング環境にも適しています。

image.png

【AiBaseの要約:】

🧠 Moondream3.0は効率的な混合エキスパートアーキテクチャを採用しており、2億パラメータのみを活性化させ、軽量設計を実現しています。

🔍 オープンワードオブジェクト検出と構造化出力をサポートし、さまざまな複雑なシナリオに適用できます。

💻 オープンソース設計により、エッジコンピューティングに適しており、開発者は簡単にその強力な機能を解放することができます。