【AI日報】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目コンテンツをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用について理解を深めていただきます。

新規のAI製品クリックして詳細を確認https://app.aibase.com/zh

1. メイドゥーが新しい推論大規模モデル「LongCat-Flash-Thinking」をリリース

メイドゥーがリリースした「LongCat-Flash-Thinking」モデルは、強力な性能と柔軟なアーキテクチャにより、さまざまな分野で優れたパフォーマンスを示し、AIアプリケーション開発に新たな可能性をもたらしています。

image.png

【AiBase要約:】

🧠 LongCat-Flash-Thinking は混合専門家アーキテクチャに基づく大規模推論モデルであり、パラメータ数は5600億に達し、動的に186億〜313億のパラメータを活性化できます。

📊 数学的推論、一般的な推論、コード生成などのタスクにおいて優れた性能を発揮し、一部のテストではトップレベルの正確性を達成しています。

🔧 モデルの重みはオープンソースとなっており、詳細なチャットテンプレートおよび専用のチャットサイトが提供され、開発者の利用と研究に役立ちます。

詳細リンク:https://longcat.chat/

2. 1枚の画像からアニメーションを作成、人物をシームレスに置き換え!Wan-AnimateのオープンソースがAIビデオ革命を起こす、アリババのブラックテクノロジーが無料で遊べる?

Wan-Animateモデルのオープンソースリリースは、AIビデオ生成技術における重要な突破を意味しており、二つのタスク処理能力とマルチモーダル統合技術により、ビデオ制作に革命的な変化をもたらしました。

image.png

【AiBase要約:】

🎭 二つのタスクをワンクリックで完了:Wan-Animateはキャラクターのアニメーション生成とキャラクターの交換を同時に処理でき、ユーザーは一枚の画像と参考ビデオを提供するだけで高精度のアニメーションビデオを生成できます。

💡 マルチモーダル統合駆動:モデルは骨格信号によって体の動きを制御し、顔の暗黙的な特徴抽出およびRelighting LoRAモジュールによる環境照明の最適化を統合し、口唇同期の正確性と全身の動作再現効果を向上させます。

🚀 応用の広がり:Wan-Animateはエンタメや商業シーンにおいて大きな潜在力を有しており、音楽ビデオの制作、EC広告や企業研修などに適用される予定です。今後、複数のキャラクターを持つビデオへの対応も検討されています。

詳細リンク:https://github.com/Wan-Video/Wan2.2

3. 字節跳動が豆包翻訳大規模モデルをリリース:28言語相互翻訳、GPT-4oと同等

字節跳動傘下の火山エッジングは、新たに汎用翻訳大規模モデルである「豆包翻訳モデル」をリリースしました。このモデルは28言語の相互翻訳をサポートしており、性能は市場をリードするGPT-4oやGemini-2.5-Proと同等またはそれを上回っています。また、豆包翻訳モデルは価格面でも優れ、100万文字の入力につき1.20元、出力は3.60元です。

image.png

【AiBase要約:】

🤖 豆包翻訳モデルは28言語の相互翻訳をサポートし、GPT-4oやGemini-2.5-Proと同等の性能を持っています。

💰 翻訳価格は競争力があり、100万文字の入力につき1.20元、出力は3.60元です。

🔗 定価情報は火山エッジングの公式ドキュメントを参照してください。

詳細リンク:https://www.volcengine.com/docs/82379/1820188

4. ハウエイと浙江大学がDeepSeek-R1-Safe大規模モデルを共同リリース:AIセキュリティとパフォーマンスの完璧なバランス

ハウエイと浙江大学は、国内初の昇騰千カ算力プラットフォームを基盤とした基本的大規模モデル「DeepSeek-R1-Safe」を共同リリースしました。このモデルはAIセキュリティとパフォーマンスにおいて顕著な進歩を遂げており、将来のAI産業生態系の協調発展に新たな方向性を提示しています。

image.png

【AiBase要約:】

🧠 DeepSeek-R1-Safeは昇騰千カ算力プラットフォームに基づいて構築されており、AI分野におけるセキュリティとパフォーマンスの問題に焦点を当てています。

🛡️ このモデルは複数の有害情報防御次元で優れた性能を発揮しており、全体的な防御成功率はほぼ100%に近づいています。

🚀 一般的な能力ベンチマークテストにおいて、DeepSeek-R1-Safeのパフォーマンス損失は1%以内に制御されており、セキュリティとパフォーマンスのバランスを実現しています。

5. Qwen3-Omniが登場予定:エッジ側跨模態モデルの更なるアップグレード

アリババクラウドのQwenチームがリリース予定の最新跨模態モデル「Qwen3-Omni」は、Hugging FaceのTransformersライブラリにサポートPRを提出しており、これはオープンソースの統合を意味します。Qwen3-OmniはThinker-Talker二軌設計を採用しており、リソース制限のあるデバイスでの配置効率を向上させ、リアルタイムインタラクティブなシナリオに適しています。

image.png

【AiBase要約:】

🔥 Qwen3-OmniはアリババクラウドQwenチームが開発した最新の跨模態モデルで、多様なモーダル処理能力の向上を目指しています。

💡 このモデルはThinker-Talker二軌設計を採用しており、効率的なストリーミング処理を確保し、リアルタイムインタラクティブなシナリオに適しています。

🚀 Qwen3-OmniはHugging FaceのTransformersライブラリにサポートPRを提出しており、これはオープンソース統合の実現を示しています。

6. xAIがGrok4Fastをリリース:計算量が40%減少、単一タスクコストが98%に低下!

xAI社がリリースしたGrok4Fastモデルは、計算量と運用コストにおいて重要な突破を遂げました。また、性能テストにおいて優れた性能を発揮し、ユーザーに効率的で経済的なソリューションを提供しています。

image.png

【AiBase要約:】

🧠 Grok4Fastは計算量を40%削減し、複雑なタスクの処理効率を向上させました。

💰 単一タスクの運行コストが98%低下し、企業のコスト削減の機会を提供しました。

📊 GPQA DiamondおよびAIME2025ベンチマークテストにおいて優れた性能を発揮し、強力な性能を示しています。

7. YouTubeが新ツールと機能をリリースし、クリエイターをさらに成長させる

YouTubeは年間イベントで、ライブ配信、収益化方法、AI補助創作に関する多くの新機能とツールを発表しました。これらの更新により、クリエイターのコンテンツ管理効率と視聴者とのインタラクション体験が向上することを目的としています。

image.png

【AiBase要約:】

🎥 新しいスタジオ機能:インスピレーションタグ、タイトルのA/Bテスト、肖像認識などのツールを導入し、クリエイターがコンテンツを管理するのを支援します。

🎮 ライブ配信のアップグレード:ゲームプレイ、横向き・縦向きのライブ配信、AI自動ハイライト機能をサポートし、ライブ配信体験を向上させます。

💰 新しい収益化方法:ブランドコラボレーションとショッピングプランを通じて、クリエイターはより多くの収益機会を得ることができます。

8. IBMがGranite-Docling-258Mモデルをリリースし、ファイル変換技術に新たな突破をもたらす

IBMは文書処理に特化した軽量なビジョン言語AIモデル「Granite-Docling-258M」をリリースしました。このモデルは、識別精度、多言語サポート、文書要素の処理において突出しており、元の文書のレイアウト構造を保持し、複数の出力形式をサポートします。

image.png

【AiBase要約:】

📄 オープンソースモデル:Granite-Docling-258Mはファイル変換に特化しており、パラメータ数は2億5800万です。

🔍 高い識別精度:従来のOCRソフトウェアよりも識別精度が大幅に向上しています。

🌍 多言語サポート:現在、中国語、アラビア語、日本語をサポートしており、将来的にはさらに多くの言語を追加する予定です。

詳細リンク:https://huggingface.co/ibm-granite/granite-docling-258M

9. 中科院が脳に似た大規模モデルSpikingBrainをリリース:2%のデータで百倍の速度を達成

中科院がリリースした脳に似た大規模モデル「SpikingBrain」は、長文処理において驚異的な速度と効率を示し、その独自のアーキテクチャとアルゴリズムにより、人工知能分野に重要な突破をもたらしています。

image.png

【AiBase要約:】

🧠 SpikingBrainモデルは混合線形注意機構を採用しており、計算複雑度が二次方から一次に低下しています。

💡 自适应閾値スパイク神経細胞メカニズムにより、エネルギー消費が大幅に削減され、高い計算疎性を実現しています。

🚀 このモデルは長文処理において主流モデルの100倍速く、わずか2%のトレーニングデータで動作します。

詳細リンク:https://github.com/BICLab/SpikingBrain-7B

10. OpenAI CEOが計算集約型の新機能を発表、一部はProユーザーのみ対象

OpenAIのCEOであるSam Altmanは、今後数週間で計算リソースを必要とする一連の新サービスをリリースすると発表しました。初期段階ではProサブスクリプションユーザーのみが利用可能となり、追加料金がかかる可能性があります。Altman氏は、OpenAIの目標として、スマートサービスのコストを低下させ、より広範囲に利用可能にすることが長期的な目標であることを強調しています。

image.png

【AiBase要約:】

🚀 OpenAIは計算集約型の新機能をリリースし、初期段階ではProユーザーのみが利用可能です。

💰 新機能は高い計算コストに対応するために追加料金がかかる可能性があります。

💡 Altman氏は、スマートサービスのコストを低下させ、利用可能性を向上させることを長期的な目標としています。