【AI日报】のコーナーへようこそ!ここは毎日人工知能世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品・応用を理解するお手伝いをします。

新鮮なAI製品クリックして詳細を確認https://app.aibase.com/zh

1. ステップスターランチがエンドツーエンド音声大規模モデル「Step-Audio 2 mini」をリリース

ステップスターチャイナは、最も強力なオープンソースのエンドツーエンド音声大規模モデル「Step-Audio 2 mini」をリリースしました。このモデルは複数の国際ベンチマークテストで最優秀成績を収め、音声理解、音声認識、多言語翻訳、会話能力などにおいて優れた性能を示しています。このモデルは革新的なアーキテクチャ設計を採用し、従来のASR+LLM+TTSの3段構造を突破し、原始的な音声入力から音声出力への直接変換を実現しました。また、チェーン思考推論と強化学習の共同最適化を導入し、副言語情報(感情、トーン、音楽など)の理解と自然な返答能力を向上させています。

image.png

【AiBase要約:】

🔥 Step-Audio2miniは複数の国際ベンチマークテストで最優秀成績を収め、Qwen-OmniやKimi-Audioなどのオープンソースモデルを上回る性能を示しています。

🧠 モデルは真のエンドツーエンドマルチモーダルアーキテクチャを採用しており、従来のASR+LLM+TTSの3段構造を突破し、より簡潔で低遅延の音声処理を実現しています。

💡 チェーン思考推論と強化学習の共同最適化を導入し、感情、トーン、音楽などの副言語情報の理解と自然な返答能力を向上させています。

詳細リンク:https://github.com/stepfun-ai/Step-Audio2

2. 9月1日にAIコンテンツ規則が正式に効力を持ちました!表示しないと違法、3400万のコンテンツクリエイターが緊急対応中

「人工知能生成合成コンテンツ表示方法」は9月1日から義務化され、中国のAIコンテンツ管理が制度化・規範化された新たな段階に入りました。新しい規則では、すべてのAI生成コンテンツは明示的および暗黙的な表示が必要であり、情報の透明性を高め、偽情報の拡散を防ぐことを目的としています。

image.png

【AiBase要約:】

✅ AI生成コンテンツはテキスト、画像、動画、音声において明確に表示される必要があります。これにより、AIコンテンツの隠蔽行為が解消されます。

🔍 暗黙的な表示はデジタルフォレンジック技術によってメタデータに埋め込まれ、コンテンツの追跡可能性と監督能力が向上します。

⚖️ 違反の結果は重大であり、制限、修正、削除、および法律上のリスクを伴うため、AI産業の規範化を促進します。

3. 美團がオープンソース大規模モデルLongCatをリリース:開発者を支援し、AI応用の実装を加速

美團がリリースしたオープンソース大規模モデルLongCatは、強力な技術力を備え、イノベーティブな混合エキスパートアーキテクチャにより効率的な計算性能を実現し、複数のベンチマークテストで優れたパフォーマンスを示しており、開発者にとって強力なツールを提供しています。

image.png

【AiBase要約:】

🧠 LongCat-Flashは560億パラメータを持ち、混合エキスパート(MoE)アーキテクチャを採用し、一部のパラメータを動的にアクティブ化して計算効率を最適化しています。

🚀 1秒あたり100以上のトークンの処理能力をサポートし、低遅延と高拡張性を備えています。

📊 MMLU、数学推論などのタスクで優れたパフォーマンスを示し、実際の応用における潜在性を示しています。

詳細リンク:https://longcat.chat/

4. 上海AI研究所がマルチモーダル大規模モデル「書生・万象 InternVL3.5」をリリース

上海AI研究所がリリースしたマルチモーダル大規模モデルInternVL3.5は、イノベーティブな連鎖型強化学習、動的な視覚解像度ルーティング、および分離配置アーキテクチャを通じて、推論能力、配置効率、および汎用能力を全面的にアップグレードしました。このモデルは複数のベンチマークテストで優れたパフォーマンスを示し、GPT-5やClaude-3.7-Sonnetなどの主流モデルを上回っています。

image.png

【AiBase要約:】

✨ InternVL3.5は連鎖型強化学習フレームワークを採用し、推論性能を大幅に向上させています。

🖼️ モデルはさまざまな視覚解像度をサポートし、応答速度を最適化しています。

🚀 多様なパラメータサイズのモデルを提供し、異なるリソース需要のシナリオに対応しています。

詳細リンク:https://github.com/OpenGVLab/InternVL

5. 腾讯ARCがオープンソース音声モデルAudioStoryをリリース:大規模言語モデルを使って長時間の音声を生成

腾讯ARCチームがリリースしたAudioStoryモデルは、大規模言語モデルと音声生成技術を組み合わせ、構造化され、時間的一貫性のある長編物語の音声を生成することができます。このモデルは指示の忠実性と音声品質において優れた性能を示しており、動画のナレーションや長時間の音声生成などの多くのシナリオで利用できます。

image.png

【AiBase要約:】

🎧 AudioStoryは大規模言語モデルに基づいた長編物語の音声生成モデルであり、さまざまな音声タスクを処理できます。

📊 モデルは強力な指示追随能力を持ち、一貫性のある音声物語を生成し、ユーザー体験を向上させます。

🛠️ チームは推論コードを公開し、多数の応用事例を紹介しており、動画ナレーションや長時間音声生成での利点を示しています。

詳細リンク:https://github.com/TencentARC/AudioStory

6. OpenAIが衝撃的なGPT-realtimeをリリース!音声AI革命が到来、人間と機械の会話が区別がつかない

OpenAIがリリースしたGPT-realtime音声モデルは、自然な滑らかさと感情表現において大きな進歩を遂げ、正確に人間のトーン、感情の波動、語速の変化を模倣できます。このモデルは多モーダル処理能力を持ち、リアルタイムで音声スタイルを調整してさまざまなシナリオのニーズに応じることができます。AI音声インタラクションに革命をもたらしました。

image.png

【AiBase要約:】

🚀 GPT-realtimeはこれまでになかった自然な音声インタラクション体験を実現し、人間の音声の詳細を正確に再現しています。

🧠 モデルは多モーダル処理能力を持ち、画像と音声情報を組み合わせて総合的な分析と応答を行います。

💡 複数の音声スタイル切り替えをサポートし、さまざまなシナリオでのカスタマイズされた音声インタラクションニーズに応えます。

7. MetaとUCSDがDeepConfを開発:AI推論精度99.9%、計算コスト85%削減

Metaとカリフォルニア大学サンディエゴ校(UCSD)が協力して開発したDeepConf技術は、難易度の高い推論タスクで99.9%の精度を達成し、計算リソース消費量を84.7%削減しました。この技術は「信頼度」メカニズムを導入し、AIが動的に問題解決戦略を調整できるようにすることで、推論効率と精度を向上させます。

image.png

【AiBase要約:】

🔍 DeepConf技術は困難な推論タスクで99.9%の精度を達成しました。

💡 計算リソースの消費量は84.7%減少し、運算コストを大幅に削減しました。

🚀 「信頼度」メカニズムにより、AIは動的に問題解決戦略を調整し、推論効率を向上させます。

詳細リンク:https://arxiv.org/abs/2508.15260

8. マスクがxAIコードベースの盗難を認めた、元従業員がOpenAIに転職!

マスクはxAIコードベースの盗難を認め、元従業員Xuechen Liが商業機密を盗み、OpenAIに転職したと告発されました。この出来事はテクノロジー界で広く注目を集めています。

image.png

【AiBase要約:】

💻 元従業員Xuechen LiはxAIの商業機密を盗み、OpenAIに転職したと告発されています。

🔒 xAIは裁判所にLiがOpenAIで働けることを禁止し、盗まれたデータを返還するよう求めています。

🚀 Liは退社前に約700万ドルを現金化し、OpenAIに数十億ドルの研究開発費用を節約した可能性があります。

9. アリババQwenチームが次世代GUI自動化フレームワークMobile-Agent-v3とGUI-Owlをリリース

アリババQwenチームは、グラフィカルユーザーインターフェース(GUI)自動化における課題を解決するための2つの革命的な製品—Mobile-Agent-v3とGUI-Owlをリリースしました。これらのツールは、マルチモーダルモデルとマルチエージェント協力を通じて、タスクの理解と実行能力を向上させ、幅広いプラットフォームでタスクを完了する能力を示し、アリババが一般的なGUI自動化分野で重要な進展を遂げたことを示しています。

image.png

【AiBase要約:】

🧠 GUI-Owlはアリババがリリースしたマルチモーダルエージェントモデルで、感知、推論、実行能力を統合し、複雑なGUI環境に適応します。

🤖 Mobile-Agent-v3フレームワークはマルチエージェント協力を実現し、動的に更新される計画を通じてタスク実行効率を向上させます。

📊 この2つの製品はGUI自動化ベンチマークテストで優れたパフォーマンスを示し、アリババが自動化分野で重要な突破を果たしたことを示しています。

詳細リンク:https://arxiv.org/abs/2508.15144

10. マイクロソフトがCopilot Labsをリリース、初の実験的ツール「Copilot音声表現」が登場

マイクロソフトは、新たな実験的AIセンターCopilot Labsをリリースし、ユーザーにAIの革新と発展に参加する機会を提供しています。その最初のツールは「Copilot音声表現」で、書面のテキストを自然で滑らかな音声ナレーションに変換し、感情やストーリー形式をサポートし、ユーザーが高度なコントロールを保有できるようにします。

image.png

【AiBase要約:】

🌟 Copilot LabsはユーザーにAIの革新に参加するプラットフォームであり、マイクロソフトがAI分野でさらに探求していることを示しています。