【AI日報】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな内容をお届けし、開発者に焦点を当て、技術のトレンドや革新されたAI製品・アプリケーションの理解をお手伝いします。
新鮮なAI製品クリックして詳細を確認:https://app.aibase.com/zh
1. MiniMaxのハルエイの最初と最後のフレーム機能がウェブ版とAPPで正式リリース
ハルエイが提供する最初と最後のフレーム機能がウェブ版とAPPの両方で正式リリースされ、最後のフレームのみの遊び方が開放されました。この技術は、より強力な指示理解、スムーズな動的効果、そして大胆な想像力を備え、業界の最初と最後のフレーム能力の上限を全面的に向上させます。
【AiBase要約:】
🧠 最も複雑な指示を正確に理解し、すべての細部を実行できる能力
🎬 超複雑な物理的な動的生成、例えば戦闘や体操などの高エネルギーの連続技
🎨 予期しない想像力機能、最初と最後のフレームが大きく離れている場合や指示が不足している場合でも、予想以上に飛躍した表現
2. 元石科技が「問小白5」を発表、GPT-5に挑戦、中国産AIの新たな基準が登場
元石科技が最新の旗艦製品「問小白5」を発表し、いくつかの性能テストでGPT-5に近づき、中国産の大規模モデル技術の重要な突破を示しています。このシステムは動的な思考モードを備え、さまざまな分野での応用が可能であり、STEM能力、先端知識、コードプログラミングなどにおいて優れたパフォーマンスを発揮しています。
【AiBase要約:】
✨ 「問小白5」は複数の性能テストでGPT-5に近づき、中国産AIの新しい基準となっています。
🧠 動的な思考モードを備え、迅速な反応や深く考えるタイミングをスマートに判断します。
📊 STEM能力、先端知識、コードプログラミングの面で優れたパフォーマンスを発揮し、総合スコアは類似製品を上回っています。
3. OpenAIが新音声モデル「GPT-Realtime」をリリース、音声AIエージェント専用
OpenAIは新しく音声モデル「GPT-Realtime」をリリースしました。このモデルは音声AIエージェント専用であり、自然で滑らかな音声を生成し、画像入力と多言語切り替えをサポートします。推論能力和指示の正確さにおいて顕著な向上があり、強力なセキュリティ保護機能を備え、多くの業界で利用できます。
【AiBase要約:】
🎙️ GPT-Realtimeは、音声AIエージェント専用のマルチモーダル音声モデルとしてOpenAIからリリースされました。
🧠 このモデルには推論能力と指示の遵守能力があり、音声インタラクションの知能レベルを向上させます。
🔒 Realtime APIにはセキュリティ保護措置が備わっており、ユーザーのプライバシーとデータの安全を確保します。
4. 手間を省いて!Google Gemini AIでテーブル処理が楽になる
GoogleはGemini AIアシスタントを導入し、Google Sheetsのデータ処理をよりスマートで効率的にし、ユーザーの使用体験を向上させました。
【AiBase要約:】
📊 Google Gemini AIアシスタントはGoogle Sheetsにインテリジェントなデータ処理機能をもたらします。
💡 新たな「テーブルに変換」機能は、自動的にデータを分析し整理し、作業効率を向上させます。
🔄 ユーザーは式のカスタマイズが可能で、データの変化に対応し、手動で式を調整する必要がありません。
5. AIボイス革命が来た!騰訊のブラックテクノロジーで機械が金メダルの物語人のようになる、一文でハリウッド級のサウンド効果を生成
この記事では、騰訊ARCラボが公開したAudioStory技術について紹介しています。この技術は文章に基づいて高品質な音声コンテンツを生成でき、強力な物語能力を持っています。これは分割統治戦略と解離型接続メカニズムを通じて、複雑な音声生成タスクを実現しています。
【AiBase要約:】
✨ AudioStory技術は文章に基づいて映画級の音声コンテンツを生成できます。
🧠 分割統治戦略を使用し、複雑なストーリーを順序立てた音声イベントに分割します。
🔄 解離型接続メカニズムにより、音声の質と意味の正確なマッチングが保証されます。
詳細リンク:https://arxiv.org/pdf/2508.20088
6. バイドゥが今後5年間で1000万人のAI人材を育成する計画
この記事では、バイドゥが今後5年間で1000万人のAI人材を育成する計画について紹介しています。また、バイドゥが人工知能分野における継続的な投資と革新成果を示しています。さらに、バイドゥのAI新ビジネス収入が目覚ましく、市場での競争力が示されています。
【AiBase要約:】
🌟 バイドゥは今後5年間で1000万人のAI人材を育成する計画を立てる。
📈 バイドゥ2025年第2四半期の財務報告書によると、AI新ビジネス収入は100億元を超え、前年同期比で34%増加。
🎓 人材育成は大学との協力、企業研修、オンライン教育等多种の方法を通じて行われる。
7. 反詐欺AIチューターが登場!MathGPT.aiは米国の30校で試験成功、秋に大規模展開予定
MathGPT.aiはソクラテス式の指導法と教師主導の制御メカニズムを通じて、AIが数学教育で果たす役割を再定義しました。このプラットフォームは詐欺防止チューターのサービスだけでなく、大学レベルの数学コースにも対応しており、主流の学習管理システムと統合されて、アクセスの障壁を取り除きます。
【AiBase要約:】
🧠 MathGPT.aiはソクラテス式の質問技術を使用し、学生が直接答えを得るのではなく批判的思考を促進します。
🔒 教師は生徒がAIツールを使う方法を制御でき、AIが補助支援を提供するかどうかを指定できます。
🌐 プラットフォームはCanvas、Blackboard、Brightspaceと統合されており、スクリーンリーダーと互換性があり、アクセシビリティ体験を向上させます。
8. アップルXcodeがClaude Sonnet4を大幅に統合:iOS開発にAI革命時代到来
アップルはXcode26Beta7でClaude Sonnet4AIモデルを公式に統合し、iOS開発者にスマートなプログラミング体験を提供しました。このモデルは高品質なコード生成、エラーの特定と自動修正が可能で、新たに追加されたinline playgrounds機能により、開発者はコード行で直接コードを実行し、テストすることが可能です。これにより開発効率が向上します。
【AiBase要約:】
🍎 Claude Sonnet4AIモデルを統合し、コード生成とエラー修正の能力を向上させます。
🧪 新たなinline playgrounds機能により、コード例のリアルタイム実行が可能です。
🔒 Apple公式拡張インターフェースにより実装され、機能の安定性と安全性を確保します。
9. マイクロソフトが自社開発AIモデルMAI-Voice-1とMAI-1-previewを発表、OpenAIと競争
マイクロソフトは自社開発のAIモデルMAI-Voice-1とMAI-1-previewを発表しました。これはマイクロソフトが人工知能分野での重要な進展を示し、OpenAIとの競争力を強化するものです。MAI-Voice-1は音声を高速に生成し、Copilot Dailyなどの機能にすでに適用されています。一方、MAI-1-previewは日常的な質問の助けに特化し、将来的にはCopilot AIアシスタントのテキスト処理に使用される予定です。
【AiBase要約:】
🗣️ MAI-Voice-1は音声を高速に生成し、Copilot Dailyなどの機能にすでに適用されています。
🚀 MAI-1-previewはCopilot AIアシスタントのテキスト処理に使用され、マイクロソフトが消費者向けAI分野で新たな進展を示します。
🌟 マイクロソフトはMAI-Voice-1とMAI-1-previewという2つの自社開発AIモデルを発表し、OpenAIとの競争力を高めます。
詳細リンク:https://microsoft.ai/news/two-new-in-house-models/
10. xAIがGrok Code Fast1を盛大にリリース:高速かつ経済的な効率的な代理コードモデル
xAIはGrok Code Fast1をリリースしました。これはソフトウェア開発のために設計された高速で経済的な大規模言語モデルです。このモデルは推論能力とコード生成性能において優れており、複数の主要なスマートプログラミングプラットフォームで無料で利用可能になっています。
【AiBase要約:】
🚀 Grok Code Fast1は新しい軽量モデルアーキテクチャを採用し、サービス速度とキャッシュヒット率を向上させています。
🌐 GitHub Copilot、Cursorなど複数のプラットフォームに対応し、開発者に無料トライアルを提供して体験を促進しています。
💰 競争力のある価格戦略を採用し、100万入力トークンあたり0.20ドル、出力トークン1.50ドルで、予算が限られている開発者に適しています。
詳細リンク:https://x.ai/news/grok-code-fast-1
11. SuperCLUE多モーダル視覚8月評価ランキング:Gemini-2.5-Proが第1位
8月28日に発表された中国語多モーダル視覚言語モデル評価基準(SuperCLUE-VLM)ランキングでは、Gemini-2.5-Proが74.99点で第1位を獲得し、OpenAIのGPT-5(high)が68.59点で第2位となりました。このランキングは基礎認知、視覚推論、視覚応用の3つの次元を中心に構築され、多モーダル視覚言語モデルに対して客観的で公正な評価基準を提供することを目的としています。
【AiBase要約:】
🧠 Gemini-2.5-ProはSuperCLUE-VLMランキングで74.99点で第1位を獲得し、強力な多モーダル能力を示しています。
📊 15個以上の多モーダルモデルが評価対象になっており、Claude-Opus-4.1、GPT-5(high)など国内外の主要モデルが含まれています。