「AIニュース」コーナーへようこそ!ここでは、あなたが毎日人工知能の世界を探究するためのガイドです。私たちが日々AI分野のホットなトピックをお届けし、開発者の視点から技術トレンドや革新的なAI製品の応用についてお伝えします。

新しいAI製品をチェック:https://top.aibase.com/

1. 中国情報通信研究院、ソフトウェア開発インテリジェントエージェントの標準を発表

中国情報通信研究院が複数の企業と協力して開発エージェントの標準を発表しました。これにより、AIインテリジェントエージェントの商業化は新たな段階に進みました。AIAgent市場は急成長しており、企業が積極的に参入し、デジタル変革を推進しています。

image.png

【AiBase要約:】

🌟 中国情報通信研究院が開発エージェントの標準を発表、AIインテリジェントエージェントの商業化が新たなステージに進んだ。

🚀 世界のAIAgent市場は2024年に51億ドル、2030年には471億ドルに達し、年平均成長率は44.8%を見込む。

💡 税友株式会社やサイーニュービズなどの企業が積極的にAIインテリジェントエージェントに取り組み、サービス能力を向上させ、デジタル変革を促進している。

2. アリババが画期的なQwenLong-L1-32Bを発表: 最初の強化学習による長文推論モデル、Claude-3.7に匹敵するパフォーマンスを実現

本記事では、アリババが発表したQwenLong-L1-32Bについて説明しています。これは、長文の文脈推論に特化した大規模言語モデルで、競合他社を凌駕するパフォーマンスを発揮し、強化学習を通じて長文推論能力を著しく向上させています。

image.png

【AiBase要約:】

🌟 世界初の強化学習を用いた長文状況推論モデル、GRPOおよびDAPOアルゴリズムを使用して推論の正確性と効率を大幅に向上させる。

📚 7つの長文状況文書QAベンチマークで優れたパフォーマンスを示し、複雑な長文タスクの処理能力がリード。

🌐 完全なソリューション体系を公開し、高性能モデル、最適化データセット、強化学習手法、評価体系を通じて長文AIアプリケーションの産業化を推進。

詳細リンク: https://github.com/Tongyi-Zhiwen/QwenLong-L1

3. GPT-4oの音声モードが新バージョンにアップデート: 歌う機能が登場、AIインタラクションが新たな境地へ

GPT-4oの高度な音声モードは、大幅なアップデートを受け、新たに歌う機能が追加され、自然な音声インタラクション能力も向上しました。歌うパフォーマンスにはまだ改善の余地がありますが、マルチモーダルインタラクション能力と感情表現には大きな可能性が示されています。

image.png

【AiBase要約:】

🌟 歌う機能が登場し、AIは指令に基づいてメロディや歌詞を作り出し、特定のスタイルの歌唱を模倣することも可能。

⚡ 高度な音声モードはエンドツーエンド処理を行い、応答遅延はわずか320ミリ秒で、より自然な感情コミュニケーションをサポート。

🎶 笑い声や泣き声などの感情表現機能が追加され、エンターテイメントや教育分野での活用が広がる。

4. 秘塔AI検索が「極速」モデルをリリース: 最高400 tokens/秒の応答速度

秘塔AI検索は「極速」モデルをリリースし、GPU上のカーネルフュージョン技術とCPU上の動的コンパイル最適化戦略を採用することで、検索効率を大幅に向上させました。多くの問題は2秒以内に解決されます。

image.png

【AiBase要約:】

🚀 単一のH800 GPU上で最高400 tokens/秒の応答速度を達成。

🔍 新モデルは速度、正確さ、論理性において優れたパフォーマンスを発揮。

🌐 テストサイト(kuai.metaso.cn)を提供し、ユーザーに高速な応答を体験させる。

5. グーグルがLMEvalを発表: 大規模言語モデルとマルチモーダルモデルの統一評価ツール

LMEvalは、グーグルがリリースしたオープンソースフレームワークで、大規模言語モデルとマルチモーダルモデルの評価を簡素化し、標準化します。クロスプラットフォーム間のモデル比較をサポートし、インクリメンタル評価と視覚化分析機能を提供します。

image.png

【AiBase要約:】

🌟 LMEvalは、企業間のAIモデル評価プロセスを統一し、効率を向上させる。

🖼️ テキスト、画像、コードの評価をサポートし、追加入力形式にも対応し、柔軟に拡張可能。

📊 LMEvalboardツールを提供し、モデルのパフォーマンスを直感的に表示し、深い分析を容易にする。

詳細リンク: https://github.com/google/lmeval

6. グーグルChromeブラウザにGemini AIアシスタントが追加、リアルタイム画面認識能力が注目

私はグーグルがChromeブラウザにGemini AIアシスタントを導入したことに非常に興奮しています。この技術はユーザーエクスペリエンスを向上させ、グーグルのAI分野における革新力を示しています。Gemini AIアシスタントはリアルタイムで画面コンテンツを認識し、パーソナライズされたヘルプを提供することで、閲覧をより効率的かつ便利にします。

image.png

【AiBase要約:】

✨ Gemini AIアシスタントはリアルタイムで画面コンテンツを認識し、知的なヘルプを提供する。

🌟 現在はAI ProおよびAI Ultraサブスクリプションユーザー向けで、テスト版として利用可能。

🚀 今後はさらなるシナリオとデバイスへの展開を計画し、全体的なユーザーエクスペリエンスを向上させる。

7. 阿联酋が全市民にChatGPT Plusを無料提供: AI国際化の重要なマイルストーン

アラブ首長国連邦は、世界初の全市民向けにChatGPT Plusのプレミアム版を無料提供する国となります。これはAI技術の普及にとって重要な一歩です。

image.png

【AiBase要約:】

🌟 アラブ首長国連邦は全市民向けにChatGPT Plusを無料提供し、AI技術の広範な利用を促進する。

🚀 スター・ゲート・アラブ首長国連邦AIデータセンターを建設し、1ギガワット級のAI計算クラスターを構築し、地域のAI地位を向上させる。

🌐 OpenAIとアラブ首長国連邦は、地域ニーズに合わせたAIソリューションを開発し、世界中のAI技術の普及と応用を促進する。

8. 苏州で60億元の人工知能母基金が設立: 産業の転換とアップグレードを支援

江蘇省蘇州市は60億元規模の人工知能産業専門母基金を設立し、計算基盤、データ、人材などに焦点を当て、『人工知能+製造業』などの業界融合応用を推進し、産業の転換とアップグレードを加速させる。

image.png

【AiBase要約:】

蘇州市は60億元のファンドを設立し、AIの計算力、データ、人材といった重要な要素に重点を置く。

ファンドは20社の機関が共同で出資し、執行パートナーは1%の比率を持つ。すでに完全なAI産業エコシステムが形成されている。

2024年までに同地区には1800社以上のAI企業が集結し、蘇州市を国家級AI発展試験区にしようとする。

9. Kyutai Unmuteがリリースされました!10秒でカスタムボイス、AI対話が超低レイテンシー時代へ!

フランスのAI研究所Kyutaiが発表したUnmuteシステムは、テキストの大規模言語モデルに強力な音声インタラクション機能を提供し、インテリジェントな対話、超低レイテンシー、そしてカスタマイズ可能な機能を備えています。

image.png

【AiBase要約:】

🌟 Unmuteはモジュール設計を通じて、既存のモデルに音声入出力機能を迅速に追加でき、再トレーニングは不要。

🗣️ スマートな判断と受け答え、常に中断可能で、テキストストリーム合成などの機能を備え、対話体験を人間に近づける。

カスタマイズ可能な機能は10秒間の音声サンプルで専属AIボイスを生成可能で、多様なニーズに対応する。

詳細リンク: https://unmute.sh/

10. UAV-Flowプロジェクトがドローン制御を突破: 語音命令で精密飛行

UAV-Flowプロジェクトは自然言語処理技術を用い、ユーザーが語音コマンドだけでドローンを正確に制御できるようにし、操作のハードルを大幅に下げ、消費、工業、救急などのさまざまなシーンでの適用を促進します。

image.png

【AiBase要約:】

🚀 「前方50メートルに飛ぶ」や「目標を囲む」といった語音コマンドでドローンの精密制御が可能。

🌐 UAV-Flowは音声認識、意味理解、動的パスプランニングを統合し、さまざまな複雑な環境に対応。

🌟 消費娯楽、工業検査、緊急救助など、幅広い応用分野があり、操作の安全性と効率を向上させる。

詳細リンク: https://prince687028.github.io/UAV-Flow/

11. Claudeが大改良へ!百万文字の文脈+記憶機能、AI対話が驚異的になる!

AnthropicはClaudeに多数の重要な機能改良を予定しています。具体的には、文脈ウィンドウの拡張、記憶機能の強化、出力能力の向上、複数のファイル形式サポートの拡張、視覚機能の改良などが含まれており、これらの改良によりClaudeが長文処理、クロスモーダルタスク、そして企業級アプリケーションでさらに競争力を高めます。

image.png

【AiBase要約:】

🚀 文脈ウィンドウが百万文字に拡張され、超長文の処理能力が大幅に向上。

🧠 記憶機能が追加され、複数回の対話をより連続的で個別化されたレスポンスを提供する。

📈 出力トークン制限の拡張と複数のファイル形式サポートで、企業級の応用を強化。

12. 百度心響iOS版が正式リリース: インテリジェントエージェントの全領域カバー