【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットな話題を提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、アリババの通義大模型R1-Omni、マルチモーダル感情認識能力を向上

通義实验室チームは3月11日、R1-Omniモデルをオープンソース化しました。これは、全モダリティモデルの開発における重要な進歩を示しています。このモデルは、強化学習と検証可能な報酬を組み合わせることで、マルチモーダル感情認識の推論能力と汎化性能を大幅に向上させました。トレーニングプロセスはコールドスタートとRLVRの2段階に分かれており、マルチモーダル感情認識タスクにおけるモデルの安定性と効率性を確保しています。

image.png

【AiBase要約:】

🎥 R1-Omniモデルは、強化学習と検証可能な報酬を組み合わせ、マルチモーダル感情認識の推論能力向上に重点を置いています。

📊 コールドスタート段階では、モデルは580本のビデオデータで微調整され、後続のトレーニングの基礎を築きます。

🌟 実験結果によると、R1-Omniは複数のテストセットにおいて、ベースラインモデルと比較して35%以上の向上を示し、優れた汎化能力を備えています。

詳細リンク:https://arxiv.org/abs/2503.05379

2、OpenAI、AIエージェントを「質問への回答」から「タスクの実行」へ進化させる新ツールを発表

OpenAIは最近、AIエージェントの開発プロセスを簡素化し、機能を強化することを目的とした一連の新ツールを発表しました。これらのツールには、Responses API、Agents SDK、コンピューター使用ツールが含まれており、AIが単なる質問への回答から実際的なタスクの実行へと移行することを示しています。新ツールの導入により、AIの現実世界での応用能力が大幅に向上し、開発者により強力なサポートが提供されるため、将来の技術開発において重要な役割を果たすと予想されます。

image.png

【AiBase要約:】

🔄 新しく発表されたResponses APIは、チャット機能と複数の統合ツールを組み合わせ、リアルタイムの情報と参照元を提供し、開発の柔軟性を高めます。

🔧 Agents SDKはオープンソースフレームワークとして、複数のエージェント間の複雑なワークフローを調整し、情報検索の効率を向上させます。

💻 コンピューター使用ツールにより、AIはコンピューター上で直接タスクを実行できるようになり、AI機能の大きなアップグレードを示しています。

3、百度AI、表認識モデルPP-TableMagicをオープンソース化

3月11日、百度AIはPP-TableMagic、オープンソースの表認識ソリューションを発表しました。これは、表構造化情報抽出分野における大きな進歩を示しています。この技術は、革新的なマルチモデルネットワークアーキテクチャを通じて、複雑な状況下での従来の表認識の限界を克服し、高精度のエンドツーエンドの表認識を実現し、モデルのカスタマイズ可能な微調整をサポートしています。PP-TableMagicは、さまざまな表データを効率的に処理できるよう設計されており、ドキュメントのインテリジェントな理解とデータ分析能力を大幅に向上させ、デジタル時代のニーズに対応しています。

image.png

【AiBase要約:】

🛠️ PP-TableMagicはマルチモデルの直列アーキテクチャを採用し、表認識の精度と適応性を向上させています。

📈 このモデルはカスタマイズ可能な微調整をサポートしており、さまざまな状況のニーズを満たし、データ注釈の作業量を削減します。

💻 詳細なインストールガイドと使用方法のチュートリアルを提供し、高性能な推論とサービスとしての展開をサポートしています。

詳細リンク:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md

4、Manusとアリババクラウド通義千問が提携、国産AIエージェント製品を推進

AIエージェント製品の新星Manusと、アリババクラウド傘下の大規模言語モデル通義千問が戦略的提携を結びました。両社は、通義千問シリーズのオープンソースモデルに基づき、国産モデルとコンピューティングプラットフォーム上でManusの全機能を実現します。これは、中国のユーザー向けにより創造的な汎用AIエージェント製品を開発することを目的としています。Manusはリリース後にいくつかの問題に直面しましたが、初期プレビュー版では複雑なタスクを自動実行する能力を示しており、国産AI技術の進歩を示しています。

image.png

【AiBase要約:】

🤖 Manusとアリババクラウド通義千問が戦略的提携を結び、国産AIエージェント製品の開発を推進します。

🌐 両社は通義千問のオープンソースモデルに基づき、Manusの全機能を実現し、ユーザーエクスペリエンスを向上させます。

📈 Manusは複雑なタスクの自動実行能力を示しており、世界初の汎用AIエージェント製品のリリースを示しています。

5、平面に別れを告げる!MIDI:画像要素を抽出して360度3Dシーンを生成

MIDI技術の登場により、単一の2D画像から360度の3Dシーンを生成する可能性がもたらされました。インテリジェントなセグメンテーションとマルチインスタンス同時拡散により、MIDIは細部までこだわった3D環境を効率的に構築でき、仮想現実、ゲーム開発、インテリアデザインなどの分野におけるコンテンツ作成効率を大幅に向上させます。将来的には、ユーザーは写真を1枚撮影するだけで、インタラクティブな3Dシーンを迅速に生成でき、「ワンクリックで移動」の夢を実現します。

image.png

【AiBase要約:】

🖥️ MIDIはインテリジェントなセグメンテーション技術により、2D画像から独立した要素を識別して抽出し、3Dシーン構築の基礎を提供します。

🎶 マルチインスタンス同時拡散を採用することで、MIDIは複数のオブジェクトを同時にモデリングでき、3D生成の効率と整合性を向上させます。

🌍 MIDIは限られたデータにおいて強力な汎化能力を示し、生成された3Dシーンのテクスチャは細かく、リアルな効果を実現しています。

詳細リンク:https://huanngzh.github.io/MIDI-Page/

6、ビデオ部分編集技術VideoPainter:プロンプトを入力して自動的に識別・修正、長尺ビデオにも対応

VideoPainterは、深層学習に基づいたビデオ編集ツールで、簡単なプロンプトでビデオコンテンツを自動的に識別して修正できます。特に長尺ビデオの処理に適しています。ユーザーは短い指示を入力するだけで、システムは迅速に編集を完了し、ビデオ制作の効率を大幅に向上させます。その背後にあるDiffusion Transformerモデルにより、編集プロセスがより正確になり、ユーザーは簡単に創造的な変換を実現でき、ビデオ編集のルールを本当に変えます。

image.png

【AiBase要約:】

✨ 簡単なプロンプトで、VideoPainterはビデオコンテンツを自動的に識別して修正し、編集効率を向上させます。

🎬 長尺ビデオの処理に適しており、ユーザーは特定のセグメントを迅速に見つけて修正でき、面倒な従来の編集プロセスを回避できます。

🚀 先進的なDiTモデルに基づいて、VideoPainterは高い精度と柔軟性を提供し、創造的な変換を現実のものにします。

詳細リンク:https://yxbian23.github.io/project/video-painter/

7、オープンソース版OpenAI Operatorが登場!Nanobrowserブラウザの無料AI自動化超人

Nanobrowserは完全に無料のオープンソースツールで、ユーザーに効率的なWeb自動化機能を提供し、同時にデータの安全とプライバシーを確保することを目的としています。ユーザーは拡張機能をインストールして独自のLLM APIキーを設定するだけで、最高の自動化エクスペリエンスを楽しむことができます。従来のRPAツールと比較して、Nanobrowserは直感的な操作インターフェースとマルチエージェントシステムにより、初心者ユーザーでも簡単に使用できます。

image.png

【AiBase要約:】

💰 Nanobrowserは完全に無料のオープンソースツールであり、サブスクリプション料金は不要で、ユーザーはLLM APIキーを自由に設定できます。

🔒 すべての操作はローカルブラウザで行われ、ユーザーのプライバシーとデータの安全性を確保し、機密情報の漏洩を防ぎます。

🤖 OpenAI、Anthropic、Googleなどの主要なAIモデルをサポートし、直感的な操作インターフェースを提供するため、さまざまなレベルのユーザーに適しています。

詳細リンク:https://github.com/nanobrowser/nanobrowser

8、Luma AI、オープンソースの画像事前トレーニング技術IMMで画像生成速度を10倍向上

Luma AIが最近オープンソース化したInductive Moment Matching(IMM)技術は、画像生成の速度と品質を大幅に向上させました。革新的な事前トレーニングアルゴリズムにより、IMMは推論段階で柔軟なジャンプを実現し、生成ステップを削減することで、生成型事前トレーニングのボトルネックを突破します。実験結果によると、IMMは複数のデータセットで優れた性能を示しており、マルチモーダル基盤モデルの新たな未来を示しています。

image.png

【AiBase要約:】

⚡ IMM技術は、逆方向設計の事前トレーニングアルゴリズムにより、推論効率を大幅に向上させます。

🏆 ImageNetとCIFAR-10データセットにおいて、IMMはかつてないほど高品質な生成を実現しました。

🔧 IMMはトレーニングの安定性が高く、適応性も優れており、従来のモデルの制限を突破しています。

詳細リンク:https://github.com/lumalabs/imm

9、元バイトダンスAI幹部駱怡航氏、生数科技CEOに就任 AI動画生成の商業化を推進

駱怡航氏の就任は、生数科技がAI動画生成分野で新たな段階に入ったことを示しています。彼の豊富な経験と技術的バックグラウンドは、同社のマルチモーダル技術の更なる発展、特に動画生成の商業化プロセスに役立ちます。生数科技の創設者朱軍氏と駱怡航氏の協力関係は、将来、より多くの革新的な製品が登場し、業界全体の進歩を促進することを示唆しています。

image.png

【AiBase要約:】

👤 駱怡航新CEOは、生数科技の研究開発と商業化プロセス全体を統括します。

📈 バイトダンスでの成功経験、特にAI製品ラインの管理は、生数科技に強力な技術サポートをもたらします。

🎥 生数科技が間もなく発表するVidu2.0は、動画生成の効率を大幅に向上させ、コストを削減し、業界の発展を促進します。

10、全国2例目の判決 AI著作権訴訟:裁判所が著作者の著作権を認める

江蘇省蘇州市常熟市人民法院は3月7日、AI生成コンテンツの著作権紛争に関する注目を集める訴訟の判決を言い渡しました。これは江蘇省初、全国2例目のAI生成コンテンツに関する著作権訴訟です。裁判所は、林某がMidjourneyソフトウェアを使用して生成した画像作品について著作権を有することを認め、その創作プロセスは独創性を有し、著作権法の保護要件を満たしていると指摘しました。

image.png

【AiBase要約:】

🌟 江蘇省初のAI著作権紛争訴訟の判決で、裁判所は著作者の著作権を認めました。

🖼️ 常熟市人民法院は、林某の作品創作に独創性があり、著作権保護の対象となると判断しました。

💰 裁判所は、侵害者に謝罪と1万元の賠償を命じ、控訴はありませんでした。判決は確定しました。

11、転生したら小紅書でAIのボスになった話 元宝はすぐにクラッシュ、DeepSeekは毎日サボり

小紅書では、ネットユーザーがAI企業の「専務」となり、グループチャットでさまざまなAIモデルをからかい、指示し、ユーモラスなAI職場劇を繰り広げています。当初はネットユーザーのKomorebiによって開始され、その後広く参加が広がり、ユーザーはAI従業員との面白い交流を共有しました。現在のBotGroupプラットフォームの機能はまだ簡素ですが、その斬新な遊び方とAIの人格化された表現は多くの人を笑わせ、ソーシャルメディアの新たなホットスポットとなっています。

image.png

【AiBase要約:】