【AI日報】へようこそ!ここは、人工知能の世界を探求するためのあなたの毎日のガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用に関する情報を提供します。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、OpenAIがo3を発表:AI推論能力の大きな飛躍、スコアは87.5%に到達

OpenAIは最近、最新のo-Model推論シリーズモデルであるo3を発表しました。これは、数学と科学的推論の分野における大きな進歩を示しています。o3はARC AGIベンチマークテストで87.5%のスコアを獲得し、複雑な論理と数学の問題解決能力が大幅に向上していることを示しています。このモデルは、ニューラルシンボリック学習と確率論理を組み合わせることで、複数ステップの推論課題を効果的に処理でき、教育、医療、ソフトウェア開発など、多くの分野での幅広い応用可能性を示しています。

image.png

【AiBase要約:】

🧠 o3はARC AGIベンチマークテストで87.5%のスコアを獲得し、推論能力の顕著な向上を示しました。

🔍 高度な数学テストでは、o3の成功率は96.7%に達し、科学的推論の精度は10%向上しました。

💻 o3の応用可能性は広く、教育、医療、ソフトウェア開発などの分野で実質的な支援を提供できます。

2、Adobeが新しいAIオーディオツールSketch2Soundを発表:ハミングと音声模倣だけで音響効果を作成

Adobe Researchとノースウェスタン大学の共同開発によるSketch2Soundは、サウンドデザイナーのワークフローに革命を起こすことを目的とした革新的なAIツールです。ユーザーは、ハミング、音声模倣、簡単なテキストの説明によって、プロフェッショナルな音響効果を生成できます。このシステムは、音量、音色、ピッチを分析し、テキストと組み合わせて必要な音を生成します。特にフォーリーアーティストに適しており、映画の音響効果制作の効率を向上させます。

【AiBase要約:】

🎵 Sketch2Soundは新しく開発されたAIツールで、ハミングとテキストの説明から音響効果を作成できます。

🔊 このシステムは、音量、音色、ピッチを分析し、ユーザーの音声入力とテキストを組み合わせて目標の音響効果を生成します。

🎬 フォーリーアーティストに特に適しており、映画の音響効果を迅速に生成し、作業効率を向上させます。

詳細リンク:https://hugofloresgarcia.art/sketch2sound/

3、百川智能が金融大規模言語モデルBaichuan4-Financeを発表

百川智能は最近、新しい金融大規模言語モデルBaichuan4-Financeを発表しました。このモデルは、革新的なドメイン自己制約トレーニングスキームを通じて、金融能力と汎用能力の両方を向上させ、金融シナリオにおける適用性を大幅に向上させています。評価データによると、Baichuan4-Financeは複数の金融分野で、競合他社のGPT-4oを上回る精度を達成しています。

image.png

【AiBase要約:】

🚀 Baichuan4-Financeは、ドメイン自己制約トレーニングスキームにより、金融能力と汎用能力を向上させています。

🏆 複数の評価で、Baichuan4-Financeの全体的な精度は93.62%に達し、GPT-4oを約20%上回っています。

📊 このモデルは、銀行、保険、ファンド、証券などの分野で、精度が95%を超えています。

詳細リンク:https://platform.baichuan-ai.com/finPage

4、清華大学とテンセントが共同で発表!ColorFlow:白黒漫画を自動的に着色し、キャラクターの一貫性を維持

ColorFlowは、清華大学とテンセントARC研究所が共同で開発した新しい画像シーケンス着色モデルで、白黒画像を着色する際のキャラクターの一貫性の問題を解決することを目的としています。このモデルは、二分岐設計と革新的な検索強化着色パイプラインを通じて、着色の効果と効率を大幅に向上させています。ColorFlowは、複数の指標で既存の最先端モデルを上回り、より高い美的品質を示しており、白黒漫画、線画アートなど、さまざまな芸術的なシーンに適用できます。

image.png

【AiBase要約:】

🌟 ColorFlowは革新的な白黒画像シーケンス着色モデルで、キャラクターの一貫性を維持できます。

🎨 このモデルは、二分岐設計を採用し、それぞれ色彩識別と実際の着色に使用することで、着色の効果と効率を向上させています。

🏆 ColorFlowは、複数の指標で既存の最先端モデルを上回り、より高い美的品質と実用性を示しています。

詳細リンク:https://zhuang2002.github.io/ColorFlow/

5、CAP4D:参照画像をアップロードするだけで高品質な4Dキャラクターアバターを生成

CAP4Dモデルは画期的な技術で、任意の数の参照画像から高品質な4Dアバターを生成できます。このモデルは、二段階のワークフローを採用し、まず異なる視点と表情の画像を生成し、次に参照画像と組み合わせてリアルタイムで制御可能な4Dアバターを再構築します。高度な顔面追跡技術とランダムサンプリング方式を使用することで、CAP4Dは画像再構築の効果と詳細な表現を大幅に向上させています。

image.png

【AiBase要約:】

🌟 CAP4Dモデルは、任意の数の参照画像から高品質な4Dアバターを生成し、二段階のワークフローを採用しています。

🖼️ この技術は、さまざまな視点のアバターを生成でき、画像再構築の効果と詳細な表現を大幅に向上させています。

🎤 CAP4Dは音声駆動アニメーションモデルと組み合わせることで、音声駆動のダイナミックアバターを実現し、仮想アバターの応用シーンを広げています。

6、OpenAIがChatGPTの新しいメモリ機能を発表:会話全体でユーザーとのやり取りを記憶

OpenAIは最近、新しいメモリ機能を発表しました。これにより、AIアシスタントであるChatGPTは、ユーザーが新しい会話を開始したときに、過去のやり取りを思い出すことができます。このアップデートは、ユーザーエクスペリエンスの向上を目的としており、ユーザーは特定の情報削除やアーカイブを含む、自分のメモリ設定を包括的に管理できます。これと同様に、GoogleもチャットボットGeminiのメモリ機能のリリースを加速させており、AI業界におけるパーソナライズされたサービスへの継続的な取り組みを示しています。

image.png

【AiBase要約:】

🔍 OpenAIは新しいメモリ機能を発表し、ChatGPTは会話全体でユーザーの過去のやり取りを記憶できます。

🔒 ユーザーは、いつでもメモリ設定を管理し、特定の情報を削除またはアーカイブできます。

🤖 Googleも同様の機能を発表しており、AIアシスタントのパーソナライズされたサービスの向上を目指しています。

7、衝撃!あなたのAIチャット相手はこっそり「テレパシー」を習得していた!?——INFPが二人間の会話を新しいレベルへ

INFP技術の登場は、AI仮想アバターが二人間の会話におけるインタラクション能力を飛躍的に向上させたことを示しています。人間の表情や動作を模倣することで、INFPは仮想キャラクターが会話の中でリアルなインタラクションを示し、まるで人間と会話しているかのような感覚を与えます。その裏にある技術革新は、ユーザーエクスペリエンスの向上だけでなく、将来のAI会話システムに新たな可能性をもたらしています。

image.png

【AiBase要約:】

🤖 INFP技術は、人間の表情や動作を模倣することで、AI仮想アバターのインタラクション能力を向上させています。

🎤 この技術は、音声分析を利用してAIアバターの状態を動的に調整し、自然でスムーズな会話を実現します。

📊 DyConvデータセットは、INFPに豊富な会話素材を提供し、学習効果とパフォーマンスの優位性を確保しています。

詳細リンク:https://grisoon.github.io/INFP/

8、DeepSeekオープンソース大規模言語モデルの開発者の1人、羅福莉氏が小米科技に入社

DeepSeek-V2の主要開発者である羅福莉氏は、最近小米科技への入社を発表し、AI研究所のリーダーとして大規模言語モデルチームの構築を担当することになりました。この動きは、小米科技が大規模言語モデル分野への投資を拡大していることを背景に、幅広い注目を集めています。羅福莉氏は北京大学で修士号を取得しており、自然言語処理分野で優れた実績があり、アリババ達摩院に勤務し、多言語事前学習モデルの開発にも携わっていました。

【AiBase要約:】

🌟 羅福莉氏が小米科技に入社し、AI研究所の大規模言語モデルチームを率います。

💰 雷軍氏は、小米科技のAI大規模言語モデル分野における発展に懸念を示し、高額な報酬で人材を獲得しました。

📈 小米科技AI研究所は、大規模言語モデル技術の開発を推進するために、専門チームを設立しました。

9、AIがついにこの壁を越えた!Livekitのオープンソースモデルが「話し終えたかどうか」を正確に識別

音声アシスタントやカスタマーサービスロボットの分野では、ユーザーが話し終えたかどうかを正確に判断することが長年の課題でした。Livekitが発表したオープンソースの高精度音声ターン検出モデルは、Transformerモデルと従来の音声活動検出を組み合わせることで、人間と機械の会話の自然さとスムーズさを大幅に向上させています。このモデルは、AIによる誤った割り込みを減らし、ユーザーエクスペリエンスを向上させ、将来的には人間と機械の会話をよりスマートで自然なものにする可能性を秘めています。

【AiBase要約:】

🔍 Transformerと従来のVAD技術を組み合わせることで、音声ターン検出の精度を向上させています。

💬 新しいモデルは、AIによる誤った割り込み率を85%削減し、人間と機械の会話をより自然なものにしています。

🎥 デモビデオでは、AIがユーザーの話し終えるのを辛抱強く待つ様子が示されており、インタラクションエクスペリエンスが向上しています。

詳細リンク:https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector

10、李飛飛教授率いるチームの先駆的な研究:マルチモーダルAIモデルが空間知能を示す兆候

スタンフォード大学の李飛飛教授とそのチームの研究は、マルチモーダル大規模言語モデルが空間知能において初期段階の能力を示しており、空間の記憶と想起の可能性を示唆しています。研究ではVSI-Benchツールを開発し、視覚空間知能を評価しました。モデルの性能はまだ人間を下回っていますが、一部のタスクでは人間レベルに近づいています。

image.png

【AiBase要約:】

🛠️ 研究チームはVSI-Benchツールを発表し、視覚空間知能を評価しています。5000以上の高品質な質疑応答ペアが含まれています。

📈 マルチモーダルモデルは、一部のタスクで人間レベルに近づいており、Gemini-1.5Proは部屋の大きさの推定タスクで優れた性能を示しています。

🌍 李飛飛教授が設立したWorld Labsは、空間知能を備えたAIモデルの開発に注力しており、多くの有名企業から投資を受けています。

11、トランプ氏、ホワイトハウスAI政策上級顧問を正式に任命

最近、アメリカ合衆国前大統領ドナルド・トランプ氏は、Sriram Krishnan氏をホワイトハウス科学技術政策局の人工知能上級政策顧問に任命しました。Krishnan氏は以前Andreessen Horowitzのパートナーを務めており、政府のAI政策の調整を担当し、前PayPal最高執行責任者であるDavid Sacks氏と協力します。

image.png

【AiBase要約:】

🌟 Sriram Krishnan氏がトランプ氏の人工知能政策上級顧問に任命され、政府のAI政策の調整を担当します。

🤝 彼は前PayPal最高執行責任者であるDavid Sacks氏と協力し、AIと暗号通貨関連の政策を推進します。

💼 Krishnan氏は、多くの有名テクノロジー企業でリーダーシップの役割を務めており、『ニューヨークタイムズ』でAIトレンドに関する見解を共有しています。

12、閃極AI拍拍鏡の予約販売が完売:999元で5万台が1日で完売