AIデイリーニュース：復旦大学・百度、1時間の長尺動画生成可能な新モデルを発表；ChatGPT Windows版が登場；NotebookLMに2つの新機能追加

【AI日報】へようこそ！ここでは、毎日人工知能の世界を探求するためのガイドとして、AI分野のホットな話題を毎日お届けします。開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用に関する情報を提供します。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、有料ユーザー向け！新しいChatGPT Windows版が登場：ショートカットキーでAIアシスタントを呼び出せます

OpenAIは、有料ユーザー向けに便利なAIアシスタント体験を提供する、新しいChatGPT Windowsアプリの早期版をリリースしました。ユーザーはAlt + Spaceキーの組み合わせを押すだけでChatGPTを呼び出すことができ、毎回ウェブページを開く必要がありません。現時点では有料ユーザーのみに公開されていますが、今後無料ユーザーも利用できるようになる予定です。テスト版アプリはまだ機能が完全ではありませんが、OpenAIはユーザーエクスペリエンスの向上に向けて継続的に更新していくことを約束しています。

【AiBase要約：】
🌟 ChatGPT Windowsアプリは有料ユーザーのみに公開されており、さまざまな有料アカウントタイプに対応しています。
💡 Alt + Spaceキーの組み合わせを押すと、ChatGPTを簡単に呼び出して会話できます。
🔧 テスト版アプリでは、一部の複雑な機能はまだ実装されていませんが、継続的に更新して機能を充実させていきます。

2、OpenAIがGPT-4O-Audio-Previewを発表

OpenAIが新たに発表したGPT-4O-Audio-Previewモデルは、音声処理分野で驚異的な能力を発揮します。自然でスムーズな音声応答を生成できるだけでなく、感情分析や音声インタラクション機能も備えており、新しいヒューマン・コンピュータ・インタラクションの可能性を切り開きます。このモデルは柔軟にさまざまなモードを組み合わせることができ、価格設定は音声処理の複雑性を反映しています。この発表は、カスタマーサービス、教育、エンターテインメント、支援技術などの分野に革新をもたらすでしょう。

【AiBase要約：】
🔊 自然で滑らかな音声応答を生成でき、音声アシスタントやバーチャルカスタマーサービスアプリケーションに対応しています。
🎶 音声の感情、トーン、イントネーションを分析する能力を備えており、感情計算やユーザーエクスペリエンス分析の分野に適しています。
🗣 音声から音声へのインタラクションをサポートし、包括的な音声インタラクションシステムの基盤を築きます。
詳細はこちら:https://platform.openai.com/docs/guides/audio/quickstart

3、GoogleがAIノートとリサーチアシスタントNotebookLMをアップグレード

GoogleはNotebookLMの大幅なアップグレードを発表し、音声の概要機能を強化することで、ユーザーがAIによる会話内容の生成をより正確に導けるようにしました。更新内容には、音声の概要のカスタマイズとバックグラウンドリスニング機能が含まれており、ユーザーエクスペリエンスが向上しています。ビジネス版のパイロットプログラムが開始され、より幅広いアプリケーションシナリオへの展開が期待されています。

【AiBase要約：】
🔊 音声の概要機能が強化され、ユーザーはAIによる会話内容の生成をカスタマイズできます。
🎙️ バックグラウンドリスニング機能が追加され、ユーザーは作業をしながら音声も同時に聞くことができます。
💼 ビジネス版のパイロットプログラムが開始され、企業は新機能を早期に体験し、サポートを受けることができます。

4、復旦大学と百度が共同で新しいAIモデルHallo2を開発、4K超高画質＋1時間超の長尺ビデオ生成が可能に！

復旦大学と百度が共同開発したHallo2 AIモデルは、人物アニメーション生成の現状を一変させ、映画制作、バーチャルアシスタント、ゲーム開発などの分野に革命的な変化をもたらします。このモデルは、潜在拡散モデル、Patch-dropデータ拡張技術、ガウスノイズ拡張技術、VQGAN離散コードブック予測技術、テキストプロンプト制御メカニズムを組み合わせ、高品質で長尺の人物アニメーション生成において優れた性能を発揮します。

【AiBase要約：】
⚙️ Hallo2モデルは、Patch-dropデータ拡張、ガウスノイズ拡張、VQGAN離散コードブック予測、テキストプロンプト制御メカニズムなど、複数の革新的な技術を組み合わせています。
🌟 Hallo2は複数の公開データセットで検証され、既存の方法を凌駕し、高品質で長尺の人物アニメーション生成において優れた性能を発揮します。
🚀 Hallo2モデルの発表は、AIによる人物アニメーション生成技術が新たな段階に達したことを示しており、今後、効率の最適化とより多くの応用分野の探求が期待されます。
詳細はこちら:https://fudan-generative-vision.github.io/hallo2/#/

5、テスラOptimusロボットが進化：自律航行、階段の上り下り、人とインタラクションが可能に

テスラが最新発表したOptimusロボットは、自律航行から人間とのインタラクションまで、注目すべき新機能を披露し、人工知能とロボット技術の急速な進歩を示しています。Optimusの自律航行能力、エネルギー管理の自律性、積載能力の向上などは、大きな可能性を示しています。

【AiBase要約：】
🤖 自律航行能力：Optimusは複雑な環境でもスムーズに移動でき、複数のロボットが連携して航行効率を最適化できます。
🔋 エネルギー管理の自律性：Optimusは充電ステーションを自動的に特定して自律的に充電できるため、作業の継続性と効率性が向上します。
🏋️‍♂️ 積載能力の向上：Optimusは最大11kgのバッテリーパレットを運搬でき、産業や物流分野での新たな可能性を切り開きます。

6、Googleの人事異動：GeminiチームがDeepMindに統合、検索部門のリーダーシップに大きな変化

Googleは最近、K&IチームとGeminiチームを含む、重要なリーダーシップ交代とチーム構造の調整を行いました。新しいリーダーの就任とチームの統合は、同社の技術開発とAIプロジェクトの連携に大きな影響を与えるでしょう。

【AiBase要約：】
🌟 Nick FoxがGoogle K&Iチームの新しい責任者となり、検索、広告、地理、コマース製品の開発を推進し続けます。
🔧 Prabhakar RaghavanがGoogleの最高技術責任者（CTO）に就任し、同社の技術開発の方向性とサポートを提供します。
🤖 GeminiチームがGoogle DeepMindに統合され、アプリケーションチームとGeminiモデルチーム間の連携強化を目指しています。

7、アップロードした曲を一瞬でピアノ曲に変換！AMT-APCアルゴリズムでワンクリックでマスター級のピアノ演奏を生成

武蔵野大学データサイエンス学部研究員がAMT-APCアルゴリズムを開発しました。AMTモデルとファインチューニング技術を組み合わせることで、原曲に近いピアノ演奏バージョンをより正確に生成できます。このアルゴリズムは、既存のピアノ曲自動生成技術の限界を突破し、音質の忠実度と表現力を向上させました。

【AiBase要約：】
⭐ AMT-APCアルゴリズムはAMTモデルの利点を活用し、ファインチューニングによって原曲により近いピアノ演奏バージョンを生成します。
🎵 主要な戦略には、事前学習とファインチューニングが含まれており、AMTモデルはより長い音楽フレーズを処理し、原曲のスタイルに合わせたピアノ演奏を生成できます。
🎹 スタイルベクトルという概念を導入し、さまざまな演奏スタイルを学習することで、生成されたピアノ曲の表現力と音質の忠実度を高めています。
詳細はこちら:https://misya11p.github.io/amt-apc/

8、Apple SiriのAI新機能：ChatGPT統合と画像生成

Appleは、iOS18、iPadOS18、macOS15に新しいApple Intelligence機能を追加する取り組みを進めており、これにはChatGPTの統合と画像生成が含まれます。ChatGPTはSiriに高度なテキストと画像生成機能を提供し、Visual IntelligenceはiPhone16ユーザーにカメラコントロールボタン機能を提供します。iOS18.1、iPadOS18.1、macOS Sequoia15.1は10月28日にリリースされる予定で、iOS18.2、iPadOS18.2、macOS Sequoia15.2のベータ版も近日公開予定です。

【AiBase要約：】
🔍 SiriにChatGPTが統合され、高度なテキストと画像生成機能が提供されます。
📸 iPhone16はVisual Intelligence機能を搭載し、カメラコントロールボタンを通じて周囲の物体の情報を提供します。
🚀 iOS18.2はImage Playground画像生成、Genmoji、Image Wandをサポートします。

9、わずか10億パラメーター！AI画像生成モデルMeissonic

Meissonicは、わずか10億のパラメーターで高品質な画像を生成できるオープンソースのAIモデルです。並列反復最適化によるトレーニング方法を採用することで、従来のモデルよりも99％高速な画像生成を実現しています。パラメーター数が少ないにもかかわらず、Meissonicは複数のテストでより大きなモデルを上回る性能を示しており、トレーニングなしで画像の修復と拡張機能を実現できます。

【AiBase要約：】
🌟 コンパクトな設計のMeissonicは、一般的なゲーミングPCや将来のモバイルデバイスにも適しています。
⚡ 並列反復最適化によるトレーニング方法を採用することで、Meissonicは従来のモデルよりも99％高速な画像生成を実現しています。
🏆 パラメーター数が少ないにもかかわらず、Meissonicは複数のテストでより大きなモデルを上回る性能を示しており、トレーニングなしで画像の修復と拡張機能を実現できます。
詳細はこちら:https://huggingface.co/spaces/MeissonFlow/meissonic

10、Perplexityが内部知識検索機能を発表、企業は社内外のデータを同時に検索可能に

Perplexity社は、企業の業務効率向上を目指し、ユーザーが必要な情報に簡単にアクセスできるようにする新機能「内部知識検索」を発表しました。ユーザーは選択したファイルのみをアップロードできるため、無価値な情報による検索の妨げを避け、効率性を高めることができます。「スペース」機能が追加され、チームでのファイル共有とAIアシスタントのカスタマイズに対応しています。

【AiBase要約：】
📁 ユーザーは選択したファイルのみをアップロードでき、無価値な情報による検索の妨げを避け、効率性を高めることができます。
🔍 Perplexityは「内部知識検索」機能を発表し、ユーザーは社内外のデータを同時に検索できます。
🤝 「スペース」機能が追加され、チームでのファイル共有とAIアシスタントのカスタマイズに対応しています。

11、自動運転企業Pony.aiが米国でIPOを計画、評価額は85億ドル超

Pony.aiは米国でIPOを計画しており、評価額は85億ドルを超えています。2016年に設立された同社は、自動運転ソリューションに特化しており、9回の資金調達で10億ドル以上を調達しています。収益の主な柱はRobotaxi事業であり、2024年上半期の売上高は前年同期比86％増加しました。

【AiBase要約：】
🌍 Pony.aiは米国でIPOを計画しており、ティッカーシンボルは「PONY」、評価額は85億ドルを超えています。
💰 2016年に設立された同社は、9回の資金調達で10億ドル以上を調達し、評価額は85億ドルに達しています。
🚖 Robotaxi事業が主な収益源であり、2024年上半期の売上高は前年同期比86％増加しました。