AIデイリーニュース：GoogleがGemini 1.5 Pro実験版をリリース(8月1日)；画像生成オープンソースモデルFLUX1登場；高速3D画像生成モデルStable Fast 3D発表；アリババの音声合成モデルCosyVoice更新

【AI日報】へようこそ！ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな話題をお届けし、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、Googleが超強力なマルチモーダルモデルの試験版Gemini 1.5 Proを発表、GPT-4o、Claude-3.5 Sonnetを上回るランキング

Googleは本日、人工知能分野で大きな進歩を遂げたGemini 1.5 Proの試験版0801を発表しました。Gemini 1.5 Proはマルチタスクで優れたパフォーマンスを発揮し、マルチモーダル機能と広範なコンテキストウィンドウを備えているため、AIの発展と社会への影響に関する議論を巻き起こしています。

【AiBase要約:】
🚀 GoogleがGemini 1.5 Pro試験版0801を発表、ランキングで競合他社を上回る。
💪 このモデルはマルチタスクで優れたパフォーマンスを発揮し、マルチモーダル機能と広範なコンテキストウィンドウを備えている。
⚖️ 発表はAIの発展と社会への影響に関する議論を巻き起こし、Googleはモデルの改善に向けてフィードバックを求めている。
詳細リンク:https://top.aibase.com/tool/gemini-pro

2、AI画像生成に新たな覇者登場！オープンソースモデルFLUX.1が突如現れ、Midjourney、DALL・E3は警戒か？

人工知能分野では、毎日が画期的な変革をもたらす可能性があります。FLUX.1は、その強力な性能とオープンソースの特性でAI業界を席巻する注目すべきダークホースです。創設者Robin Rombach氏の権威ある経歴とFLUX.1の革新的なアーキテクチャにより、AI画像生成分野の新たな覇者となり、AI業界全体に新たな活力を注入しています。

【AiBase要約:】
🚀 FLUX.1はクローズドソースモデルとオープンソースSD3シリーズを凌駕し、性能が大幅に向上。
💡 Vision Transformerアーキテクチャに基づき、プロセス一致トレーニング方法を採用することで、モデルの性能が向上。
🌟 FLUX.1はテキストから画像への変換などで明らかな優位性を示している。
詳細リンク:https://github.com/black-forest-labs/flux

3、Stability AIが新しいAIモデルStable Fast3Dを発表: 0.5秒で3D画像を生成、速度は1200倍向上

Stability AIが最近発表したStable Fast3D技術は、単一の画像から3D画像を高速に生成することを実現し、処理速度は以前の1200倍に向上しました。これは幅広い実用的な価値を持ちます。この技術は高度な生成AIモデルに基づいており、設計、建築、小売、仮想現実、ゲーム開発など、多くの業界に革命的な変化をもたらします。

【AiBase要約:】
😃Stable Fast3D技術により、0.5秒で3D画像を生成、速度が大幅に向上。
👍新しいモデルは設計、建築、小売、仮想現実、ゲーム開発などの多くの業界で実用的な価値を持つ。
👏Stability AIは画像生成技術の開発を継続的にリードし、2Dから4Dへと進化を続けている。
詳細リンク:https://top.aibase.com/tool/stable-fast-3d

4、AI動画制作プラットフォームHedraが1000万ドルの資金調達

最近、AI動画制作分野で大きなニュースがあり、Hedraが1000万ドルのシード資金を調達し、大きな注目を集めています。Hedraは動画基礎モデルCharacter-1を発表しており、すでに35万人以上のユーザーが160万本以上の動画を作成し、一部はインターネットで人気となっています。多くの企業が動画生成モデルを発表しており、大企業もAI駆動の動画制作に積極的に参加しています。

【AiBase要約:】
🔥 Hedraが1000万ドルのシード資金を獲得し、Character-1モデルを発表。
💡 35万人以上のユーザーがCharacter-1を使用して160万本以上の動画を作成し、一部はインターネットで人気となっている。
🚀 多くの企業が動画生成モデルを発表しており、大企業もAI駆動の動画制作に積極的に参加している。
詳細リンク:https://www.hedra.com/blog/announcement

5、アリババの音声合成モデルCosyVoiceが更新、AIの音声がより人間味あふれるものに

アリババが発表した最新のテキスト音声合成モデルCosyVoiceは、未来の人と機械のインタラクションの素晴らしい青写真を示しており、そのリアルさと柔軟性は驚くべきものです。この技術は、特定の性別、年齢、個性に合わせた音声を生成できるだけでなく、人間の会話の自然な特徴を模倣し、感情やスタイルを加えることで、AIの表現をより豊かにすることができます。CosyVoiceとSenseVoiceはFunAudioLLMフレームワークを構成し、音声インタラクション体験を向上させ、多言語認識と感情認識をサポートします。この技術的ブレークスルーは、人と機械のインタラクションが新たな時代を迎えることを示唆しており、教育、エンターテインメント、顧客サービスなどの分野に革命的な変化をもたらします。

【AiBase要約:】
🤖 CosyVoiceモデルは未来の人と機械のインタラクションの青写真を示し、リアルで柔軟性があり、性別、年齢、個性に合わせた音声を生成し、自然な特徴を模倣し、感情やスタイルを加える。
🔊 FunAudioLLMフレームワークは音声インタラクション体験を向上させ、SenseVoiceは多言語認識と感情認識をサポートし、応答速度が速く、応用範囲が広い。
📚 技術的ブレークスルーは人と機械のインタラクションの新たな時代を示唆しており、CosyVoiceとFunAudioLLMは教育、エンターテインメント、顧客サービスなどの分野に革命的な変化をもたらす。
詳細リンク:https://top.aibase.com/tool/cosyvoice

6、アリババ国際站のAIビジネスアシスタントがアップグレード: テキストタイプのAI生成機能が完全に無料に

アリババ国際站の社長である張闊氏は、AIビジネスアシスタントの新たな発表として、極めてシンプルな商品作成機能とAIによる自動対応機能を発表しました。AI技術の応用により、外貿易業界の参入障壁が大幅に低減され、すでに3万の中小企業が利用しており、商品露出量は37％向上し、決済転換率は50％向上しました。AIビジネスアシスタントは、企業が効率的に運営し、迅速に受注するための強力なアシスタントとなっています。更新された3つの権利により、より柔軟な使用方法が提供され、テキストタイプのAI生成機能は無料で、満足できない機能は無料で再生成できます。今後もさらに多くの機能が更新される予定です。

【AiBase要約:】
🚀 AIビジネスアシスタントの極めてシンプルな商品作成機能により、企業の商品掲載時間を最短60秒に短縮。
💬 AIによる自動対応機能により、海外バイヤーからの2回目の返信率が約40％向上。
💡 AI技術の応用により、外貿易業界の参入障壁が低減され、3万の中小企業が利用しており、商品露出量は37％向上し、決済転換率は50％向上。

7、デスクトップ版ChromeのAI検索がアップグレード、Circle to Searchに似た機能が導入

Google Lensがデスクトップ版ChromeでAI駆動のアップグレードを行い、ユーザーにより便利な検索体験を提供します。ユーザーは検索ボックスの新しいボタンをクリックしてGoogle Lensをアクティブ化し、複数検索を実行してテキストと画像の検索結果を確認できます。このアップデートは世界中で展開されますが、一部の機能は米国ユーザーのみに提供されます。また、ChromeにはAI機能が追加され、ユーザーは検索履歴に質問することでリンクを検索できます。これらの機能は、今後数日または数週間のうちに米国ユーザー向けに段階的に展開される予定です。

【AiBase要約:】
🌐 Google Lensがデスクトップ版ChromeでAI駆動のアップグレードを行い、ユーザーは検索ボックスのボタンをクリックしてアクティブ化し、複数検索を実行できる。
📅 アップデートは「今後数日」中に世界中で展開され、一部の機能は米国ユーザーのみに提供される。
💬 Chromeに検索履歴に質問できるAI機能が追加され、「今後数週間」中に米国で展開される予定で、ユーザーは選択可能。現在はクラウドモデルを使用して結果を提供している。

8、イスラエルの人工知能スタートアップaiOlaが超高速オープンソース音声認識モデルWhisper-Medusaを発表

aiOlaが発表したWhisper-Medusa音声認識モデルは、OpenAIのWhisperよりも速度が50％向上し、精度も維持しています。この取り組みは、音声アプリケーションの応答速度を向上させ、効率を高め、コストを削減します。

【AiBase要約:】
💥 速度が50％向上: Whisper-MedusaはOpenAIのWhisperよりも50％高速
🎯 精度を損なわない: Whisper-Medusaは速度を向上させながら、元のモデルと同じ精度を維持
📈 広範な応用分野: Whisper-Medusaは音声アプリケーションの応答速度を向上させ、効率を高め、コストを削減する見込み

9、Sunoは著作権で保護された音楽を使用してモデルをトレーニングすることを「適法使用」だと主張

この記事では、米国レコード協会（RIAA）が音楽生成スタートアップ企業UdioとSunoを訴えた件について報じています。Sunoは、著作権で保護された音楽を使用してAIモデルをトレーニングしたことを認め、それが適法使用に該当すると主張しています。RIAAはこれに異議を唱え、著作権侵害であると主張しています。この判決は、関連分野の先例となる可能性があります。

【AiBase要約:】
🎶 RIAAがUdioとSunoを、著作権のある音楽を使用してモデルをトレーニングしたとして訴追。
💻 Sunoは著作権で保護された音楽を使用してモデルをトレーニングしたことを認めているが、適法使用だと主張。
👀 この判決は、関連分野の先例となる可能性がある。

10、MicrosoftがSEC書類で初めてOpenAIを競合他社として記載

Microsoftは最近、米国証券取引委員会（SEC）に提出した年間報告書10Kで、長年のパートナーであるOpenAIを初めて競合他社として記載し、業界で憶測を呼んでいます。この動きは、現在の反トラスト環境の影響を受けている可能性があり、MicrosoftとOpenAIの関係の行方は依然として注目されています。

【AiBase要約:】
🔍 MicrosoftがOpenAIを競合他社として記載し、業界の注目を集める。
💰 MicrosoftはOpenAIに130億ドルを投資し、独占的なクラウドプロバイダーとなっている。
🔄 パートナーと競合他社は相互に排他的ではない。MicrosoftとOpenAIの関係の変化には前例がある。

11、クック氏、AppleのAIがユーザーのアップグレードを促進すると発言

Appleは2024年第3四半期に堅調な財務実績を達成し、特にサービス収益が伸びています。ティム・クックCEOは、Apple Intelligenceの一部の機能と今後発表される新型iPhone 16について明らかにし、Appleの人工知能分野における発展への展望を示しました。

【AiBase要約:】
📈 Appleの2024年第3四半期の総純収益は857億7700万ドルで、前年比5％増。
📱 iPhoneの収益は392億9600万ドルで、MacとiPadの収益も増加。サービス収益は242億1300万ドル。
🚀 Apple Intelligence機能は順次展開され、新型iPhone 16はAI技術に対応予定。

12、300名以上のビデオゲーム俳優が共同で抗議、ハリウッドにおけるAIの無規制使用を非難！

ハリウッドの華やかな輝きの裏側では、俳優たちが団結してAIの無規制使用に抗議し、自身の権利を守っています。この抗議行動は、人工知能時代における俳優の生存権の重要性を浮き彫りにしています。

【AiBase要約:】
🎭 俳優たちがAIの無規制使用に抗議し、権利を守る。
💼 人工知能が俳優の生存を脅かし、音声や容姿が悪用される可能性がある。
💰 俳優とゲーム会社間の交渉は膠着状態にあり、重要な点は誰が演技者であるかという点。

13、香港大学とMITが共同でItiNeraを開発: あなたの個人的なAIガイド、ワンクリックで完璧なシティウォークルートを計画！

都会の喧騒の中で、誰もが思い立ったらすぐにシティウォークに出かけ、街角を散策し、歴史的建造物を探索し、地元文化に浸りたいと願っています。ItiNeraシステムは、空間最適化と大規模言語モデルを組み合わせることで、パーソナライズされた都市旅行プランニングサービスを提供し、旅行者に都市探検の全く新しい方法を提供します。

【AiBase要約:】
🌆 ItiNeraはオープンワールドの都市旅行プランニングシステムで、ユーザーの自然言語による説明に基づいてパーソナライズされた旅程を生成できる。
🗺️ ItiNeraはLLMと空間最適化モジュールを使用してPOIを抽出し並べ替え、空間的に連続した旅程を作成する。
🔓 ItiNeraはTuTuオンライン旅行サービスに展開されており、数千人のユーザーが都市旅行プランニングサービスを利用している。