AI日報：Runway Gen 3で巨大な3D字幕効果を生成可能に；Google Vidsがテスト公開；百度網盤が赤ちゃんAI容貌予測機能をリリース；Luma AIが動画の最初と最後のフレームを生成

【AI日報】へようこそ！ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら：https://top.aibase.com/

1、衝撃！Runway Gen 3で映画の冒頭のような3D巨大字幕効果が生成可能に

Runwayが最近発表したGen-3Alphaビデオ生成モデルは、忠実度、一貫性、モーション表現において大幅な改善が見られ、安定した光と影を生成するだけでなく、想像力も豊かです。内部テストのブロガーが3D巨大字幕効果を披露しており、Gen3はまもなく一般公開されます。モデルは動きを精密に制御し、優れた審美眼と豊かな想像力、物理法則への適合性、高速な生成速度を備えています。

【AiBase要約:】
⚙️ Runway Gen3は、マーベル映画の冒頭のような3D巨大字幕効果を作成できます。
💡 高速移動シーンでも高品質な出力を維持し、非常に安定した光と影の効果を実現します。
🎥 制御モードには、モーションブラシ、高度なカメラ制御、ディレクターモードが含まれており、生成速度が速く、審美眼も優れています。
詳細リンク:https://top.aibase.com/tool/gen-3-alpha

2、百度網盤一刻相册Appが赤ちゃんAI容貌予測機能を発表

百度網盤一刻相册AppがAI容貌予測機能を発表しました。ユーザーは写真をアップロードするだけで、赤ちゃんの将来の容貌を予測できます。トレーニングデータは中国の赤ちゃんの特徴に合致しており、操作は簡単で迅速です。今後、より多くの実用的なAI機能を開発し、ユーザーからの意見を募集する予定です。

【AiBase要約:】
👶 赤ちゃんの将来の容貌を予測し、トレーニングデータは中国の赤ちゃんの特徴に合致しており、操作は簡単で迅速です。
📸 写真をアップロードするだけで、高精細な予測画像を取得でき、さまざまなスタイリッシュなフィルター効果を選択できます。
🔮 今後は、子供の異なる成長段階の容貌を予測するなど、より多くの実用的なAI機能を開発し、ユーザーからの意見を募集する予定です。

3、GoogleがAIビデオ編集アプリGoogle Vidsのテスト版をリリース

Googleが最近発表したAIビデオ編集アプリGoogle Vidsは、テスト段階で強力な機能とユーザーフレンドリーな特性を示しており、ユーザーに効率的で便利なビデオ編集ツールを提供します。このアプリはGemini大規模言語モデルを統合しており、ユーザーが簡単にビデオコンテンツを作成できるようにし、ビデオ制作のハードルを下げます。将来的には、ビデオクリエイターの頼もしいアシスタントになる可能性があります。

【AiBase要約:】
✨ Google VidsはGemini大規模言語モデルを統合しており、ユーザーはスライドショーの作成、ビデオスクリプトの作成、分シーンスクリプトの作成を支援します。
🎥 ユーザーは要素を追加または削除してビデオを編集し、最終的にMP4ファイルとしてエクスポートします。Googleドキュメントの文書処理ツールにあります。
🚀 Google Vidsのテスト版リリースは、Google Workspaceスイートを充実させ、強力なAI技術能力を示し、ユーザーに便利なビデオ編集ツールを提供します。

4、Luma AIの新機能：開始フレームと終了フレームからビデオを生成し、5秒間延長

Luma AIは新しい機能を発表し、ビデオ制作の可能性を無限に広げました。時々、硬い画面の切り替えがありますが、それが編集の魅力であり、毎秒が驚きと創造性で満ち溢れています。将来のビデオ生成は、この延長操作に基づいて行われ、インテリジェントでパーソナライズされたビデオ制作を実現します。

【AiBase要約:】
✨ ビデオ延長魔法：開始フレームと終了フレームからビデオを生成し、5秒間延長することで、各フレームの可能性を無限に広げます。
💡 新しいビデオ機能「Extend」：ビデオコンテンツをインテリジェントに分析し、元のスタイルとオブジェクトの一貫性を維持したままビデオの長さを延長します。
🌟 Dream Machineモデルの発表：テキストと画像の入力をサポートし、現実世界の物理特性をシミュレートした高品質なビデオを生成します。無料で体験できます。
詳細リンク:https://top.aibase.com/tool/dream-machine

5、新型Solos AirGo Visionスマートグラスを発表

Solos社は香港スマートグラスサミットで、新型Solos AirGo Visionスマートグラスを発表しました。ChatGPT-4oを搭載したウェアラブルAIブレインを搭載し、ユーザーの視界を瞬時に超能力にアップグレードします。このスマートグラスは、リアルタイムのQ＆Aと視覚的なヒントをサポートするだけでなく、多言語翻訳機能とモジュール式設計も備えており、価格は249ドルです。

【AiBase要約:】
⭐ ChatGPT-4oを搭載したマルチモーダルAI機能を搭載し、リアルタイムのQ＆Aと視覚的なヒントをサポートします。
⭐ 10以上の言語のリアルタイム翻訳をサポートし、言語の壁を簡単に打破します。
⭐ モジュール式設計により、さまざまなスタイルの従来のフレームと交換でき、価格は249ドルです。

6、商湯科技の如影AIビデオ生成プラットフォームがCCTVの記者王冰冰のAIデジタルヒューマンを発表

商湯科技のAIデジタルヒューマン「AI冰冰」が「2024中国・AI盛典」で初登場し、優れた多言語能力とリアルな視覚効果を披露しました。デジタルヒューマン技術はメディア業界に大きな可能性を秘めており、人物IPと視聴者の距離を縮めることができます。

【AiBase要約:】
✨ 商湯科技が開発したAIデジタルヒューマン「AI冰冰」は、SenseNova大規模言語モデル技術のおかげで、舞台上でプロフェッショナルで自然なパフォーマンスを披露しました。
🌐 如影プラットフォームのAIビデオ生成技術は、高精細な複製と自然な表情、口元、動作効果を実現し、卓越した言語能力を示しました。
🔥 商湯如影は強力なコア技術サポートを提供し、AI冰冰はリアルな視覚効果と流暢な多言語表現能力を披露できます。

7、知乎が独立したAI検索プラットフォーム「知乎直答」を発表

知乎は最近、新しいAI製品「知乎直答」を発表しました。これは、Q＆Aの効率と品質を向上させ、ユーザーと質の高い回答の距離を縮め、コミュニティクリエイターのコンテンツ流通を強化することを目的としています。この動きは、Q＆Aコミュニティがよりスマートでパーソナライズされた新しい時代に入ることを示唆しています。

QQ截图20240701090057.png

【AiBase要約:】
🚀 知乎直答は、知乎の豊富なQ＆Aデータに基づいて開発されたAI製品であり、簡潔な回答と詳細な回答の2種類の回答生成方法を提供し、ユーザーが必要なコンテンツや専門家を見つけやすくします。
💡 生産性向上ツールと世界を発見するためのコネクターという位置付けで、ユーザーが質問を通じて世界を探求する能力を支援します。
🔮 今後はApp版のリリース、マルチモーダル機能の導入、知乎コミュニティとの深い統合、外部との連携を計画しており、Q＆A分野全体に新たな発展方向をもたらします。
詳細リンク:https://zhida.zhihu.com/

8、WhatsAppの最新のAndroidテスト版2.24.14.7がMeta AI Llamaモデルの選択機能を発表

WhatsAppの最新のテスト版では、Meta AI Llamaモデルを選択する機能が導入されました。ユーザーは必要に応じてAIとのインタラクションエクスペリエンスをカスタマイズし、より迅速で簡単な応答やより複雑なクエリ処理を体験できます。この機能は、WhatsAppがAI分野で継続的にイノベーションを続ける決意を示しています。

【AiBase要約:】
🔍 WhatsAppの最新のAndroidテスト版2.24.14.7は、Google Play Betaプログラムを通じてMeta AI Llamaモデルの選択機能を発表しました。
🧠 ユーザーは、デフォルトのLlama3-70Bモデルを選択してより迅速で簡単な応答を得るか、高度なLlama3-405Bモデルを選択してより複雑なクエリを処理できます。
📈 WhatsAppは、より高度なLlama3-405Bモデルのプレビュー版を提供する予定です。毎週使用回数に制限があり、制限に達するとユーザーはデフォルトモデルに戻って会話を続けます。

9、Appleは今年秋にGoogle Geminiとの取引を発表する可能性がある

Appleは今年秋にGoogle Geminiとの統合取引とApple Intelligenceのテスト版を発表する計画で、人工知能を直接的な収益源としています。サードパーティのAIサービスはAppleにとって移行策となり、同時にAppleは独自の生成AIシステムを段階的に導入する予定です。

【AiBase要約:】
🍎 AppleはGoogle Geminiをデバイスに統合し、Apple Intelligenceのテスト版を発表する計画です。
💡 Appleは人工知能を直接的な収益源としており、ハードウェア販売を促進する機能だけではありません。
🤖 サードパーティのAIサービスはAppleにとって移行策となり、同時にAppleは独自の生成AIシステムを段階的に導入する予定です。

10、GPTPdf：GPT-4oに似たマルチモーダルLLMを使用してPDFファイルを分析

最近、gptpdfという名前のオープンソースプロジェクトがgithubで話題になっています。GPT-4oに似たVLLMモデルを使用してPDFファイルを解析し、Markdown形式に変換します。このプロジェクトのコードは簡潔で効率的で、わずか293行ですが、レイアウト、数式、表、画像、グラフなど、あらゆるコンテンツを完璧に解析できます。費用はページあたり平均0.013ドルです。

【AiBase要約:】
🔍 GPT-4oに似たマルチモーダルモデルを使用してPDFファイルを解析し、Markdown形式に変換します。
💻 コードは簡潔で効率的で、わずか293行です。
🌟 解析結果はほぼ完璧で、レイアウト、数式、表、画像、グラフなどのコンテンツが含まれています。
詳細リンク:https://top.aibase.com/tool/gptpdf

11、AIオーディオ魔法使いResona V2Aがビデオに自動的に音声効果を追加

AI技術が広く普及している時代において、Resona V2A技術が登場し、まるで魔法使いのようにビデオに自動的に声を吹き込み、独自のメロディーを歌わせます。これは技術的なブレークスルーであるだけでなく、クリエイターにとって朗報です。Resona V2Aはワンクリックでオーディオを生成し、迅速かつ効率的で、クリエイターの頼もしいアシスタントです。コストパフォーマンスが高く、コストを99％削減し、高品質なオーディオソリューションを提供します。

【AiBase要約:】
🔮 ビデオに自動的に声を吹き込み、独自のメロディーを歌わせます。技術的なブレークスルーとクリエイターにとって朗報です。
⚙️ ワンクリックでオーディオを生成し、迅速かつ効率的であり、オーディオ生成速度を向上させ、クリエイターはより多くの時間と労力をビデオのクリエイティブデザインに費やすことができます。
💰 コストを99％削減し、コストパフォーマンスの高いオーディオソリューションを提供し、さまざまなユーザーのニーズを満たします。
詳細リンク:https://top.aibase.com/tool/resona-v2a

12、AI着せ替え黒科技MMTryonバーチャル試着フレームがオンデマンドで組み合わせワンクリック重ね着を実現

中山大学とバイトダンス智創デジタルヒューマンチームが共同で開発したMMTryonバーチャル試着フレームは、従来の着せ替え方法を覆し、ワンクリックでモデルの試着効果を生成し、高品質で操作が簡単です。その服のエンコーダーとマルチモーダルマルチリファレンスアテンションメカニズムにより、着せ替えがより正確で柔軟になり、従来のアルゴリズムの制約を打破し、新しいSOTAを獲得しました。MMTryonは単一の服を試着できるだけでなく、組み合わせ着せ替えもサポートし、分割する必要がなく、テキストコマンドで高品質なバーチャル着せ替えを実現できます。

【AiBase要約:】
👗 ワンクリックでモデルの試着効果を生成し、高品質で操作が簡単です。
🔥 従来のアルゴリズムの制約を打破し、新しいSOTAを獲得し、組み合わせ着せ替えをサポートします。
💡 服のエンコーダーとマルチモーダルマルチリファレンスアテンションメカニズムを利用して、着せ替えをより正確で柔軟にします。
詳細リンク:https://arxiv.org/abs/2405.00448