【AI日報】へようこそ!ここは、人工知能の世界を探求するあなたのための毎日ガイドです。毎日、AI分野のホットな話題をお届けし、開発者をフォーカスすることで、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、LumaがDream Machineモデルの特徴を紹介する公式動画を公開
Lumaが公開したDream Machineモデルの紹介動画を見て、このAI動画生成ツールは非常にパワフルだと感じました。高品質な動画を出力するだけでなく、ユーザーのプロンプトを素早く理解し、美学的なスタイルに沿った動画コンテンツを生成できます。これはクリエイティブな反復プロセスに非常に役立ち、動画生成をより効率的にします。
【AiBase要約:】
🌟 生成される動画の品質が高く、解像度は1024ピクセルに達します。
🎨 プロンプトを理解し、美学的なスタイルに沿った動画を生成できます。
⚡ 推論速度が速く、アイデアの迅速な反復に役立ちます。
詳細リンク:https://top.aibase.com/tool/dream-machine
2、新しいリップシンク動画プロジェクトHalloが公開 表情や口の動きを正確に制御可能に
新しいリップシンク動画プロジェクトHalloが公開されました。単一の画像と音声入力から歌ったり話したりする動画を生成し、人物の表情や姿勢を正確に制御することで、音声入力と生成アニメーションの精度を高めます。この技術は、仮想キャラクターアニメーションの生成だけでなく、実在の人物にも適用でき、様々なモーションコントロール、俳優間の応用、歌唱アニメーションの生成に対応しています。高度な技術で、アニメーションはリアルで、幅広い応用可能性を秘めています。
【AiBase要約:】
⭐️ 単一の画像と音声入力から歌ったり話したりする動画を生成
⭐️ 仮想キャラクターと実在の人物のアニメーション生成に対応、プロジェクトはオープンソース化されています
⭐️ 多様なモーションコントロールにより、表情と姿勢を正確に制御し、アニメーションの多様性とリアルさを向上
プロジェクトアドレス:https://top.aibase.com/tool/hallo
3、北京大学と快手(Kuaishou)が共同で動画生成フレームワークVideoTetrisを発表 複雑な動画生成においてPikaを凌駕
この記事では、北京大学と快手AIチームが複雑な動画生成における課題を克服し、VideoTetrisフレームワークを発表したことを紹介しています。これは商用モデルであるPikaやGen-2を凌駕する成果です。このフレームワークは、複合的な動画生成タスクを定義し、複雑な指示や長尺動画の生成に対応し、位置情報と詳細な特徴を保持します。チームは時空間複合拡散法を採用し、トレーニングデータの前処理を最適化し、参照フレームアテンションメカニズムを導入することで、よりダイナミックで自然な動画を生成します。
【AiBase要約:】
⭐ VideoTetrisフレームワークは複雑な動画生成における課題を克服し、商用モデルPikaとGen-2を凌駕しました。
⭐ 複合的な動画生成タスクを定義し、複雑な指示と長尺動画の生成に対応し、位置情報と詳細な特徴を保持します。
⭐ 時空間複合拡散法を採用し、トレーニングデータの前処理を最適化し、参照フレームアテンションメカニズムを導入することで、よりダイナミックで自然な動画を生成します。
詳細リンク:https://top.aibase.com/tool/videotetris
4、日本のAIアーティストがLumaを使って亡くなった妻を蘇らせる ネットユーザー感動
この記事は、65歳のAIアーティスト松尾公也氏が技術を使って11年前に亡くなった妻、Tori-chanを蘇らせ、多くの人々を感動させた物語です。AI技術を用いて、妻の歌を再編曲・録音し、ダイナミックな動画を作成し、妻の手紙を抽出して翻訳することで、妻への想いと愛情を表しました。これは、一般人が技術を使って夢を実現した物語であり、AI時代の愛の力と温かさを示しています。
【AiBase要約:】
🌟 松尾公也氏はLumaのAI動画Dream Machineを使って、11年前に亡くなった妻Tori-chanを蘇らせ、多くの人々を感動させました。
🎶 AI技術を用いて妻の歌を再編曲・録音し、ダイナミックな動画を作成し、妻への深い想いを表現しました。
💖 AIツールを使って妻から彼への手紙を抽出し翻訳し、深い愛情と永遠の追悼の念を表しました。
5、アップルAI、発売延期か 開発者によるテストは夏終わりまで待機
ブルームバーグの報道によると、アップルのAI計画は長く、ゆっくりとしたプロセスになるようです。アップルは先週、アップルIntelligence計画を発表しましたが、開発者によるテストは夏終わりまで延期される見込みです。つまり、アップルの新しいOSアップデートの最初のテスト版には含まれず、プレビュー版は秋にリリースされるのみとなります。
【AiBase要約:】
🍏 アップルのAI計画は、夏終わりに開発者によるテストが開始される予定です。
📉 アップルの計画は、新しいOSアップデートの最初のテスト版には含まれません。
💬 アップルIntelligence計画は、消費者がデバイスとやり取りする方法、そして買い物方法を変えるでしょう。
6、KREA AIが動画強化機能を発表 ワンクリックで動画画質を向上
この記事では、KREA AIが発表した動画強化機能「Enhancer」について紹介しています。この機能は画像と動画の画質を向上させ、より高い解像度とフレームレートに対応しています。ユーザーは簡単に操作でき、改善が必要な画像/動画をアップロードすると、KREA AIがオンラインで処理を行い、高品質な動画を生成します。
【AiBase要約:】
⭐ Enhancer機能は誰でも利用でき、画像と動画の画質を向上できます。
⭐ AI動画ツールと連携して使用でき、処理後、ページ上で強化前後の比較を確認できます。
⭐ 最大2.5倍のピクセルと最大120fpsのフレームレートの動画を生成できます。
7、清華大学と北京大学が共同で長尺動画理解ベンチマークテストLVBenchを発表
この記事では、智譜、清華大学、北京大学が共同で開発した長尺動画理解ベンチマークテストプロジェクトLVBenchについて紹介しています。これは、既存のマルチモーダル大規模言語モデルが長尺動画の処理において抱える課題を克服することを目的としています。このプロジェクトには、様々な種類の動画コンテンツを網羅した数時間に及ぶQAデータが含まれており、長尺動画分野における技術的ブレークスルーとイノベーションを促進することを目指しています。多くの研究機関が既にLVBenchデータセットを用いた研究を進めており、動画理解とマルチモーダル学習分野に新たな活力を注入しています。
【AiBase要約:】
🔍 LVBenchプロジェクトは長尺動画理解のベンチマークテストプロジェクトであり、様々な種類の数時間に及ぶQAデータが含まれています。
💡 LVBenchデータセットは、動画要約、イベント検出、人物認識、シーン理解など、様々なタスクを網羅しています。
🚀 LVBenchベンチマークの発表は、関連技術のブレークスルーとイノベーションを促進し、長尺動画分野の発展に新たな原動力をもたらします。
詳細リンク:https://github.com/THUDM/LVBench
8、メッシュ生成モデルMeshAnything:あらゆる3Dをアーティストが作成したメッシュに変換
最近、再構成と生成によって作成された3Dアセットは、手作業で作成されたアセットと同等の品質に達しており、代替分野における可能性を示しています。MeshAnythingは、アーティストが作成した3Dメッシュを生成するための自己回帰モデルであり、VQ-VAEと形状条件付きデコーダーのみのトランスフォーマーによって、高品質なメッシュ生成を実現しています。この手法は、従来の手法と同等の精度を維持しながら、ストレージ、レンダリング、シミュレーションの効率を大幅に向上させます。
【AiBase要約:】
⚙️ MeshAnythingは自己回帰モデルを使用して、高品質なアーティスト作成の3Dメッシュを生成します。
🔍 MeshAnythingのメッシュは、ストレージ、レンダリング、シミュレーションの効率を向上させながら、精度を維持します。
🌐 MeshAnythingは様々な分野で幅広く応用でき、様々なユーザーの創作ニーズに応えます。
詳細リンク:https://top.aibase.com/tool/meshanythingMeshAnything
9、ハーバード大学の神経科学者とGoogle DeepMindが仮想ネズミに人工脳を作成
この記事では、ハーバード大学の研究者とGoogle DeepMindチームが、人工知能技術を用いて仮想ネズミに人工「脳」を作成した画期的な研究を紹介しています。彼らは、生物力学的にリアルな3Dネズミモデルを構築し、DeepMindの深層強化学習アルゴリズムを用いて人工ニューラルネットワークの脳をトレーニングすることで、現実を超えるシミュレーションを実現しました。この革新は、神経科学と人工知能の分野に革命的な進歩をもたらす可能性があります。
【AiBase要約:】
🧠 仮想ネズミは人工「脳」を持ち、複雑な環境下で正確な運動制御が可能です。
🔬 DeepMindのアルゴリズムでトレーニングされた人工ニューラルネットワークの脳は、様々な複雑な運動軌跡と力を生み出せます。
🤖 未来の応用範囲は広く、「仮想神経科学」という新たな分野を切り開く可能性があり、神経系疾患の治療に新たな戦略をもたらすでしょう。
10、マクドナルド、IBMとのAIドライブスルー注文に関する提携を終了
マクドナルドは、IBMとのAIドライブスルー注文に関する提携を終了すると発表しました。100以上の店舗でテストされていた技術は、2024年7月26日までに撤去される予定です。マクドナルドがIBMとの提携を終了した理由は現時点では不明ですが、同社は音声注文チャットボットがサービス速度を向上させるかどうかをテストしており、テスト結果に自信を持っていると述べています。外食産業は一般的に、効率向上のためのAI技術導入を熱望しています。
【AiBase要約:】
🍔 マクドナルドは、IBMとのAIドライブスルー注文に関する提携を終了し、100以上の店舗でテストされていた技術を撤去します。
🤖 マクドナルドは、サービス速度を向上させるために音声注文チャットボットをテストしています。
🔮 外食産業は一般的に、効率向上のためのAI技術導入を熱望しています。
11、研究:ChatGPTとの会話5分間で、人間かAIかを判別するのは困難
GPT-4モデルのような大規模言語モデル(LLM)は、ChatGPTのようなチャットプラットフォームで驚くべき能力を示しており、生成されたテキストが人間によって書かれたものかどうかを区別するのは困難です。カリフォルニア大学サンディエゴ校の研究によると、人々はGPT-4との会話において、それが人間かどうかを判別するのが困難であることがわかり、機械が人間の知性を示す程度を示しています。
【AiBase要約:】
🔍 GPT-4モデルは研究において、人間と区別が難しい会話能力を示しました。
💡 研究結果によると、約50%のやり取りにおいて、人々はGPT-4を人間と誤認しました。
🎮 「人かAIか」というオンラインゲームが設計され、人々が人間とAIシステムとの会話を確実に判別するのが難しいことが明らかになりました。
12、マルチモーダルモデルのキャンバスフレームワークSketchpad:マルチモーダルモデルの数学能力を向上