Google、VideoPoetビデオ生成モデルを発表、10秒の長さのビデオと音声の生成に対応

36氪

公開日AIニュース · 1 分で読めます · Dec 22, 2023

101

12月19日、Googleは動画生成モデルVideoPoetを発表しました。このモデルは最長10秒の動画を生成でき、動画の内容に合わせて自動的にBGMと効果音も生成します。VideoPoetは動画の最終フレームの次のフレームを繰り返し予測することで動画を延長し、ユーザーに動画が無限に延長するように感じさせます。他のモデルとは異なり、VideoPoetは拡散モデルではなく大規模言語モデルを使用しているため、テキストから動画への変換、動画修復、動画のスタイル変更など、複数の機能を1つのモデルに統合しており、より柔軟に使用できます。

ビデオ生成テキストからビデオマルチモーダル

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

飛渡科技が峥嵘大モデルを発表しました。デジタルツインが知能の新しい時代を迎える！

飛渡科技が「峥嵘大モデル」を発表、国際評価プラットフォームCity3Dで優れた性能を発揮。災害シミュレーションや文化遺産保護に応用可能。API開放で業界の智能化を推進。....

Jul 7, 2025

Stream-Omni：さまざまなモードの組み合わせをサポートし、テキスト、ビジュアル、音声の統合を開始

中科院計算所がStream-Omniマルチモーダル大規模モデルを発表。テキスト・画像・音声の3モーダルに対応し、モーダル間アライメント技術により大規模データ依存を低減。音声とテキストのリアルタイム変換を実現。任意のモーダル組み合わせが可能で、特に画像理解と音声対話に優れる。論文とコードは公開済み。....

Jul 7, 2025

オープンソースAIデスクトップアシスタントのGlassが人気、会議のリアルタイム記録やインスピレーションのキャプチャ

2025年7月にオープンソースAIアシスタントGlassが人気に。Pickleチーム開発で、macOS対応、バックグラウンド動作が特徴。会議メモや学習ノートを自動整理し、プライバシー保護も。Apache2.0ライセンスでGitHubスター1.8k。Windows/Linux版や「デジタルクローン」機能の拡張予定。....

Jul 7, 2025

AIニュース：BilibiliがコードネームHのAIクリエイティブツールをリリースする可能性あり；Zhiyuanは「Naochiロボット」のLinx X2-Nを発表；Yushu Techが科创板に上場を目指す

B站は動画作成支援AI「H」を発表。智元は双形態ロボット「霊犀X2-N」を公開。宇樹科技は科創板IPOで120億評価。EarthMindが地球データ分析を革新。Gemini CLIが音声/動画処理機能を更新。macOS助手Glassがオープンソース化。Claudeが数学特化モデル「Neptune v3」を発表予定。GPT-5はマルチモデル統合でブレークスルーを目指す。....

Jul 7, 2025