Stability AIが復活:驚異的な効果の動画生成デモ

量子位
この記事はAIbaseデイリーからのものです
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
黒森研究所(Black Forest Labs、略称 BFL)は、有名な Stable Diffusion モデルの創設者によって設立された研究機関で、このほど新しい画像生成モデル FLUX.1Kontext をリリースしました。このモデルは写真の生成と編集ができ、さらにユーザーがテキストや参照画像を使って画像を複数回修正できるようになります。これにより企業向けの AI アプリケーションに新たな可能性をもたらします。さまざまなバージョンとプラットフォームに対応するBFL
AMDのAI分野における進歩は注目に値し、特にStable Diffusionモデルに対する最新の最適化は特筆すべきです。最近、Stability AIはONNXフレームワークに基づいた最適化されたStable Diffusionバージョンをリリースしました。これは、AMDのRadeonグラフィックカードとRyzen統合グラフィックスがAIタスク実行時のパフォーマンスを大幅に向上させ、最大3.8倍の高速化を実現することを意味します。この進歩は、NVIDIAとのエコシステムにおける差を縮めるだけでなく、…
先日終了したCESで、Stability AIはSPAR3D(Stable Point Aware3D)と呼ばれる革新的な手法を発表しました。この2段階の3D生成技術は、1秒以内に出力画像から正確な3Dオブジェクトを生成できます。この技術は、ゲーム開発者、プロダクトデザイナー、環境構築者にとって、全く新しい3Dプロトタイピングの方法を提供します。SPAR3Dのユニークな点は、見える部分と見えない部分を別々にモデル化できる点です。
先日、バイトダンスは、オーディオ条件付き潜在拡散モデルを利用してより正確なリップシンクを実現することを目的とした、LatentSyncという新しいリップシンクフレームワークを発表しました。このフレームワークはStable Diffusionをベースに、時間的一貫性を最適化しています。従来のピクセル空間拡散や2段階生成の方法とは異なり、LatentSyncはエンドツーエンド方式を採用し、中間モーション表現を必要とせず、複雑なオーディオとビジュアル間の関係を直接モデル化できます。LatentSyncの
最近のAWS re:Inventカンファレンスで、Stable Diffusion 3.5 Large(SD3.5 Large)がAmazon Bedrockプラットフォームで正式に利用可能になったことが発表されました。AWSのフルマネージドプラットフォームであるBedrockは、開発者がジェネレーティブAIアプリケーションを構築および拡張するための基盤モデルを提供することを目的としています。Stability AIは、SD3.5 LargeをAmazon Bedrockに導入することで、
Stability AIは、単一の画像から高品質な3Dオブジェクトビューを生成できる新しいAIモデル、Stable Zero123を発表しました。Stable Zero123は、前身であるZero123-XLを大幅に上回る生成結果を実現しており、その鍵となるのは3つの重要なイノベーションです。Stable Zero123は、Objaverseから厳選された高品質なデータセットを使用しており、…