MeshGPT:Transformerが3Dモデリングに革命を起こす、ネットユーザーは画期的アイデアと称賛

站长之家
この記事はAIbaseデイリーからのものです
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
アリババグループの科学者チームが、幅広い動画生成と編集タスクを統一的に処理することを目的とした汎用AIモデル、VACEを発表しました。VACEの中核は、強化された拡散Transformerアーキテクチャであり、その革新的な点は「ビデオ条件ユニット(VCU)」という新しい入力形式です。VCUは、テキストプロンプト、参照画像や動画シーケンス、空間マスクなど、多様なモダリティの入力を統一的な表現に凝縮し、専用のメカニズムによって異なる入力間の調整を行い、競合を回避します。概念の分離により、きめ細やかな制御を実現します。
ビデオ生成分野において、最近強力な新モデルが登場しました。それはMAGI-1です。マル賞と清華特等奨学金受賞者である曹越氏が率いるスタートアップ企業Sand AIが発表したこの自己回帰型ビデオ生成大規模言語モデルは、ビデオ制作の可能性を再定義しつつあります。MAGI-1はビデオブロックのシーケンスを予測することでビデオを生成し、その自然で滑らかな効果と複数のダウンロード可能なバージョンにより、広く注目を集めています。MAGI-1はビデオ生成において多くの優れた性能を備えています。まず、シームレスで滑らかなビデオ体験を提供し、生成されたビデオは…
近頃、『One-Minute Video Generation with Test-Time Training』(テスト時訓練による1分間の動画生成)という題名の新しい研究論文が発表され、人工知能による動画生成技術が新たな段階に突入したことを示しています。この研究では、事前学習済みのTransformerモデルに革新的なテスト時訓練(TTT)層を導入することで、『トムとジェリー』(Tom and Jerry)の1分間のアニメーションを生成することに成功しました。
人工知能による絵画の分野では、拡散モデル(Diffusion Model)がU-NetアーキテクチャベースからTransformerアーキテクチャ(DiT)ベースへと移行しつつあります。しかし、DiTエコシステムは、プラグインサポート、効率性、多条件制御などの点で課題に直面しています。最近、Xiaojiu-z氏率いるチームがEasyControlという革新的なフレームワークを発表しました。これは、DiTモデルに効率的で柔軟な条件制御能力を提供することを目的としており、まるでDiTモデルに強力なCを装備したようなものです。
テンセントは先日、混元大規模言語モデルシリーズの正式版である「混元-T1」を発表しました。この新しいモデルは、中規模の混元基盤モデルをベースに大規模な事後学習が行われ、推論能力が大幅に向上しています。特に、深い思考や複雑な問題解決において優れたパフォーマンスを発揮します。2月に混元T1-Previewが公開されて以来、ユーザーはより高速で深い思考プロセスを体験しており、今回の正式版のリリースは、このシリーズ製品の更なる進化を示しています。混元-T1の開発チームは最新のTurbo...
ムーアセラードが、MT-MegatronLMとMT-TransformerEngineという2つの強力なAIフレームワークをオープンソース化しました。これにより、国産GPUを用いたAIトレーニングの効率が90%以上にまで向上しました。