最近、メイドゥー傘下のLongCatチームは、最新の動画生成モデル「LongCat-Video-Avatar」のオープンソース化を発表しました。これは仮想人間技術における重要な進展です。このモデルは長編動画生成分野で優れた性能を示し、多数の主要な機能を持ち、開発者からの注目を集めています。
LongCat-Video-Avatarは以前のLongCat-Videoモデルを基盤とし、「1つのモデルが複数のタスクをサポートする」という設計理念を引き継いでいます。このモデルは音声テキストから動画への変換(AT2V)、音声テキスト画像から動画への変換(ATI2V)、および動画の続きを作成する機能など、原生でサポートしています。前バージョンであるInfiniteTalkに比べて、動作のリアルさ、動画の安定性、そしてアイデンティティの一貫性において顕著な向上を遂げており、開発者により効率的で実用的なクリエイティブなソリューションを提供することを目指しています。

このモデルの核心的な革新の一つは、Cross-Chunk Latent Stitchingというトレーニング戦略の採用です。これにより、長編動画生成における視覚品質の低下問題が効果的に解決されます。隠れ空間内で特徴を置き換えることで、LongCat-Video-Avatarは繰り返しデコードによって引き起こされる画質損失を排除し、生成効率を大幅に向上させます。
また、長編動画におけるキャラクターの一貫性を維持するために、LongCat-Video-Avatarは位置符号付き参照フレーム注入モードとReference Skip Attention機構を導入しています。この革新により、生成プロセスにおけるアイデンティティの意味が安定し、一般的な動作の繰り返しや硬直化の問題を回避できます。
HDTF、CelebV-HQ、EMTD、EvalTalkerなどの権威ある公開データセットでの評価によると、LongCat-Video-Avatarは複数の主要な指標でSOTAレベルに達しており、特に口唇の同期精度と一貫性指標において優れたパフォーマンスを示しています。さらに大規模な人間による評価を通じて、このモデルは自然さと現実感において良いフィードバックを得ており、強力な応用可能性を示しています。

LongCatチームは、LongCat-Video-Avatarが数字人生成技術における新たな段階であり、開発者が長編動画生成で直面する現実的な課題を解決することを目的としていると述べました。このチームは常にオープンソースの理念を堅持し、コミュニティの共同参加とフィードバックを通じてこの技術を継続的に最適化・改善することを期待しています。
今回のLongCat-Video-Avatarのリリースは、仮想人間技術の応用にとって広範な可能性を提供し、デジタルコンテンツ制作においてクリエイターたちに新しい道を開きました。開発者はGitHubやHugging Faceなどのプラットフォームを通じてこのモデルを取得し、「千人千面」のデジタル世界を探索し始めることができます。
プロジェクトアドレス:
GitHub:
https://github.com/meituan-longcat/LongCat-Video
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project:
https://meigen-ai.github.io/LongCat-Video-Avatar/



