Défier Sora ? Open-Sora 2.0, le modèle vidéo open source de Luocheng Technology, réduit les coûts et accélère la vitesse

Vous avez entendu parler d'OpenAI Sora, le modèle vidéo hors de prix ? Avec un coût de formation s'élevant à plusieurs millions de dollars, il s'agit véritablement de la « Rolls-Royce » de la génération vidéo. Aujourd'hui, Luojian Technology annonce la sortie de son modèle de génération vidéo open source Open-Sora 2.0 !

Pour seulement 200 000 dollars (l'équivalent de 224 GPU), une version commerciale d'un grand modèle de génération vidéo avec 11 milliards de paramètres a été entraînée avec succès.

Des performances qui rivalisent avec « OpenAI Sora »

Ne vous laissez pas tromper par son faible coût ; Open-Sora 2.0 n'a rien à envier à ses concurrents. Il ose défier les leaders du secteur tels que HunyuanVideo et Step-Video (300 milliards de paramètres). Lors de tests d'évaluation officiels (VBench) et de tests de préférence utilisateur, Open-Sora 2.0 a impressionné, atteignant des performances comparables à celles des modèles propriétaires entraînés pour plusieurs millions de dollars sur plusieurs critères clés.

Plus impressionnant encore, l'écart de performance entre Open-Sora 2.0 et OpenAI Sora, initialement de 4,52 %, a été considérablement réduit à seulement 0,69 % lors des évaluations VBench ! On peut presque parler d'une égalité de performances !

De plus, Open-Sora 2.0 a même surpassé HunyuanVideo de Tencent au VBench. Une véritable illustration de « l'arrivée de la nouvelle génération », atteignant des performances supérieures à moindre coût et établissant une nouvelle référence pour les technologies de génération vidéo open source !

Dans les tests de préférence utilisateur, Open Sora a surpassé le modèle open source SOTA HunyuanVideo et le modèle commercial Runway Gen-3Alpha sur au moins deux critères clés : rendu visuel, cohérence du texte et qualité des mouvements.

Le secret d'un rapport coût-efficacité exceptionnel

Vous vous demandez sans doute comment Open-Sora 2.0 a pu atteindre de telles performances à un coût aussi bas ? Plusieurs éléments expliquent ce succès. Tout d'abord, l'équipe Open Sora a repris l'architecture du modèle Open-Sora 1.2, en utilisant toujours un encodeur 3D et un cadre d'entraînement par correspondance de flux. Parallèlement, ils ont introduit un mécanisme d'attention globale 3D, améliorant ainsi la qualité de la génération vidéo.

Pour optimiser les coûts au maximum, Open-Sora 2.0 a été optimisé à plusieurs niveaux :

Sélection rigoureuse des données : garantie de données d'entraînement de haute qualité pour une efficacité optimale dès la source.
Entraînement prioritaire à basse résolution : apprentissage efficace des informations de mouvement, réduction des coûts de calcul. Il est important de noter que le coût d'un entraînement haute résolution est plusieurs dizaines de fois supérieur à celui d'un entraînement basse résolution !
Entraînement prioritaire des tâches d'image vers vidéo : accélération de la convergence du modèle et réduction des coûts d'entraînement. De plus, en phase d'inférence, il est possible d'utiliser une approche texte vers image vers vidéo (T2I2V) pour obtenir des effets visuels plus précis.
Solution d'entraînement parallèle efficace : combinaison de ColossalAI et d'optimisations au niveau du système pour améliorer considérablement l'utilisation des ressources de calcul. Des technologies de pointe telles que le parallélisme de séquences efficace et ZeroDP, le Gradient Checkpointing à grain fin et le mécanisme de reprise automatique de l'entraînement ont permis d'améliorer considérablement l'efficacité de l'entraînement.

On estime que le coût d'entraînement unique des modèles vidéo open source de plus de 10 milliards de paramètres dépasse facilement le million de dollars. Open Sora 2.0 a réduit ce coût de 5 à 10 fois. C'est une véritable aubaine pour le secteur de la génération vidéo, permettant à davantage de personnes de participer à la recherche et au développement de vidéos de haute qualité.

Open source et partage pour un écosystème florissant

Plus remarquable encore, Open-Sora a non seulement publié le code et les poids du modèle en open source, mais également le code d'entraînement complet. Cela contribuera grandement au développement de l'écosystème open source. Comme le montrent les statistiques des plateformes technologiques tierces, les citations de l'article scientifique sur Open-Sora ont atteint près de 100 en six mois, et il occupe une place de choix dans le classement mondial de l'influence open source, devenant l'un des projets de génération vidéo open source les plus influents au monde.

L'équipe Open-Sora explore également activement les applications des encodeurs vidéo auto-encodeurs à haut taux de compression afin de réduire considérablement les coûts d'inférence. Ils ont entraîné un auto-encodeur vidéo à haut taux de compression (4×32×32), réduisant le temps d'inférence d'une vidéo de 768 px et de 5 secondes sur une seule carte de près de 30 minutes à moins de 3 minutes, soit une amélioration de la vitesse d'un facteur 10 ! Cela signifie que nous pourrons générer des contenus vidéo de haute qualité plus rapidement à l'avenir.

Le modèle de génération vidéo open source Open-Sora 2.0 de Luojian Technology, grâce à ses caractéristiques de faible coût, hautes performances et open source complet, apporte un vent de fraîcheur « abordable » au secteur de la génération vidéo. Son apparition a non seulement réduit l'écart avec les meilleurs modèles propriétaires, mais a également abaissé le seuil de la génération vidéo de haute qualité, permettant à davantage de développeurs d'y participer et de contribuer ensemble au développement de la technologie de génération vidéo.

🔗 Dépôt GitHub : https://github.com/hpcaitech/Open-Sora

📄Rapport technique : https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Défier Sora ? Open-Sora 2.0, le modèle vidéo open source de Luocheng Technology, réduit les coûts et accélère la vitesse

AIbase基地

Le secret d'un rapport coût-efficacité exceptionnel

Open source et partage pour un écosystème florissant

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

20 000 dollars pour un double de ménage ? Le robot humanoïde 1X Neo soutenu par OpenAI commence à être vendu en pré-commande, il entrera dans les foyers américains en 2024

Amazon Web Services prévoit un investissement supplémentaire de 5 milliards de dollars en Corée du Sud pour développer des centres de données axés sur l'intelligence artificielle

Le père de DayZ compare sa peur actuelle envers l'IA à la panique précédente face à Google et Wikipedia

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Magic Leap annonce un nouveau partenariat avec Google pour développer un prototype de lunettes AR de prochaine génération

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

NVIDIA présente un design révolutionnaire pour centres de données AI, favorisant le calcul à haute performance

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

Le vice-président de Douyin, Li Liang, affirme que l'IA rend la diffusion de fausses informations plus facile, et la plateforme utilise activement des agents intelligents pour lutter contre les rumeurs