OmniHuman-1 est un cadre de génération de vidéos humaines conditionnelles multi-modales de bout en bout, capable de générer des vidéos humaines à partir d'une seule image portrait et de signaux de mouvement (tels que l'audio, la vidéo ou une combinaison des deux). Cette technologie surmonte le problème de la rareté des données de haute qualité grâce à une stratégie d'entraînement mixte, prend en charge les images d'entrée de rapport hauteur/largeur arbitraire et génère des vidéos humaines réalistes. Elle offre d'excellentes performances avec des entrées de signaux faibles (en particulier l'audio) et convient à de nombreux scénarios, tels que les présentateurs virtuels et la production vidéo.