Dans le domaine de la génération d'images et de vidéos par l'intelligence artificielle (IA), il existe une idée largement répandue : pour générer des images et des vidéos de haute qualité, il est nécessaire d'avoir des modèles plus grands, davantage de paramètres et une puissance de calcul accrue. Cependant, l'équipe de recherche de l'Université des Sciences et Technologies de Hong Kong et de Kuaishou Technology vient de proposer une technologie appelée EvoSearch (recherche évolutive), qui remet complètement en question cette conception traditionnelle.
Cette technologie a démontré des performances impressionnantes : un modèle Stable Diffusion 2.1 avec seulement 865 millions de paramètres, après avoir été traité avec EvoSearch, a surpassé la performance du puissant GPT-4 ; tandis qu'un modèle Wan avec 1,3 milliard de paramètres, combiné à EvoSearch, a même rivalisé avec un modèle 10 fois plus grand, à 14 milliards de paramètres.
Les difficultés actuelles des modèles génératifs d'IA
Les modèles génératifs d'IA les plus courants se divisent principalement en deux catégories : les modèles de diffusion et les modèles de flux. Les modèles de diffusion génèrent des images claires en enlevant progressivement le bruit, comme le fait de rendre une photo floue de plus en plus nette ; tandis que les modèles de flux transforment directement un bruit aléatoire en image cible à travers une série de transformations douces.
Pour améliorer ces modèles, l'industrie adopte généralement deux stratégies. La première consiste à augmenter continuellement la taille du modèle et à fournir plus de données pendant la phase d'entraînement, mais cette méthode « coûteuse » atteint déjà ses limites en termes de ressources. La seconde est d'optimiser au stade de la déduction, y compris des méthodes telles que Best-of-N sampling (générer N images et choisir la meilleure) et particle sampling (maintenir plusieurs solutions candidates et sélectionner les meilleurs individus).
Toutefois, toutes ces méthodes existantes présentent des défauts évidents : la méthode Best-of-N est inefficace, car beaucoup de calculs sont gaspillés sur la génération de « déchets » ; la méthode particle sampling est trop conservatrice, ce qui entraîne souvent une convergence précoce vers un optimum local, manquant ainsi de capacité d'exploration active ; d'autres méthodes de fine-tuning nécessitent soit une formation supplémentaire, soit conduisent à un manque de diversité dans les échantillons générés.
EvoSearch : l'« évolution » dans le domaine de la génération d'images par IA
L'innovation centrale d'EvoSearch réside dans l'introduction des idées de la théorie de l'évolution darwinienne dans le processus de génération IA. Cette méthode considère la génération d'image comme un processus d'évolution des espèces : d'abord, générer une « population initiale » (bruit aléatoire), puis évaluer les « individus intermédiaires » à l'aide d'une évaluation de fitness, suivie d'une sélection basée sur « survie du plus apte », et enfin créer de nouvelles solutions candidates grâce à des opérations de « mutation » spécialement conçues.
Cette opération de mutation constitue une percée technologique clé d'EvoSearch. Pour le bruit initial, le système réalise la mutation en ajoutant une quantité appropriée de bruit gaussien ; pour l'état intermédiaire durant le processus de désapprentissage, il s'inspire de la manière d'injection de hasard lors de l'échantillonnage de l'équation différentielle stochastique, injectant ainsi un perturbation contrôlable dans l'état intermédiaire. Cette conception permet à la fois d'explorer de nouvelles régions et de conserver les « gènes » excellents.
Comparé aux méthodes traditionnelles, EvoSearch présente trois avantages majeurs : une exploration active plutôt qu'une sélection passive, ce qui lui permet de sortir des limites de la population candidate initiale ; un équilibrage efficace entre exploration et exploitation, évitant une convergence précoce vers un optimum local ; et une grande généralisation, applicable à divers modèles de diffusion et de flux sans modification structurelle du modèle ou formation supplémentaire.
Résultats expérimentaux : une « baisse de dimension » impressionnante
L'équipe de recherche a mené des tests complets sur les tâches de génération d'images et de vidéos, montrant que EvoSearch domine de manière significative les méthodes de référence existantes dans tous les indicateurs.
En termes de génération d'images, avec l'augmentation de la quantité de calcul pendant la phase de déduction, la qualité des images générées par EvoSearch et leur correspondance avec le texte continuent de s'améliorer de manière stable, tandis que les autres méthodes rencontrent rapidement des limites. Pour des prompts complexes ou ambigus, EvoSearch peut comprendre plus précisément et générer des images conformes aux exigences, tout en offrant une plus grande diversité dans des aspects comme le fond et la posture.
La performance dans la génération vidéo est encore plus impressionnante. Peu importe si l'on utilise le modèle Wan 1.3B ou le modèle Hunyuan Video 13B, la qualité générée par EvoSearch dépasse nettement les méthodes de base. Ce qui est particulièrement impressionnant, c'est que lorsque le modèle Wan 1.3B reçoit le même budget de temps de calcul que le modèle Wan 14B, le résultat combiné avec EvoSearch peut égaler voire surpasser celui du modèle plus grand.
Il est également à noter que même si les indicateurs d'évaluation ne correspondent pas exactement à la fonction de récompense utilisée lors de la recherche d'EvoSearch, cette méthode montre une bonne capacité de généralisation, ne se laissant pas facilement guider par des fonctions de récompense spécifiques. Dans les évaluations humaines, les vidéos générées par EvoSearch obtiennent des taux de victoire plus élevés dans des aspects tels que la qualité visuelle, la qualité des mouvements, l'alignement du texte et la qualité globale.
Insights techniques et perspectives futures
Le succès d'EvoSearch apporte des enseignements importants pour le domaine de la génération IA. Tout d'abord, dans un contexte où les coûts d'entraînement augmentent de plus en plus, explorer la voie de l'augmentation des calculs au stade de la déduction pour améliorer les performances du modèle est une piste extrêmement prometteuse. Ensuite, l'introduction des concepts de sélection et de mutation issus de l'évolution biologique dans le domaine de la génération IA peut efficacement surmonter les limitations des méthodes de recherche traditionnelles.
Plus important encore, le succès de cette technologie repose sur une compréhension approfondie des processus de désapprentissage des modèles de diffusion et de flux. EvoSearch maîtrise véritablement les caractéristiques structurelles de l'espace d'état lors du processus de désapprentissage, conçoit des stratégies de mutation ciblée en conséquence, et peut ainsi explorer de manière plus efficace l'immense espace des possibilités.
Néanmoins, EvoSearch présente encore des marges d'amélioration. L'équipe de recherche indique que les directions futures incluent la conception de stratégies de mutation plus intelligentes et l'amélioration du compromis entre exploration et efficacité de calcul.
Cette technologie nous montre une tendance importante : même sans chercher aveuglément à obtenir des modèles plus grands et plus de données d'entraînement, en appliquant des stratégies de recherche plus intelligentes au stade de la déduction, nous pouvons exploiter pleinement le potentiel des modèles IA. EvoSearch ouvre une ère d'« évolution intelligente » dans la création IA, permettant aux petits modèles de produire des œuvres impressionnantes.
Page du projet : https://tinnerhrhe.github.io/evosearch/
Code : https://github.com/tinnerhrhe/EvoSearch-codes
Article : https://arxiv.org/abs/2505.17618