Chers proches, aujourd'hui, je dois vous parler d'une super découverte dans le monde de la recherche scientifique — Flow-GRPO ! C'est quelque chose d'incroyable qui agit comme une « super catalyseuse » pour les modèles génératifs d'images, les aidant à s'élever du niveau « bronze » au statut de « roi ». Vous voulez savoir comment ça marche ? Installez-vous confortablement, et laissez-moi vous expliquer tout ça !
Les « problèmes de croissance » des modèles génératifs d’images
Les modèles génératifs d’images actuels, tels que ceux basés sur la correspondance par flot (Flow Matching), ont une base théorique solide et génèrent des images de haute qualité impressionnantes. Mais ils rencontrent leurs propres « petits soucis ». Lorsqu'il s'agit de gérer des scènes complexes, comme placer plusieurs objets, manipuler différentes propriétés et relations, ou rendre du texte précisément dans une image, ils peinent un peu.
Adresse du papier : https://www.arxiv.org/pdf/2505.05470
Adresse du projet : https://github.com/yifan123/flow_grpo
Mais en ce qui concerne l'apprentissage par renforcement en ligne (online RL) pour améliorer les capacités d'inférence des grands modèles linguistiques, l'efficacité est indéniable. Pourtant, jusqu'à présent, l'RL était principalement utilisée sur des modèles génératifs diffusants anciens ou des techniques hors ligne comme l'optimisation directe des préférences. Personne ne s'était vraiment demandé si l'RL en ligne pouvait offrir une percée aux modèles génératifs par flot. C'est comme avoir une clé très puissante et ne pas penser à ouvrir cette porte. Maintenant, Flow-GRPO arrive pour « forcer cette porte » !
Entraîner un modèle par flot avec RL n'est pas sans défis. Premièrement, le processus de génération du modèle par flot fonctionne comme un rail prédéfini basé sur des équations différentielles ordinaires (ODE). Il avance méthodiquement pendant l'inférence sans pouvoir effectuer d’échantillonnages aléatoires. En revanche, l'RL, c’est comme un bébé curieux, il doit essayer aléatoirement différentes actions et apprendre en fonction des retours. Les deux sont complètement opposés dans leur fonctionnement : l'un suit strictement les règles, tandis que l'autre explore partout. Comment peuvent-ils bien coexister ?
De plus, l'entraînement par RL en ligne nécessite une collecte efficace de données d’échantillons. Or, générer chaque échantillon avec un modèle de flot implique beaucoup d’étapes d’itérations, ce qui est lent comme une limace. Plus le modèle est complexe, plus ce problème devient sévère. C’est donc une priorité absolue d'améliorer l'efficacité de cette collecte de données pour que l'RL puisse jouer son rôle dans la génération d'images ou de vidéos.
Flow-GRPO vient sauver la situation !
Pour répondre à ces défis, Flow-GRPO fait son apparition ! C'est comme une boîte à outils magique contenant deux stratégies « magiques » incroyables.
La première stratégie est « la conversion d’une ODE en SDE ». Imaginez transformer un train qui ne peut rouler que sur une voie fixe en une voiture capable de circuler librement sur n’importe quelle route. Flow-GRPO transforme les équations différentielles ordinaires déterministes en équations différentielles stochastiques (SDE), tout en garantissant qu’à chaque étape temporelle, la distribution marginale reste inchangée. Ainsi, cela introduit une certaine aléa dans le modèle, lui permettant d'explorer différentes possibilités comme le veut l'RL. Avant, le modèle généré des images suivait un chemin droit. Maintenant, avec cette conversion, il peut explorer divers chemins différents pour trouver des façons de générer meilleures. N'est-ce pas génial ?
La deuxième stratégie est la « réduction du bruit ». Pendant l'entraînement, Flow-GRPO joue le rôle d’un « gestionnaire du temps », réduisant les étapes de suppression de bruit pour collecter rapidement les données d’entraînement. Mais pendant l’inférence, il reprend les étapes de suppression de bruit complètes pour garantir la production de bons échantillons. C'est comme courir en entraînement : pour s'adapter rapidement, on court petit et rapide ; mais pendant la compétition, on adopte un rythme normal pour garantir à la fois vitesse et qualité.
Performance pratique de Flow-GRPO
Alors, à quel point est Flow-GRPO impressionnant ? Les chercheurs l'ont testé sur diverses tâches de génération d'image à partir de texte (T2I), et les résultats sont simplement époustouflants !
Dans les tâches de génération combinatoire d’images, évaluées avec le benchmark GenEval, le défi consiste à positionner précisément les objets, contrôler les propriétés, comme assembler des pièces Lego où chaque élément doit être placé correctement. Avec Flow-GRPO, le modèle Stable Diffusion3.5 Medium (SD3.5-M) a vu sa précision passer de 63 % à 95 %, surpassant même le modèle GPT-4o. Avant, les images générées pouvaient avoir des objets mal alignés, des couleurs et positions incorrectes. Maintenant, grâce à Flow-GRPO, ces problèmes sont résolus, et les images générées semblent presque magiques.
Pour la tâche de rendu visuel de texte dans une image, le modèle SD3.5-M sous Flow-GRPO a augmenté sa précision de 59 % à 92 %. Les textes étaient autrefois rendus déformés ou incomplets, mais maintenant ils apparaissent parfaitement intégrés dans l'image, comme les meilleures annotations textuelles possibles. L’amélioration est spectaculaire !
Pour la tâche d’alignement avec les préférences humaines, Flow-GRPO a également brillamment réussi. En utilisant PickScore comme modèle de récompense, il permet au modèle généré de correspondre mieux aux préférences humaines. Et pendant ce processus, il n’y a eu presque aucun phénomène de fraude des récompenses. Qu'est-ce que la fraude des récompenses ? Certaines modèles optimisent les scores de récompense en sacrifiant la qualité et la diversité des images, produisant soit des images floues, soit des images identiques. Mais Flow-GRPO, c’est comme un « justicier », assurant à la fois la qualité et la diversité tout en augmentant les scores de récompense.
Les chercheurs ont également analysé Flow-GRPO sous divers angles. Par exemple, dans la lutte contre la fraude des récompenses, ils ont essayé de combiner différents modèles de récompense. Ils ont découvert que cela entraînait des problèmes de flou localisé et une diminution de la diversité, comme un brouillard sur une belle vue. Ensuite, en utilisant la contrainte KL, les résultats ont été nettement meilleurs. Après avoir ajusté correctement le coefficient KL, il a été possible d'optimiser la récompense spécifique à la tâche tout en préservant les performances globales du modèle, comme trouver un « point d'équilibre » parfait.
L'analyse de la stratégie de réduction du bruit montre aussi ses effets. En réduisant le nombre d'étapes de collecte de données d'entraînement de 40 à 10, ils ont constaté une augmentation de la vitesse d'entraînement de plus de 4 fois sans affecter la récompense finale. C’est comme conduire une voiture : auparavant, il fallait prendre son temps pour arriver à destination, maintenant avec une route plus fluide, on y arrive plus vite sans compromettre la performance.
Le niveau de bruit affecte également le modèle. Un niveau de bruit approprié dans une SDE améliore la diversité et la capacité d’exploration, ce qui est particulièrement utile pour l’entraînement par RL. Mais trop de bruit diminue la qualité des images, comme jeter du vernis sur une peinture fine, ruinant toute l'œuvre. Les recherches ont montré que fixer le niveau de bruit autour de 0,7 offre les meilleurs résultats, en maintenant à la fois la qualité de l'image et en permettant au modèle de mieux explorer toutes les possibilités.
La capacité de généralisation de Flow-GRPO est également exceptionnelle. Même dans des scénarios inconnus, il capture précisément le nombre, la couleur et les relations spatiales des objets, et il traite également avec aisance des catégories d'objets non formés. Que ce soit de générer 2 à 4 objets pendant l’entraînement à générer 5 à 6 objets lors des tests, il s’en sort facilement, comme un étudiant hyper intelligent capable de comprendre rapidement et de s'adapter à n'importe quel exercice !
Projections futures et défis
Malgré les performances impressionnantes de Flow-GRPO dans les tâches de génération d'images à partir de texte, les chercheurs ne s'arrêtent pas là. Leur objectif suivant est d'étendre ce modèle au domaine de la génération vidéo. Cependant, cela apporte également de nouveaux défis.
Tout d'abord, la conception des récompenses. Dans la génération vidéo, des modèles de récompenses simples ne suffisent pas. Il faut imaginer des modèles plus complexes et efficaces pour garantir à la fois la fidélité et la fluidité de la vidéo. C’est comme évaluer un film : il ne suffit pas de juger de la beauté des images, il faut aussi tenir compte de l'intrigue, des effets sonores, etc.
Ensuite, l’équilibrage de plusieurs récompenses. La génération vidéo doit optimiser plusieurs objectifs, comme la fidélité, la fluidité et la cohérence. Ces objectifs sont comme des enfants turbulents avec des idées distinctes, difficile à harmoniser. Les chercheurs doivent trouver un moyen de les faire coexister pacifiquement, ce qui n'est pas simple.
Enfin, l'échelle. La génération vidéo est plus consommatrice de ressources que celle d'images, comme un grand mangeur. Pour appliquer Flow-GRPO à la génération vidéo, il faudra trouver des méthodes plus efficaces pour collecter des données et entraîner le modèle. Sinon, les limites de la ressource risquent de ne pas satisfaire la « grande faim » de Flow-GRPO.
Ces défis ne freineront pas l’avancée de Flow-GRPO. Nous croyons que grâce aux efforts des chercheurs, Flow-GRPO continuera de briller dans le domaine de la génération d'images et créera des miracles dans d'autres domaines comme la génération vidéo, nous offrant encore plus de surprises ! Peut-être que les images des films et des jeux vidéo que nous regardons demain auront été générées par Flow-GRPO ! Restez à l'écoute pour voir ce que l'avenir nous réserve !