Récemment, une équipe de recherche provenant de l'Université de Renmin, du Laboratoire chinois d'intelligence artificielle de Shanghai, de l'Université college de Londres et de l'Université de Dalian a révélé une découverte importante sur le processus de raisonnement des grands modèles : lorsqu'un modèle réfléchit, les "mots de réflexion" qu'il utilise reflètent en réalité une augmentation significative de la quantité d'information interne. Cette étude, menée à l'aide de la théorie de l'information, offre une nouvelle perspective pour mieux comprendre le mécanisme de raisonnement de l'intelligence artificielle.
Vous avez peut-être déjà vu un grand modèle produire certains langages qui semblent humains lorsqu'il répond à une question, comme « Hmm... », « Laisse-moi réfléchir... » ou « Par conséquent... ». Ces « mots de réflexion » sont-ils simplement des décorations superficielles ou représentent-ils vraiment le processus de réflexion du modèle ? Cette question a longtemps posé problème aux chercheurs. Les recherches actuelles montrent que ces mots ne servent pas seulement à imiter les humains, mais constituent des « pics d'information » clés, indiquant l'état mental du modèle à des moments précis.
Note de la source de l'image : l'image a été générée par IA, le fournisseur de licence est Midjourney
L'équipe de recherche a suivi et observé plusieurs grands modèles, mesurant les variations de l'information mutuelle pendant leur processus de raisonnement. Les résultats ont montré que les valeurs d'information mutuelle augmentaient brusquement à certains moments, formant des « pics d'information mutuelle » marqués. Cela signifie que, à ces moments critiques, le modèle contenait des informations clés conduisant à la bonne réponse. Ce phénomène est particulièrement évident dans les modèles renforcés par l'entraînement au raisonnement, tandis que les modèles non entraînés au raisonnement apparaissent plus neutres.
Plus intéressant encore, lorsque les chercheurs ont converti les représentations correspondant aux pics d'information mutuelle en langage compréhensible par les humains, ils ont constaté que ces moments correspondaient exactement aux « mots de réflexion » fréquents. Par exemple, lors d'un raisonnement complexe, le modèle produit souvent des formulations telles que « Laisse-moi réfléchir » ou « Donc, je dois... ». Ces « mots de réflexion » ne sont plus des accessoires superflus, mais des jalons clés dans le processus de raisonnement du modèle, guidant son avancement.
À partir de cette découverte, les chercheurs ont proposé deux méthodes permettant d'améliorer la capacité de raisonnement des grands modèles sans nécessiter un entraînement supplémentaire. Cela signifie que les futurs systèmes d'intelligence artificielle pourront améliorer significativement leurs performances de raisonnement en utilisant de manière raisonnable ces pics d'information, tout en conservant leurs connaissances existantes. Cette recherche n'apporte pas seulement une avancée théorique concernant les grands modèles, mais offre également de nouvelles pistes pour les applications pratiques.