Récemment, le domaine de l'intelligence artificielle a accueilli une nouvelle avancée captivante. L'entreprise basée à Tokyo, Sakana AI, a publié un article intitulé « Machines de Pensée Continue » (Continuous Thought Machines), proposant un nouveau modèle visant à permettre aux machines de simuler les activités neurologiques complexes du cerveau biologique et la capacité de « penser continuellement ». Le cœur de cette idée repose sur le défi posé par le traitement simplifié du temps dynamique dans les méthodes actuelles d'apprentissage profond, en réintroduisant des mécanismes synchronisés de traitement séquentiel au niveau neuronal pour faire de la « chronologie neuronale » la base des modèles d'intelligence artificielle.

image.png

Les réseaux neuronaux principaux modernes, bien que s'inspirant des cerveaux biologiques, présentent des différences significatives dans le traitement des informations temporelles. Les activités neuronales biologiques présentent une complexité et une dynamique importantes sur le plan temporel, ce qui est essentiel pour le traitement des informations et les fonctions cognitives. Cependant, de nombreuses réseaux neuronaux modernes simplifient ces dynamiques temporelles pour des raisons d'efficacité de calcul, réduisant l'activation des neurones à une sortie statique. Bien que cette simplification ait réussi dans certaines tâches spécifiques, elle limite également les capacités de l'intelligence artificielle en matière de raisonnement en bon sens et d'adaptabilité flexible.

Les chercheurs de Sakana AI estiment que le facteur temporel est crucial pour atteindre une intelligence artificielle plus avancée. Leur modèle « Machine de Pensée Continue » (Continuous Thought Machine, CTM) est fondé sur cette idée, visant à rendre les caractéristiques dynamiques au niveau neuronal au cœur de son fonctionnement.

Les deux « atouts » du CTM : donner vie aux neurones

Alors, comment le CTM réalise-t-il cet objectif ambitieux ? L'article mentionne deux innovations clés :

Le traitement séquentiel au niveau neuronal (Neuron-level temporal processing) : cela signifie que chaque neurone est équipé de paramètres de poids uniques, lui permettant de traiter l'historique des signaux reçus pendant une certaine période, et non seulement les entrées immédiates. Dans les modèles traditionnels, les neurones réagissent généralement immédiatement aux entrées actuelles, tandis que dans le CTM, les neurones peuvent prendre en compte l'information historique, ce qui permet de calculer leur état d'activation. Ce mécanisme rend les motifs d'activation des neurones plus complexes et diversifiés, se rapprochant ainsi du fonctionnement réel des neurones biologiques.   

La synchronisation neuronale comme représentation latente (Neural synchronization as a latent representation) : c'est une autre innovation clé du CTM. Plutôt que de se fier uniquement aux instantanés d'activation des neurones à des moments donnés, le CTM utilise la « synchronisation » des activités neuronales sur une certaine période comme représentation interne centrale. Autrement dit, le CTM observe la coordination et la coopération des activités des différents neurones sur une certaine période. Cette information de synchronisation est utilisée pour comprendre les données d'entrée, effectuer des prédictions et réguler le mécanisme d'attention du modèle.  

Le « monologue intérieur » du CTM : une « dimension de pensée » indépendante des données

Pour rendre possible cette « réflexion » basée sur le temps, le CTM introduit un concept crucial appelé « dimension séquentielle interne » (internal sequence dimension), que les chercheurs appellent également le « tic interne » (internal ticks). Cette dimension est indépendante des dimensions des données d'entrée, permettant au modèle de procéder à des itérations internes et à l'extraction d'informations selon son propre rythme, que les données d'entrée soient des images statiques ou des labyrinthes complexes.  

Cette « réflexion » interne peut être simplifiée comme suit :

Interaction d'information (Modèle Synaptique) : le modèle synaptique gère la transmission d'information entre les neurones. Il reçoit l'état post-activation du neurone précédent ainsi que les caractéristiques extraites de l'entrée externe via des mécanismes d'attention, puis calcule l'état pre-activation actuel.  

Traitement personnalisé au niveau neuronal (Modèles au niveau neuronal) : chaque neurone possède son propre modèle neuronal unique, qui, en fonction de ses « états pre-activation » historiques, calcule l'état post-activation suivant.  

Lecture des « pensées » par la synchronisation (Synchronisation neuronale) : le CTM enregistre l'historique des états post-activation de tous les neurones sur une certaine période et calcule une « matrice de synchronisation ». Cette matrice reflète les relations entre les modes d'activité des différents neurones.  

Décision et action (Sortie et attention) : sur la base de cette « matrice de synchronisation », le CTM génère une sortie (comme le résultat de classification d'image) ou ajuste l'attention portée aux données d'entrée (par exemple, décider de se concentrer sur une région spécifique de l'image).  

Cycle continu, réflexion continue : la sortie de l'attention et l'état post-activation actuel des neurones entrent ensemble dans le prochain cycle « tic interne », répétant ce processus jusqu'à ce que le modèle termine son processus de traitement.  

Démonstration des « superpouvoirs » du CTM : tout y passe, du tri des images au dédale !

Après toutes ces théories, quelles sont les performances réelles du CTM ? Dans l'article, les chercheurs ont soumis le CTM à une série de tâches difficiles, avec des résultats très prometteurs :

Classification ImageNet-1K : bien que l'article affirme ne pas chercher à battre les records SOTA, le CTM obtient des performances robustes dans cette tâche de classification d'image classique. Plus important encore, il montre des processus internes intéressants de « réflexion ». Par exemple, l'attention du CTM se déplace doucement dans différentes zones de l'image au fil des « tics internes », parfois se concentrant sur des caractéristiques clés, parfois couvrant des zones plus larges, comme si elle observait et comprenait activement le contenu de l'image. 

De plus, le CTM présente une bonne calibration, c’est-à-dire qu'il est fiable quant à sa confiance dans ses prévisions, ce qui nécessite généralement des techniques de formation supplémentaires. Une découverte surprenante est que les activités neuronales du CTM présentent des motifs complexes à plusieurs échelles, et même sans signal externe, on peut observer des phénomènes de vagues à faible fréquence similaires à ceux souvent observés dans le cortex du cerveau biologique.  

Challenger du dédale 2D : pour tester la capacité du CTM à raisonner séquentiellement et à planifier des actions complexes, les chercheurs ont conçu une tâche de dédale 2D particulièrement exigeante. Cette tâche exige que le modèle fournisse directement le chemin complet du point de départ à la fin, et enlève toute codification positionnelle dans le mécanisme d'attention, afin de pousser le modèle à construire sa propre « représentation interne du monde ». 

Les résultats montrent que le CTM excelle dans cette tâche, surpassant nettement les modèles de base comme les LSTM, en démontrant sa capacité à construire et à utiliser des modèles internes du monde. Ce qui est plus intéressant, même face à des labyrinthes plus grands et plus longs que ceux utilisés lors de l'entraînement, le CTM peut résoudre les problèmes en appliquant plusieurs fois (en utilisant le point final de la précédente prédiction comme le point de départ suivant), ce qui montre une certaine capacité de généralisation. Les chercheurs pensent que cette capacité est similaire à la « pensée épisodique future » humaine, c’est-à-dire imaginer l’état futur pour guider l’action actuelle.   

Tâches de tri, de parité et de Q&A MNIST : le CTM s’en sort bien dans ces tâches nécessitant la compréhension des processus algorithmiques, la mémoire et les opérations logiques. Par exemple, dans la tâche de tri, le temps d’attente (le nombre de « tics internes » nécessaires pour produire chaque sortie) de chaque chiffre est lié à la différence entre les chiffres, ce qui suggère qu’il forme une méthode dépendante de l’ordre des données. 

Dans la tâche de parité, le CTM apprend à calculer progressivement la parité cumulée en fonction de la séquence d’entrée, et le CTM ayant plus de « temps de réflexion » (plus de « tics internes ») se comporte mieux, développant même des stratégies de résolution différentes, telles que le traitement direct ou inverse de la séquence. Dans la tâche de Q&A MNIST, le CTM doit d’abord observer une série d’images MNIST, puis, en fonction des indices et des instructions d’opérateur suivants, se souvenir des nombres vus précédemment et effectuer des opérations de modulo. Même lorsque les nombres observés dépassent la fenêtre de « mémoire » directe des neurones, le CTM peut rappeler ces nombres grâce à l’organisation et à la synchronisation des neurones, démontrant ainsi son potentiel à mémoriser et extraire des informations via la synchronisation neuronale.   

Tâches d’apprentissage par renforcement : le CTM peut aussi s'appliquer aux tâches d'apprentissage par renforcement nécessitant une interaction continue avec l'environnement externe. Dans des environnements partiellement observables classiques comme CartPole (bâton équilibré), Acrobot (double pendule) et MiniGrid Four Rooms (navigation dans quatre pièces), le CTM apprend des stratégies efficaces, dont les performances sont comparables à celles des modèles de base comme les LSTM, mais les activités internes des neurones sont plus riches et complexes. Cela indique que le CTM peut véritablement utiliser la dynamique neuronale comme outil de calcul continu, ajustant et apprenant constamment dans son interaction avec l'environnement.   

Les « faiblesses » du CTM et perspectives futures : la route est longue, mais la destination est proche

Naturellement, le CTM n’est pas exempt de limites. L'article mentionne quelques limites actuelles :

Coût de calcul : en raison de sa nature séquentielle de traitement, le temps d’entraînement du CTM est plus long que celui des modèles traditionnels d’avant-traitement, et le modèle au niveau neuronal ajoute également des coûts paramétriques supplémentaires. Les chercheurs estiment que les avantages apportés valent la peine d’être explorés.  

« Défis du boîtier noir » : bien que le processus interne du CTM offre des indices pour l’explicabilité, la compréhension complète de la manière dont ses dynamiques neuronales complexes produisent des comportements intelligents nécessite des recherches ultérieures.  

Malgré cela, l’introduction du CTM apporte une nouvelle perspective au domaine de l’intelligence artificielle. Il remet en question les paradigmes actuels des modèles et souligne le potentiel des « chronologies neuronales » et de la « synchronisation neuronale » pour la construction de systèmes d’IA plus proches de l’intelligence biologique. Les chercheurs ont également esquissé les directions futures de développement du CTM :

Exploration de représentations de synchronisation plus grandes et plus complexes : actuellement, le CTM exploite principalement les informations de synchronisation entre certains paires de neurones ; à l’avenir, il serait intéressant d’étudier les potentiels des matrices de synchronisation complètes et de haute dimension, ce qui pourrait avoir des avantages dans la modélisation multimodale, par exemple.  

Application aux données séquentielles et à la modélisation du langage : la « réflexion continue » du CTM en fait un candidat prometteur pour traiter des données séquentielles telles que la vidéo et le texte, et même potentiellement pour créer des « modèles du monde » contextuels pour le langage sans codage positionnel.  

Direction vers des méthodes d’apprentissage plus « naturelles » : actuellement, le CTM est encore évalué dans des jeux de données traditionnels et des cadres de formation ; à l’avenir, il serait utile d’explorer des méthodes d’apprentissage plus proches de la manière dont les données sont générées dans le monde réel, par exemple dans des scénarios où les données sont organisées dans un ordre temporel.  

Inspirer des mécanismes biologiques supplémentaires : par exemple, explorer le mariage des mécanismes de plasticité biologique (comme l’apprentissage de Hebb) avec le CTM, pour des applications de lifelong learning ou d’optimisation sans gradients.  

Le « voyage de la réflexion » de l’IA continue d’évoluer

En résumé, le travail de recherche proposé par Sakana AI, la « Machine de Pensée Continue » (CTM), est une initiative innovante et inspirante. Elle nous incite à réexaminer les simplifications dans le traitement des dynamiques temporelles dans les modèles d’apprentissage profond, et à puiser des idées dans le calcul neuronal biologique pour explorer de nouvelles voies vers des systèmes d’intelligence artificielle plus puissants et flexibles. Bien que le but de rendre les systèmes d’IA capables de « penser » comme des humains reste un défi immense, l’apparition du CTM fournit de nouvelles idées et outils pour cette direction de recherche.  

Cette étude nous rappelle également que l’emprunt des principes de l’intelligence biologique pourrait être une voie prometteuse dans le développement de l’IA. Certaines caractéristiques émergentes du CTM, comme la bonne calibration, ne sont pas pré-conçues, mais apparaissent naturellement lors de la simulation de mécanismes biologiques, ce qui est déjà très fascinant. À l’avenir, trouver un meilleur équilibre entre efficacité de calcul et rationalité biologique, ainsi que l’intégration de plus en plus de principes de l’intelligence biologique dans les modèles d’IA, seront des sujets d’exploration importants et durables.

Adresse du papier : https://arxiv.org/abs/2505.05522

Adresse du projet : https://github.com/SakanaAI/continuous-thought-machines/