Une équipe sud-coréenne propose une nouvelle architecture Transformer permettant d'accélérer le décodage des grands modèles jusqu'à 20 fois

AIbase

Publié leActualités IA · 4 minutes de lecture · Jul 2, 2024

Bien que puissants, les modèles Transformer souffrent d'un problème d'efficacité lors du décodage. Cependant, des chercheurs du Korea Advanced Institute of Science and Technology (KAIST), de LG et de DeepMind ont apporté une solution surprenante : une nouvelle architecture Transformer, baptisée Block Transformer, qui accélère le décodage de 10 à 20 fois !

Comment cela est-il possible ? Ils ont « découpé » le mécanisme d'attention du Transformer. Cela révolutionne l'approche inefficace du Transformer original, qui accédait au cache KV global à chaque génération de jeton.

Les chercheurs ont analysé les faiblesses du Transformer original : l'utilisation du GPU était inférieure à 1 %, les 99 % restants étant consacrés à l'accès à la mémoire. Cela étant irrationnel, ils ont proposé Block Transformer. Cette nouvelle architecture, grâce à la décomposition de l'attention en blocs et à l'attention intra-bloc, améliore considérablement le débit d'inférence.

Concrètement, Block Transformer fonctionne ainsi : la séquence est d'abord découpée en blocs, puis un Embedder convertit chaque bloc en vecteur d'embedding. Le Block Decoder traite les vecteurs d'embedding des blocs, capturant les dépendances globales entre les blocs ; le Token Decoder traite les dépendances locales entre les jetons, générant la séquence de jetons.

Cette méthode améliore non seulement la vitesse d'inférence, mais réduit également considérablement la consommation de mémoire. Des internautes ont mentionné avoir eu des idées similaires, mais avec des performances insuffisantes. Cette méthode semble effectivement réduire efficacement le cache KV.

De plus, la précision de Block Transformer sur plusieurs tâches à zéro-shot est comparable, voire légèrement supérieure, à celle d'un Transformer original de taille équivalente, prouvant qu'il améliore l'efficacité sans sacrifier la qualité.

Cette recherche a une portée plus large. Elle réduit également le coût d'entraînement du modèle : la surcharge d'accès mémoire quadratique de l'attention globale est réduite de 16 fois, et l'utilisation du GPU passe de 1 % à 44 %.

Adresse de l'article : https://arxiv.org/abs/2406.02657

Transformateur

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Modèle de génération d'effets sonores vidéo en bout en bout open source HunyuanVideo-Foley de Tencent

腾讯混元开源 H.Video-Foley, génère des effets sonores cinématographiques à partir de vidéo et texte, résolvant le problème des vidéos IA sans son.....

Aug 28, 2025

Révolutionner la création vidéo ! Le modèle VACE d'Alibaba traite de manière unifiée les entrées texte, image et vidéo

Les scientifiques du groupe Alibaba ont lancé VACE, un modèle d'intelligence artificielle généraliste conçu pour traiter de manière unifiée un large éventail de tâches de génération et d'édition vidéo. Au cœur de VACE se trouve une architecture de transformateur de diffusion améliorée, dont l'innovation réside dans un nouveau format d'entrée : l'« unité conditionnelle vidéo » (VCU). La VCU affine plusieurs modalités d'entrée, telles que les invites textuelles, les images ou séquences vidéo de référence et les masques spatiaux, en une représentation unifiée. Un mécanisme spécialisé coordonne les différentes entrées pour éviter les conflits. Le découplage conceptuel permet un contrôle précis.

Apr 23, 2025

Les Samsung Research Labs dévoilent un nouveau transformateur autorégressif pour la génération d'images haute résolution

Apr 22, 2025

Yao Ban, étudiant surdoué, et Yao Shunyu d'OpenAI : le développement de l'IA passe de l'innovation des modèles à la réflexion produit

Apr 17, 2025

120

Plus besoin d'entraînement ! Q-Filters pour une compression efficace du cache KV et une amélioration des performances d'inférence

Mar 7, 2025

Meta présente Pippo : génération d'images haute résolution multi-vues à partir d'une seule image

Récemment, les équipes de recherche de Meta Reality Labs ont publié un modèle génératif innovant appelé « Pippo », capable de générer une vidéo dense de haute résolution (jusqu'à 1 K) à partir d'une seule photo prise de manière aléatoire. Cette avancée technologique marque une étape importante dans le domaine de la vision par ordinateur et de la génération d'images. Au cœur du modèle Pippo se trouve la conception de son transformateur de diffusion multi-vues. Contrairement aux modèles génératifs traditionnels, Pippo ne nécessite aucun autre input, tel que des paramètres ajustés.

Feb 17, 2025

3.7k

ViTPose : Modèle d'estimation de pose open source capable d'estimer et d'annoter les poses image par image

ViTPose est un modèle d'estimation de pose open source particulièrement doué pour identifier les poses humaines, comme s'il comprenait les mouvements que vous effectuez. Sa force réside dans sa simplicité et son efficacité. Il ne repose pas sur une architecture complexe, mais utilise directement une technique appelée Transformateur visuel. Au cœur de ViTPose, un transformateur visuel pur agit comme une puissante "ossature" capable d'extraire les caractéristiques clés des images. Contrairement à d'autres modèles, il n'a pas besoin d'une complexité excessive.

Jan 13, 2025

2.0k

SeedVR : une nouvelle technologie de restauration vidéo qui transforme le flou en haute définition, pour les vidéos de toutes longueurs

À l'ère du développement rapide des médias numériques, l'amélioration et la restauration de la qualité vidéo sont devenues un sujet d'intérêt majeur. La popularisation de la création de contenu vidéo a entraîné une demande croissante en termes de qualité vidéo. Cependant, de nombreuses vidéos sont souvent affectées par divers facteurs lors de leur création ou de leur transmission, ce qui entraîne des problèmes de flou et de manque de détails. Pour résoudre ce problème, une équipe de recherche de l'Université technologique de Nanyang et de ByteDance a récemment lancé une technologie de restauration vidéo innovante appelée SeedVR. SeedVR utilise un transformateur de diffusion (Dif...)

Jan 9, 2025

2.1k

Les scientifiques chinois résolvent le problème de la compression des nuages de points, améliorant ainsi la fluidité des expériences AR/VR

Une innovation majeure a été réalisée grâce à une technique de compression de nuages de points (TSC-PCAC) développée conjointement par une équipe de l'Académie des sciences de Chine, de l'Université Tongji et de l'Université de Ningbo. Cette technique améliore considérablement l'efficacité de la compression des données de nuages de points et réduit significativement le temps de traitement, surmontant ainsi les obstacles techniques au développement des applications 3D telles que l'AR/VR. Dans le contexte du développement rapide des techniques de vision 3D actuelles, les nuages de points, en tant que forme de données essentielle pour la réalité virtuelle et la réalité augmentée, sont confrontés à d'énormes défis en termes de transmission et de stockage. Un nuage de points de haute qualité peut contenir des millions de points de données, chaque point...

Dec 31, 2024

880

OminiControl : Un nouveau framework de génération d'images IA permettant d'intégrer des éléments d'image source

À l'ère numérique actuelle, les technologies de génération d'images évoluent à un rythme étonnant. Récemment, une équipe de chercheurs de l'Université nationale de Singapour a proposé un nouveau framework, OminiControl, visant à améliorer la flexibilité et l'efficacité de la génération d'images. Ce framework, en combinant des conditions d'image et en tirant pleinement parti des modèles de transformateurs de diffusion (Diffusion Transformer, ou DiT) déjà entraînés, offre un contrôle sans précédent. En termes simples, il suffit de fournir une image source pour utiliser OminiControl...

Nov 26, 2024

5.2k

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Une équipe sud-coréenne propose une nouvelle architecture Transformer permettant d'accélérer le décodage des grands modèles jusqu'à 20 fois

AIbase

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Modèle de génération d'effets sonores vidéo en bout en bout open source HunyuanVideo-Foley de Tencent

Révolutionner la création vidéo ! Le modèle VACE d'Alibaba traite de manière unifiée les entrées texte, image et vidéo

Les Samsung Research Labs dévoilent un nouveau transformateur autorégressif pour la génération d'images haute résolution

Yao Ban, étudiant surdoué, et Yao Shunyu d'OpenAI : le développement de l'IA passe de l'innovation des modèles à la réflexion produit

Plus besoin d'entraînement ! Q-Filters pour une compression efficace du cache KV et une amélioration des performances d'inférence

Meta présente Pippo : génération d'images haute résolution multi-vues à partir d'une seule image

ViTPose : Modèle d'estimation de pose open source capable d'estimer et d'annoter les poses image par image

SeedVR : une nouvelle technologie de restauration vidéo qui transforme le flou en haute définition, pour les vidéos de toutes longueurs

Les scientifiques chinois résolvent le problème de la compression des nuages de points, améliorant ainsi la fluidité des expériences AR/VR

OminiControl : Un nouveau framework de génération d'images IA permettant d'intégrer des éléments d'image source

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Une équipe sud-coréenne propose une nouvelle architecture Transformer permettant d'accélérer le décodage des grands modèles jusqu'à 20 fois

AIbase

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Modèle de génération d'effets sonores vidéo en bout en bout open source HunyuanVideo-Foley de Tencent

Révolutionner la création vidéo ! Le modèle VACE d'Alibaba traite de manière unifiée les entrées texte, image et vidéo

Les Samsung Research Labs dévoilent un nouveau transformateur autorégressif pour la génération d'images haute résolution

Yao Ban, étudiant surdoué, et Yao Shunyu d'OpenAI : le développement de l'IA passe de l'innovation des modèles à la réflexion produit

Plus besoin d'entraînement ! Q-Filters pour une compression efficace du cache KV et une amélioration des performances d'inférence

Meta présente Pippo : génération d'images haute résolution multi-vues à partir d'une seule image

ViTPose : Modèle d'estimation de pose open source capable d'estimer et d'annoter les poses image par image

SeedVR : une nouvelle technologie de restauration vidéo qui transforme le flou en haute définition, pour les vidéos de toutes longueurs

Les scientifiques chinois résolvent le problème de la compression des nuages de points, améliorant ainsi la fluidité des expériences AR/VR

OminiControl : Un nouveau framework de génération d'images IA permettant d'intégrer des éléments d'image source

GEO Services