Tencent a officiellement lancé et open-sourcé un nouveau membre de la famille de modèles de grandes tailles HuanYuan - le modèle HuanYuan-A13B. Ce modèle utilise une architecture basée sur l'expertise mixte (MoE), avec un volume total de paramètres atteignant 80 milliards, et un volume de paramètres actifs de 13 milliards. En maintenant les performances d'un des meilleurs modèles open-source, il réduit considérablement le délai de traitement et les coûts de calcul, offrant ainsi une solution AI plus économique aux développeurs individuels et aux petites et moyennes entreprises.
Selon Tencent, le modèle HuanYuan-A13B peut être déployé avec seulement une seule carte graphique de milieu de gamme dans des conditions extrêmes. Les utilisateurs peuvent télécharger et utiliser ce modèle via les communautés techniques telles que Github et HuggingFace, et l'API du modèle est déjà disponible sur le site officiel de Tencent Cloud. Cette caractéristique permet à davantage de développeurs d'accéder à des technologies AI avancées à un coût faible, favorisant ainsi l'implémentation d'applications innovantes.
En termes de performance, le modèle HuanYuan-A13B montre des résultats supérieurs dans les tâches de raisonnement mathématique, scientifique et logique. Par exemple, lors d’un test de raisonnement mathématique, le modèle est capable de réaliser correctement la comparaison des nombres décimaux et d’afficher sa capacité d’analyse étape par étape. De plus, ce modèle prend en charge l'utilisation d'outils pour générer des réponses complexes, comme les itinéraires de voyage ou l'analyse de fichiers de données, fournissant ainsi un soutien solide au développement d'applications d'agents (Agent).
Sur le plan technique, le modèle HuanYuan-A13B améliore la limite des capacités de raisonnement grâce à l'utilisation de 20 billions de mots de corpus web de haute qualité pendant l'entraînement préalable, et complète également le système théorique de Scaling Law de l'architecture MoE, offrant ainsi une direction ingénierie quantifiée pour la conception du modèle. En outre, le modèle permet aux utilisateurs de choisir selon leurs besoins un mode de pensée rapide ou lent. Le mode de pensée rapide offre une sortie concise et efficace, tandis que le mode de pensée lent implique des étapes de raisonnement plus profondes, équilibrant ainsi l'efficacité et la précision.
Pour encourager davantage le développement de l'écosystème open-source en intelligence artificielle, Tencent a également open-sourcé deux nouveaux jeux de données. ArtifactsBench est principalement destiné à l'évaluation du code et construit une nouvelle référence comprenant 1 825 tâches ; C3-Bench est conçu spécifiquement pour l'évaluation des modèles dans les scénarios d'agents, avec 1 024 données de test pour identifier les lacunes des capacités du modèle.
Ce lancement open-source du modèle HuanYuan-A13B est encore un résultat des efforts continus de Tencent dans le domaine de l'intelligence artificielle. À l'avenir, la famille de modèles HuanYuan de Tencent lancera davantage de modèles de différentes tailles et de caractéristiques distinctes, partageant ses pratiques techniques avec la communauté pour promouvoir ensemble la prospérité de l'écosystème open-source.
Entrée d'essai : https://hunyuan.tencent.com/
Adresse open-source : https://github.com/Tencent-Hunyuan