Récemment, une grande nouvelle a secoué le monde de l'intelligence artificielle : Anthropic a officiellement lancé sa série de modèles Claude4, comprenant Claude Opus4 et Claude Sonnet4. Cette annonce n'est pas accompagnée de slogans pompeux ou de longs documents techniques ; le seul mot clé utilisé est : « travailler ». Selon Anthropic, Claude Opus4 est considéré comme le modèle de programmation le plus puissant au monde, capable de traiter efficacement des tâches complexes à long terme avec excellence. Quant à Claude Sonnet4, il a été amélioré en termes de compétences en programmation et en raisonnement, permettant de répondre aux instructions des utilisateurs de manière plus précise.
La série Claude4 apporte plusieurs fonctionnalités prometteuses. Tout d'abord, le modèle peut utiliser des outils d'aide lorsqu'il réfléchit en profondeur, optimisant ainsi son processus de raisonnement et la qualité de ses réponses. Ensuite, les deux modèles peuvent utiliser ces outils simultanément et, sous autorisation du développeur, améliorer leur capacité de mémoire pour conserver des informations clés et maintenir la cohérence contextuelle. De plus, avec l'introduction de Claude Code, cette série de modèles devient encore plus pratique sur des plateformes telles que GitHub Actions, VS Code et JetBrains.
Lors des tests de benchmarking SWE-bench, Opus4 a obtenu un score élevé de 72,5 %, se classant parmi les meilleurs, tandis qu'il a également mené dans Terminal-bench avec 43,2 %, démontrant ainsi ses capacités exceptionnelles en programmation. Opus4 peut même décomposer les problèmes comme un programmeur expérimenté, effectuer un débogage précis et exécuter des tâches complexes, réussissant même à gérer des projets impliquant plusieurs fichiers et de grandes modifications dans les tests de Replit.
Comparé à Opus4, Sonnet4, bien qu'il ne soit pas nécessairement le plus puissant, pourrait attirer davantage d'utilisateurs. Par rapport à sa version précédente, il présente des améliorations significatives en termes de compétence en programmation, de raisonnement logique et de contrôle des réponses, atteignant presque le même niveau qu'Opus4 avec un score de 72,7 %. Lorsqu'il traite des instructions complexes, Sonnet4 offre des résultats plus clairs et des structures de code plus élégantes, ce qui en fait le modèle de base choisi pour la nouvelle génération de GitHub Copilot.
Avec le développement continu de la technologie IA, Anthropic a également optimisé les comportements et les capacités de raisonnement des modèles. La série Claude4 peut exécuter efficacement des tâches de raisonnement complexes et réduire de manière significative les vulnérabilités logiques dans les tests. De plus, la fonctionnalité « synthèse des pensées » introduite automatise la compression et l'analyse des informations lorsque la chaîne de raisonnement du modèle est trop longue, rendant les informations finales plus simples et plus claires.
Avec l'ouverture de Claude Code, les développeurs pourront intégrer cet assistant IA puissant plus facilement dans leurs flux de travail. Que ce soit dans le terminal ou dans des environnements de développement courants tels que VS Code ou JetBrains, Claude Code peut être intégré dans des scénarios de développement réels pour fournir des suggestions de modification de code, rendant ainsi le processus de développement plus efficace.