Dans le domaine de l'intelligence artificielle générative, les efforts d'Apple semblent principalement concentrés sur les appareils mobiles, notamment le dernier système iOS 18. Cependant, la nouvelle puce Apple M4, intégrée aux derniers Mac Mini et Macbook Pro, affiche des performances exceptionnelles, permettant l'exécution efficace des modèles linguistiques de base (LLM) open source les plus puissants du moment, tels que Llama-3.1405B de Meta, Nemotron70B de Nvidia et Qwen2.5Coder-32B.
Exo Labs, une startup créée en mars 2024, se consacre à la « démocratisation de l'accès à l'intelligence artificielle ». Son co-fondateur, Alex Cheema, a réussi à construire un cluster de calcul local en utilisant plusieurs appareils M4.
Il a connecté quatre Mac Mini M4 (599 $ chacun) à un Macbook Pro M4 Max (1599 $), utilisant le logiciel open source d'Exo pour exécuter Qwen2.5Coder-32B d'Alibaba. Le coût total du cluster est d'environ 5000 $, ce qui représente un excellent rapport qualité-prix par rapport à un GPU Nvidia H100, dont le prix se situe entre 25 000 et 30 000 $.
Les avantages d'un cluster de calcul local par rapport aux services en ligne sont évidents. L'exécution des modèles d'IA sur des appareils contrôlés par l'utilisateur ou l'entreprise permet de réduire les coûts, tout en améliorant la confidentialité et la sécurité. Cheema a déclaré qu'Exo Labs améliore constamment son logiciel d'entreprise, et que plusieurs entreprises l'utilisent déjà pour l'inférence IA locale. Cette tendance devrait s'étendre progressivement aux particuliers et aux entreprises.
Le succès récent d'Exo Labs est dû aux performances exceptionnelles de la puce M4, qualifiée de « cœur de GPU le plus rapide au monde ».
Cheema a révélé que le cluster Mac Mini M4 d'Exo Labs peut exécuter Qwen2.5Coder32B à une vitesse de 18 jetons par seconde et Nemotron-70B à 8 jetons par seconde. Cela montre que les utilisateurs peuvent traiter efficacement les tâches d'entraînement et d'inférence de l'IA sans dépendre des infrastructures cloud, rendant ainsi l'IA plus accessible aux consommateurs et aux entreprises soucieux de la confidentialité et des coûts.
Pour soutenir davantage cette vague d'innovation en matière d'IA locale, Exo Labs prévoit de lancer un site web de benchmark gratuit, afin de fournir des comparaisons détaillées de configurations matérielles et d'aider les utilisateurs à choisir la meilleure solution d'exécution de LLM en fonction de leurs besoins et de leur budget.
Accès au projet : https://github.com/exo-explore/exo
Points clés :
🌟 Exo Labs utilise la puce Apple M4 pour exécuter avec succès de puissants modèles d'IA open source sur un cluster de calcul local.
💰 L'exécution locale des modèles d'IA réduit les coûts, améliore la confidentialité et la sécurité, et évite la dépendance aux services cloud.
📊 Exo Labs lancera un site web de benchmark pour aider les utilisateurs à choisir la configuration matérielle appropriée pour leurs tâches d'IA.