L'annonce officielle d'Ollama vient de révéler la sortie de sa dernière version, Ollama v0.8, qui apporte une amélioration majeure pour l'exécution locale des modèles de langue de grande taille (LLM). La nouvelle version introduit la fonctionnalité de transmission en continu des réponses et l'appel d'outils, permettant des scénarios interactifs tels que des recherches en ligne en temps réel, ce qui améliore considérablement l'utilité et la flexibilité des IA locales. AIbase a compilé les principales caractéristiques d'Ollama v0.8 et leur impact sur l'écosystème IA.

QQ20250529-165945.jpg

Transmission en continu : interactions plus fluides en temps réel

L'une des plus grandes innovations d’Ollama v0.8 est l'introduction de la fonction de transmission en continu des réponses. Lorsque les utilisateurs interagissent avec un modèle IA pour des conversations ou des tâches spécifiques, ils reçoivent progressivement les réponses au fur et à mesure qu'elles sont générées, sans avoir à attendre la fin du processus. Cette fonctionnalité améliore sensiblement l'expérience utilisateur, notamment dans le traitement de requêtes complexes ou de la génération de longs textes. La transmission en continu permet aux utilisateurs d'avoir un aperçu immédiat du raisonnement de l'IA, réduisant ainsi les temps d'attente.

Par exemple, dans le contexte des recherches en ligne, Ollama v0.8 peut présenter progressivement les résultats de recherche en direct, permettant aux utilisateurs d'accéder rapidement aux informations les plus récentes. Cette fonctionnalité améliore non seulement l'efficacité, mais offre également une manière interactive plus dynamique pour les secteurs comme l'éducation, la recherche et la création de contenu.

Appel d'outils : connecter les IA locales au monde extérieur

Ollama v0.8 introduit une fonction d'appel d'outils, permettant aux modèles locaux d'interagir via des API avec des outils externes et des sources de données. Par exemple, le modèle peut utiliser des API de recherche pour accéder à des données en temps réel ou se connecter à d'autres services (comme des bases de données ou des outils tiers) pour accomplir des tâches plus complexes. Cette fonctionnalité rompt les limites traditionnelles des IA locales, transformant ces dernières en assistants intelligents dynamiques et en temps réel.

L'annonce officielle montre un exemple de recherche en ligne où Ollama v0.8 peut exécuter rapidement les outils de recherche selon les requêtes des utilisateurs et présenter progressivement les résultats en streaming. Bien que l'appel d'outils ne supporte pas encore de contraintes syntaxiques (ce qui pourrait entraîner des instabilités avec des températures élevées), cette fonctionnalité ouvre déjà de nouvelles perspectives pour l'extensibilité des IA locales.

Optimisation des performances : un fonctionnement plus efficace des modèles

Ollama v0.8 a également réalisé des progrès significatifs dans l'amélioration des performances. La nouvelle version a corrigé des fuites de mémoire dans l'exécution de modèles comme Gemma3 et Mistral Small3.1, et optimisé la vitesse de chargement des modèles, notamment sur des systèmes de fichiers réseau tels que Google Cloud Storage FUSE. De plus, l'ajout d'un optimiseur d'attention glissante a considérablement augmenté la vitesse de déduction des contextes longs et l'efficacité de l'allocation de mémoire pour Gemma3.

Ollama v0.8 a également amélioré le processus d'importation des modèles, simplifiant l'importation de modèles comme Gemma3 depuis Safetensors grâce à une sélection automatique de modèles appropriés. La nouvelle version prend également en charge un traitement concurrentiel plus flexible, permettant aux utilisateurs de régler le nombre de modèles chargés et de requêtes parallèles via des variables d'environnement (comme OLLAMA_MAX_LOADED_MODELS et OLLAMA_NUM_PARALLEL), adaptant ainsi les besoins à différents configurations matérielles.

Écosystème open source : renforcer les développeurs et la communauté

En tant que cadre open source, Ollama v0.8 continue de promouvoir l'idée de partage et d'ouverture. Les codes complets et la documentation détaillée sont disponibles sur GitHub, supportant de nombreux modèles populaires tels que Llama3.3, DeepSeek-R1, Phi-4, Gemma3 et Mistral Small3.1. Les développeurs peuvent facilement exécuter ces modèles localement via des commandes simples (comme ollama run deepseek-r1:1.5b) sans dépendre d'API cloud, tout en garantissant la confidentialité et l'efficacité des coûts.

De plus, Ollama v0.8 ajoute un support préliminaire pour les cartes graphiques AMD (sous Windows et Linux) et, grâce à une compatibilité initiale avec l'API OpenAI Chat Completions, permet aux développeurs d'intégrer leurs outils existants avec des modèles locaux de manière transparente. Cette ouverture et cette compatibilité réduisent encore plus les barrières à l'entrée, attirant davantage de développeurs dans l'écosystème d’Ollama.

Influence industrielle : l'essor des IA locales

La publication d’Ollama v0.8 consolide encore sa position de leader dans le domaine des IA locales. Grâce à la transmission en continu et à l'appel d'outils, Ollama améliore non seulement l'interactivité des modèles locaux, mais les rend également compétitifs face aux modèles cloud, notamment dans des scénarios sensibles à la confidentialité ou hors ligne. Les professionnels de l'industrie estiment que l'innovation continue d’Ollama favorisera la popularisation des IA locales, surtout dans les domaines de l'éducation, de la recherche scientifique et des applications professionnelles.

Cependant, certaines critiques soulignent que l’appel d'outils dans Ollama v0.8 peut présenter des problèmes de stabilité avec des températures élevées et que les points de terminaison compatibles OpenAI n'autorisent pas encore les paramètres de flux. Cela indique que la technologie évolue rapidement, et les versions futures devraient apporter des améliorations supplémentaires.

Conclusion : Ollama v0.8 ouvre de nouvelles perspectives pour les IA locales

Avec ses nouvelles fonctionnalités de flux, d'appel d'outils et d'optimisation des performances, Ollama v0.8 injecte une nouvelle vitalité dans l'exécution locale des modèles de langage de grande taille. Que ce soit pour la recherche en ligne en temps réel ou pour un fonctionnement efficace des modèles, ce framework open source redéfinit la manière dont les IA sont développées et appliquées.

Adresse du projet : https://github.com/ollama/ollama/releases/tag/v0.8.0