¡Se lanzó la versión 0.8 de Ollama! Respuesta en streaming de IA + búsqueda en tiempo real, ¡los modelos locales también pueden convertirse en asistentes inteligentes!

Anunciado oficialmente por Ollama, se ha lanzado la última versión de Ollama v0.8, que trae mejoras revolucionarias para ejecutar modelos de lenguaje grande (LLM) localmente. La nueva versión introduce funciones de transmisión en tiempo real y llamada a herramientas, lo que permite escenarios interactivos como búsquedas en línea en tiempo real, mejorando significativamente la utilidad y flexibilidad de las IA locales. AIbase ha recopilado los puntos destacados principales de Ollama v0.8 y su impacto en el ecosistema de IA.

Transmisión en tiempo real: interacción más fluida

Uno de los mayores puntos fuertes de Ollama v0.8 es la nueva función de transmisión en tiempo real. Los usuarios pueden recibir respuestas generadas progresivamente en tiempo real mientras interactúan con modelos de IA para realizar conversaciones o procesar tareas, sin necesidad de esperar la salida completa del resultado. Esta funcionalidad mejora significativamente la experiencia de interacción, especialmente al manejar consultas complejas o la generación de texto largo. Con la transmisión en tiempo real, los usuarios pueden ver el proceso de pensamiento de la IA de inmediato, reduciendo el tiempo de espera.

Por ejemplo, en el escenario de búsqueda en línea, Ollama v0.8 puede presentar en tiempo real el proceso de generación de resultados, permitiendo a los usuarios obtener información actualizada rápidamente. Esta característica no solo aumenta la eficiencia, sino que también ofrece formas interactivas más dinámicas para escenarios educativos, de investigación y de creación de contenido.

Llamada a herramientas: conectar la IA local con el mundo exterior

Ollama v0.8 introduce la función de llamada a herramientas, permitiendo que los modelos de lenguaje ejecutados localmente se comuniquen a través de API con herramientas y fuentes de datos externas. Por ejemplo, el modelo puede llamar a una API de búsqueda en línea para obtener datos en tiempo real o conectarse a otros servicios (como bases de datos o herramientas de terceros) para completar tareas más complejas. Esta función rompe con las limitaciones tradicionales de las IA locales, elevándolas de ser respuestas estáticas a asistentes inteligentes dinámicos y en tiempo real.

El equipo mostró un ejemplo de búsqueda en línea, donde Ollama v0.8 puede buscar herramientas según la consulta del usuario y presentar los resultados en transmisión en tiempo real. A pesar de que la llamada a herramientas actualmente no soporta restricciones gramaticales (lo que podría hacer que la salida sea inestable con configuraciones de temperatura alta), esta función ya abre nuevas posibilidades para la extensibilidad de las IA locales.

Optimización de rendimiento: ejecución de modelos más eficiente

Ollama v0.8 también ha avanzado significativamente en optimizaciones de rendimiento. La nueva versión ha corregido problemas de fuga de memoria en modelos como Gemma3 y Mistral Small3.1, además de optimizar la velocidad de carga de modelos, mostrando un rendimiento excepcional en sistemas de archivos de red como Google Cloud Storage FUSE. Además, la nueva optimización de atención con ventana deslizante ha mejorado significativamente la velocidad de inferencia en contextos largos y la eficiencia de asignación de memoria para Gemma3.

Ollama v0.8 también ha mejorado el proceso de importación de modelos, simplificando la operación para importar modelos como Gemma3 desde Safetensors mediante la selección automática de plantillas adecuadas. La nueva versión también soporta un manejo más flexible de solicitudes concurrentes, permitiendo a los usuarios ajustar el número de modelos cargados y peticiones paralelas a través de variables de entorno (como OLLAMA_MAX_LOADED_MODELS y OLLAMA_NUM_PARALLEL), adaptándose a diferentes configuraciones de hardware.

Ecosistema abierto: empoderar a desarrolladores y comunidad

Como un marco de código abierto, Ollama v0.8 sigue promoviendo la filosofía de compartir y colaborar abiertamente. El equipo ha publicado el código completo y documentación detallada en GitHub, compatibilizando diversos modelos populares, incluidos Llama3.3, DeepSeek-R1, Phi-4, Gemma3 y Mistral Small3.1. Los desarrolladores pueden ejecutar estos modelos localmente con comandos simples (por ejemplo, "ollama run deepseek-r1:1.5b"), sin depender de APIs en la nube, equilibrando privacidad y eficiencia económica.

Además, Ollama v0.8 añade soporte preliminar para tarjetas gráficas AMD (compatible con Windows y Linux) y, a través de la compatibilidad inicial con OpenAI Chat Completions API, permite a los desarrolladores integrar herramientas existentes de OpenAI con modelos locales sin problemas. Esta apertura y compatibilidad reducen aún más las barreras de entrada y atraen a más desarrolladores al ecosistema de Ollama.

Influencia industrial: el ascenso de la IA local

El lanzamiento de Ollama v0.8 refuerza aún más su posición de liderazgo en el campo de la IA local. Gracias a las funciones de transmisión en tiempo real y llamada a herramientas, Ollama no solo mejora la interactividad de las IA locales, sino que también las capacita para competir con modelos en la nube, destacándose particularmente en escenarios de sensibilidad a la privacidad o desconexión. Los expertos del sector creen que la innovación continua de Ollama impulsará la popularización de la IA local, especialmente en aplicaciones educativas, de investigación y empresariales.

Algunos comentarios señalan que la llamada a herramientas en Ollama v0.8 puede presentar problemas de estabilidad en configuraciones de temperatura alta, y que los endpoints compatibles con OpenAI no admiten parámetros de transmisión en tiempo real. Estos puntos indican que la tecnología sigue evolucionando rápidamente, y versiones futuras esperan optimizar estas áreas.

Conclusión: Ollama v0.8 abre nuevas posibilidades para la IA local

Ollama v0.8 revitaliza el uso de modelos de lenguaje grandes locales con características innovadoras como la transmisión en tiempo real, la llamada a herramientas y optimizaciones de rendimiento. Desde búsquedas en línea en tiempo real hasta la ejecución eficiente de modelos, este marco de código abierto está transformando la forma en que se desarrolla y aplica la IA.

Dirección del proyecto: https://github.com/ollama/ollama/releases/tag/v0.8.0

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

¡Se lanzó la versión 0.8 de Ollama! Respuesta en streaming de IA + búsqueda en tiempo real, ¡los modelos locales también pueden convertirse en asistentes inteligentes!

AIbase基地

Este artículo proviene de AIbase Daily