La empresa Red Hat ha lanzado recientemente de forma oficial el servidor de inferencia de IA de Red Hat (Red Hat AI Inference Server), diseñado para ofrecer servicios de inferencia de IA más eficientes y económicos en entornos híbridos de nube. Utilizando tecnologías avanzadas de vLLM y combinando la innovación de Neural Magic, Red Hat busca proporcionar una velocidad de respuesta más rápida y un rendimiento superior a sus usuarios.
El servidor de inferencia de IA de Red Hat es una solución de inferencia abierta diseñada específicamente para alto rendimiento, equipada con una serie de herramientas avanzadas de compresión y optimización de modelos. Su diseño combina las innovaciones de vLLM con las capacidades empresariales de Red Hat, brindando a los usuarios opciones flexibles de implementación. Los usuarios pueden optar por usarlo como un producto independiente en contenedores o integrarlo con Red Hat Enterprise Linux (RHEL AI) y Red Hat OpenShift AI.
En diversos entornos de implementación, el servidor de inferencia de IA de Red Hat ofrece una versión reforzada de vLLM a los usuarios. Sus principales funciones incluyen herramientas inteligentes de compresión de LLM que reducen significativamente el tamaño de los modelos de IA base y los modelos finetuneados, manteniendo simultáneamente la precisión del modelo mientras minimizan el consumo de recursos computacionales. Además, Red Hat proporciona un repositorio optimizado de modelos alojado en el espacio de Red Hat AI en Hugging Face, permitiendo a los usuarios acceder instantáneamente a modelos de IA validados. Estos modelos optimizados mejoran la eficiencia de la inferencia en hasta 2 a 4 veces sin afectar la precisión del modelo.
Red Hat ofrece a sus usuarios un sólido soporte empresarial basado en la experiencia acumulada durante años en llevar proyectos comunitarios al entorno de producción. Además, el servidor de inferencia de IA de Red Hat también admite implementaciones flexibles en plataformas no Red Hat Linux y Kubernetes, brindando a los usuarios mayor flexibilidad al elegir su entorno de implementación.
Joe Fernandes, vicepresidente del departamento de IA de Red Hat, declaró: "La inferencia es el valor central de la IA generativa, ya que permite que los modelos respondan rápidamente y de manera precisa en interacciones con los usuarios. Nuestro objetivo es satisfacer las necesidades masivas de inferencia de manera eficiente y económica". El lanzamiento del servidor de inferencia de IA de Red Hat brinda a los usuarios una capa de inferencia general que acelera el funcionamiento de diferentes modelos en diversos entornos.
Destacado:
🚀 El servidor de inferencia de IA de Red Hat combina tecnologías vLLM y Neural Magic para ofrecer servicios de inferencia eficientes en entornos híbridos de nube.
📉 Cuenta con herramientas inteligentes de compresión de LLM y un repositorio optimizado de modelos, mejorando la eficiencia de la inferencia en un 2-4 veces.
🛠️ Ofrece soporte empresarial y opciones flexibles de implementación, adaptándose a diversos sistemas operativos y plataformas.