Red Hat a récemment lancé officiellement le serveur d'inférence AI Red Hat (Red Hat AI Inference Server), conçu pour fournir des services d'inférence AI plus efficaces et économiques dans les environnements cloud hybrides. En combinant des technologies avancées de vLLM avec l'innovation de Neural Magic, Red Hat ambitionne d'offrir une réponse plus rapide et des performances supérieures à ses utilisateurs.

image.png

Le serveur d'inférence AI de Red Hat est une solution ouverte dédiée aux performances élevées, dotée d'un ensemble d'outils avancés de compression et d'optimisation des modèles. Son concept repose sur la combinaison des innovations de pointe de vLLM avec les capacités d'entreprise de Red Hat, permettant ainsi aux utilisateurs d'avoir des options de déploiement flexibles. Les utilisateurs peuvent choisir de l'utiliser comme un produit en conteneur indépendant ou de l'intégrer avec Red Hat Enterprise Linux (RHEL AI) et Red Hat OpenShift AI.

Dans divers environnements de déploiement, le serveur d'inférence AI de Red Hat fournit aux utilisateurs une version renforcée de vLLM. Ses principales fonctionnalités incluent des outils de compression intelligents pour LLM qui peuvent considérablement réduire la taille des modèles d'IA de base et des modèles d'IA finement ajustés, tout en minimisant la consommation de ressources de calcul sans compromettre la précision du modèle. De plus, Red Hat propose une bibliothèque optimisée de modèles hébergée dans l'organisation Red Hat de Hugging Face, où les utilisateurs peuvent accéder instantanément à des modèles d'IA validés. Ces modèles, après optimisation, peuvent améliorer l'efficacité des déploiements d'inférence jusqu'à 2 à 4 fois, sans affecter la précision du modèle.

Red Hat offre également un soutien d'entreprise robuste, basé sur des années d'expérience dans la mise en œuvre de projets communautaires dans des environnements de production. Par ailleurs, le serveur d'inférence AI de Red Hat supporte des déploiements flexibles sur des plateformes Linux non Red Hat et des systèmes Kubernetes, offrant ainsi aux utilisateurs une plus grande liberté dans le choix de leur environnement de déploiement.

Joe Fernandes, vice-président du département AI de Red Hat, a déclaré : « L'inférence est au cœur de la valeur de l'IA générative, permettant aux modèles de répondre rapidement et précisément lors des interactions avec les utilisateurs. Notre objectif est de répondre efficacement et économiquement aux besoins d'inférence à grande échelle. » Le lancement du serveur d'inférence AI de Red Hat fournira aux utilisateurs une couche d'inférence générique capable de faire tourner différents modèles plus rapidement dans divers environnements.

Points clés :

🚀 Le serveur d'inférence AI de Red Hat combine la technologie vLLM et Neural Magic pour fournir des services d'inférence efficaces dans les environnements cloud hybrides.  

📉 Il dispose d'outils de compression intelligents pour LLM et d'une bibliothèque de modèles optimisés, permettant une amélioration de l'efficacité de l'inférence allant jusqu'à 2 à 4 fois.  

🛠️ Il offre un soutien d'entreprise et des options de déploiement flexibles, adaptées à plusieurs systèmes d'exploitation et plateformes.