A Red Hat lançou recentemente oficialmente o Red Hat AI Inference Server, um servidor projetado para fornecer serviços de inferência de IA mais eficientes e econômicos em ambientes híbridos de nuvem. Com a adoção de tecnologias avançadas de vLLM e combinando as inovações da Neural Magic, a Red Hat busca oferecer velocidades de resposta mais rápidas e desempenho superior aos usuários.
O Red Hat AI Inference Server é uma solução de inferência aberta projetada para alta performance, equipada com ferramentas avançadas de compressão e otimização de modelos. Sua ideia central é combinar as inovações de vanguarda do vLLM com a capacidade corporativa da Red Hat, permitindo opções flexíveis de implantação para os usuários. Os usuários podem optar por utilizá-lo como um produto independentemente embalado ou integrá-lo ao Red Hat Enterprise Linux (RHEL AI) e ao Red Hat OpenShift AI.
Em diversos ambientes de implantação, o Red Hat AI Inference Server oferece uma distribuição reforçada de vLLM aos usuários. Suas principais funcionalidades incluem ferramentas inteligentes de compressão de LLMs, que reduzem significativamente o tamanho dos modelos de IA base e finetunados, mantendo ao mesmo tempo a precisão do modelo e minimizando o uso de recursos computacionais. Além disso, a Red Hat fornece um repositório otimizado de modelos, hospedado no Hugging Face da organização Red Hat, onde os usuários podem acessar imediatamente modelos de IA validados. Esses modelos, após otimizados, aumentam a eficiência das implantações de inferência, melhorando até 2 a 4 vezes a performance sem comprometer a precisão do modelo.
A Red Hat oferece suporte empresarial robusto, baseado na vasta experiência da empresa em levar projetos de comunidade ao ambiente de produção. Além disso, o Red Hat AI Inference Server também suporta implantações flexíveis em plataformas não Red Hat Linux e Kubernetes, ajudando os usuários a terem maior liberdade nas escolhas de ambiente de implantação.
Joe Fernandes, vice-presidente do departamento de IA da Red Hat, declarou: "A inferência é o valor central da IA gerativa, permitindo que os modelos respondam rapidamente e com precisão durante as interações com os usuários. Nosso objetivo é atender à demanda de inferência em massa de forma eficiente e econômica." O lançamento do Red Hat AI Inference Server oferece uma camada de inferência genérica, apoiando a execução acelerada de diferentes modelos em variados ambientes.
Principais pontos:
🚀 O Red Hat AI Inference Server combina tecnologia vLLM e Neural Magic para fornecer serviços de inferência eficientes em ambientes híbridos de nuvem.
📉 Ferramentas de compressão inteligente de LLMs e repositórios de modelos otimizados aumentam a eficiência da inferência até 2 a 4 vezes.
🛠️ Oferece suporte empresarial de alto nível e opções flexíveis de implantação, adaptável a vários sistemas operacionais e plataformas.