A JD.com anunciou recentemente um avanço tecnológico empolgante —— o engine de inferência de modelo grande desenvolvido internamente com base em chips nacionais, chamado xLLM. O lançamento deste engine visa ajudar as empresas a operarem com maior desempenho e menor custo ao implantar aplicações de inteligência artificial (IA), promovendo assim a transformação digital da indústria.

O xLLM possui diversos pontos fortes em suas funcionalidades principais. Primeiramente, seu scheduler dinâmico baseado na prioridade das solicitações. Esta função pode alocar recursos computacionais de forma inteligente de acordo com a importância das solicitações, garantindo que as tarefas críticas sejam concluídas primeiro. Além disso, o engine também possui uma arquitetura PD separada adaptável dinamicamente, que pode ajustar a proporção dos instâncias de processamento conforme a carga real, para utilizar os recursos de forma otimizada. Destaca-se também que o xLLM é especialmente adequado para cenários multimodais, contando com um scheduler de separação híbrida EPD, oferecendo soluções mais flexíveis para aplicações complexas de IA.

image.png

Em termos de arquitetura técnica, o xLLM possui um motor de execução em pipeline de múltiplas etapas baseado nas características do hardware, garantindo o tratamento eficiente de diferentes tipos de tarefas. Além disso, os desenvolvedores também criaram um conjunto de otimizações computacionais que inclui fusão de gráficos, raciocínio especulativo e equilíbrio dinâmico de carga, o que aumentará significativamente a eficiência da inferência de IA. Para melhorar ainda mais o desempenho do sistema, o xLLM também utiliza o Mooncake para construir um gerenciador global de cache KV em múltiplas etapas, fornecendo uma experiência mais suave no tratamento de dados.

A JD.com afirma que essa tecnologia surgiu de seus negócios centrais de varejo e já foi aplicada com sucesso em vários cenários, como assistentes de IA da JD.com, atendimento automático, risco e assistente de cadeia de suprimentos. Por meio deste sistema, a eficiência foi incrementada mais de 5 vezes, enquanto o custo das máquinas foi reduzido em 90%, o que demonstra claramente o grande potencial do xLLM.

"Acreditamos firmemente que a construção de uma ecologia de infraestrutura de IA não pode ser feita sem a contribuição de cada desenvolvedor. A abertura do código é apenas o primeiro passo. No futuro, a JD.com continuará abrindo mais funções avançadas de acordo com as necessidades da comunidade e trabalhará com parceiros de pesquisa e ensino como Tsinghua, Peking e Universidade de Ciências da China para impulsionar inovações e desenvolvimento da tecnologia de infraestrutura de IA nacional", disse o time de infraestrutura de IA do varejo da JD.com.

Com o lançamento do xLLM, os desenvolvedores terão a oportunidade de experimentar este poderoso engine de inferência e contribuir para o desenvolvimento da ecologia de tecnologia de IA da China.