A Baidu Smart Cloud recentemente acendeu com sucesso o primeiro cluster de dez mil placas de Kunlun Chip de terceira geração desenvolvido na China. Essa conquista histórica não apenas marca um passo importante da Baidu no campo da computação de inteligência artificial, mas também fornece novas ideias de desenvolvimento para toda a indústria. Com o avanço contínuo da tecnologia, o aumento da capacidade de computação é crucial para apoiar o treinamento e a aplicação de modelos em larga escala.

No último ano, com a popularização da tecnologia de IA, muitas empresas enfrentaram problemas de escassez de capacidade de computação, o que levou diretamente ao aumento dos custos de uso de grandes modelos. A Baidu declarou que, por meio do desenvolvimento independente de chips e da construção de clusters de dez mil placas, eles não apenas resolveram eficazmente seus próprios problemas de fornecimento de capacidade de computação, mas também forneceram referência e suporte a outras empresas. O cluster de dez mil placas possui capacidade de computação paralela em grande escala, podendo melhorar significativamente a eficiência do treinamento, especialmente no treinamento de modelos complexos com centenas de bilhões de parâmetros, podendo reduzir significativamente o ciclo de treinamento.

Centro de dados Supercomputador (2)

Observação da fonte da imagem: A imagem foi gerada por IA, fornecedora de serviços de licença de imagem Midjourney

A aplicação do cluster de dez mil placas atenderá às necessidades de rápida iteração de aplicativos nativos de IA, podendo também suportar o processamento de modelos com trilhões de parâmetros e dados multimodais, fornecendo um forte impulso para o desenvolvimento de aplicativos do tipo Sora. Além disso, a capacidade de processamento simultâneo de várias tarefas do cluster de dez mil placas permite que ele treine vários modelos leves simultaneamente por meio da divisão dinâmica de recursos, realizando assim o uso eficiente da capacidade de computação. Essa inovação da Baidu Smart Cloud não apenas melhorou a taxa de utilização abrangente do cluster, mas também reduziu significativamente o custo da capacidade de computação unitária.

No entanto, problemas como treinamento misto de múltiplos núcleos e aumento da taxa de falhas se tornaram os principais desafios no processo de implantação do cluster de dez mil placas. Para resolver esses problemas, a Baidu lançou em setembro de 2024 a versão atualizada da plataforma de computação heterogênea de IA Baige 4.0, que desempenhou um papel crucial na construção do cluster de dez mil placas. Por meio de otimização de modelos, estratégias de paralelismo e alocação dinâmica de recursos, a Baidu Smart Cloud está promovendo o uso eficaz da capacidade de computação, lançando as bases para futuros aplicativos de IA.

O sucesso da Baidu Smart Cloud não apenas demonstra sua capacidade de pesquisa e desenvolvimento independente, mas também injeta nova energia no desenvolvimento vigoroso de grandes modelos nacionais. No futuro, com a expansão e otimização contínuas do cluster de dez mil placas, esperamos que mais aplicativos inovadores de IA sejam implementados, trazendo novas oportunidades para o desenvolvimento da indústria.