Em 2 de junho de 2025, a empresa de chips de inteligência artificial Cerebras Systems anunciou que sua API de inferência agora está totalmente aberta para todos os desenvolvedores, eliminando a restrição da lista de espera anterior. Esse movimento marca um passo significativo da Cerebras na aceleração do desenvolvimento de aplicativos de IA gerativa e oferece serviços eficientes e rápidos de inferência de IA a desenvolvedores em todo o mundo.
De acordo com a declaração oficial da Cerebras, os desenvolvedores podem usar até 1 milhão de tokens por dia gratuitamente. Essa cota gratuita oferece aos desenvolvedores recursos suficientes para construir e testar aplicativos de IA de alto desempenho baseados na plataforma de inferência da Cerebras. A Cerebras afirmou que sua API de inferência é significativamente mais rápida do que soluções tradicionais de GPU, alcançando até 20 vezes mais rápido que GPUs. Ela se destaca particularmente em processamento de fala em tempo real, manipulação de vídeo, modelos de raciocínio complexo e cenários de geração de código. Dados de teste mostram que o serviço de inferência da Cerebras pode gerar mais de 2.600 tokens por segundo ao executar o modelo Llama4Scout, superando amplamente outros provedores de API baseados em GPU.
A API de inferência da Cerebras suporta diversos modelos open source principais, incluindo Llama4 e Qwen3-32B. Os desenvolvedores podem integrar rapidamente esses modelos através de chamadas simples à API. Além disso, por meio de parcerias com plataformas como Hugging Face e Meta, a API de inferência da Cerebras foi integrada de forma transparente a esses ecossistemas, reduzindo ainda mais as barreiras para os desenvolvedores. Por exemplo, os 5 milhões de desenvolvedores no Hugging Face só precisam selecionar a Cerebras como provedor de inferência para experimentar imediatamente seu desempenho ultrarrápido.
Andrew Feldman, CEO da Cerebras, disse: "Nosso compromisso é fornecer aos desenvolvedores o serviço de inferência de IA mais rápido, permitindo que eles construam aplicativos inteligentes em tempo real de forma mais eficiente. Abrir a API e oferecer 1 milhão de tokens gratuitos por dia é um passo importante para impulsionar a inovação global."
A abertura completa dessa API não apenas oferece oportunidades acessíveis de desenvolvimento de IA para startups e desenvolvedores independentes, mas também fornece ferramentas eficientes para usuários corporativos construírem aplicações de IA complexas. As capacidades de inferência de alta performance da Cerebras, combinadas com seus seis novos centros de dados na América do Norte e Europa, são esperadas para promover ainda mais a adoção generalizada da IA gerativa em campos como saúde, finanças e interação de voz.
Insiders do setor destacaram que o movimento da Cerebras pode ter um impacto profundo no mercado de inferência de IA, especialmente em sua competição com fornecedores tradicionais de GPU como a Nvidia. A Cerebras demonstra vantagens técnicas significativas com seu único motor escalar de wafers de tamanho grande (WSE-3). À medida que as demandas de inferência continuam a crescer, a estratégia de abertura da Cerebras pode redesenhar o panorama do mercado de infraestrutura de IA.