A fabricante francesa de modelos de inteligência artificial Mistral, após enfrentar críticas de parte da comunidade open source por causa de seu mais recente modelo fechado, Medium3, rapidamente retornou ao caminho do open source. Recentemente, a empresa se associou à startup open source All Hands AI (criadora do OpenDevin) para lançar um novo modelo de linguagem open source chamado Devstral. Com 24 milhões de parâmetros, este modelo leve foi projetado especificamente para o desenvolvimento de software como um agente de IA completo, superando até mesmo alguns concorrentes com bilhões de parâmetros em testes específicos de benchmarks, incluindo alguns modelos fechados.

Diferente dos modelos tradicionais de LLMs que se concentram em conclusão de código ou geração de funções independentes, o Devstral foi otimizado para atuar como um agente completo de engenharia de software. Isso significa que ele pode entender o contexto transversal entre arquivos, navegar por grandes repositórios de código e resolver problemas práticos de desenvolvimento de software. Além disso, o Devstral é lançado sob a licença permissiva Apache2.0, permitindo que desenvolvedores e organizações livremente implantem, modifiquem e comercializem o modelo.

O cientista de pesquisa da Mistral AI, Baptiste Rozière, enfatizou que eles desejavam fornecer uma ferramenta open source que pudesse ser executada localmente e modificada conforme necessário pela comunidade de desenvolvedores. A licença Apache2.0 concede aos usuários uma grande liberdade.

mistral

Baseado no sucesso do Codestral

O Devstral é o mais recente avanço na série de modelos orientados a código da Codestral da Mistral. A Codestral foi apresentada pela primeira vez em maio de 2024, um modelo de LLM com 22 bilhões de parâmetros, suportando mais de 80 linguagens de programação, e se destacou em tarefas de geração e complementação de código. Sua rápida iteração gerou versões melhoradas, como a Codestral-Mamba baseada no arquitetura Mamba, e a última Codestral25.01, que ganhou popularidade entre os desenvolvedores de plug-ins de IDEs e usuários corporativos. O sucesso da Codestral forneceu uma base sólida para o surgimento do Devstral, permitindo sua expansão de simples geração de código para execução completa de tarefas de agentes.

Desempenho impressionante nos testes SWE

No benchmark SWE-Bench Verified, o Devstral alcançou uma excelente pontuação de 46,8%. O SWE-Bench Verified é um conjunto de dados de 500 questões reais do GitHub, validado manualmente para garantir a precisão. Esse desempenho não apenas lidera todos os modelos open source previamente lançados, mas também supera diversos modelos fechados, incluindo o GPT-4.1-mini, com uma vantagem superior a 20 pontos percentuais.

Rozière orgulhosamente declarou que o Devstral é até agora o modelo open source com melhor desempenho em benchmarks SWE-validados e agentes de código, surpreendentemente com apenas 24 milhões de parâmetros, sendo capaz de rodar localmente em um MacBook. A diretora de relações com desenvolvedores da Mistral AI, Dra. Sophia Yang, também apontou nas redes sociais que o Devstral supera muitos substitutos fechados em várias avaliações de quadros.

O excelente desempenho do Devstral deve-se às técnicas de aprendizado por reforço e ajustes de segurança aplicados ao modelo base Mistral Small3.1. Rozière explicou que eles começaram com um modelo forte como base e usaram tecnologias especializadas para melhorar seu desempenho no benchmark SWE.

QQ20250522-085900.png

Não apenas geração de código, mas também a pedra angular dos agentes de desenvolvimento de IA

O objetivo do Devstral vai além da geração de código; ele é essencial para integrar-se a frameworks como OpenHands, SWE-Agent e OpenDevin. Esses frameworks permitem que o Devstral interaja com casos de teste, navegue por arquivos de origem e execute tarefas multietapas em projetos. Rozière revelou que o Devstral será lançado junto com o OpenDevin, que atua como um suporte para agentes de código, servindo como back-end para modelos de desenvolvedores.

Para garantir a confiabilidade do modelo, a Mistral o testou rigorosamente em diferentes repositórios de código e fluxos de trabalho internos, evitando overfitting no benchmark SWE-bench. Eles treinaram o modelo usando dados de conjuntos de dados não relacionados ao SWE-bench e validaram seu desempenho em vários quadros.

Implantação eficiente e licenciamento amigável ao comércio

A estrutura compacta de 24 milhões de parâmetros do Devstral permite que os desenvolvedores o executem facilmente localmente, seja em máquinas equipadas com uma GPU RTX4090 ou em computadores Mac com 32 GB de memória. Isso é particularmente atrativo para cenários que exigem privacidade e implantação em dispositivos de borda. Rozière mencionou que o público-alvo do modelo inclui desenvolvedores e entusiastas que preferem operações locais e privatizadas, podendo utilizá-lo até em ambientes sem internet.

Além do desempenho e portabilidade, a licença Apache2.0 do Devstral facilita ainda mais sua adoção comercial. Essa licença permite o uso ilimitado, adaptação e distribuição, incluindo em produtos proprietários, reduzindo significativamente as barreiras para empresas adotarem o modelo.

O Devstral possui uma janela de contexto de 128.000 tokens e utiliza o tokenizador FastTokenizer com 131.000 palavras. Ele pode ser implantado através das principais plataformas open source como Hugging Face, Ollama, Kaggle, LM Studio e Unsloth, e é bem compatível com bibliotecas como vLLM, Transformers e Mistral Inference.

API e implantação local em dupla linha

Os desenvolvedores podem acessar o Devstral via API da Le Platforme da Mistral, com o nome do modelo sendo devstral-small-2505, com preço de US$ 0,10 por mil tokens de entrada e US$ 0,30 por mil tokens de saída. Para usuários que desejam implantar localmente, o suporte ao OpenHands e outros quadros permite uma integração instantânea com repositórios de código e fluxos de trabalho de agentes. Rozière compartilhou como ele usa o Devstral para pequenas tarefas de desenvolvimento, como atualizar versões de pacotes ou modificar scripts de tokenização, elogiando sua capacidade de localizar e modificar com precisão no código.

Embora o Devstral seja lançado atualmente como uma prévia de pesquisa, a Mistral e a All Hands AI já estão desenvolvendo modelos subsequentes mais poderosos e maiores. Rozière acredita que a lacuna entre modelos menores e maiores está diminuindo rapidamente, e o desempenho impressionante do Devstral já é comparável a alguns competidores de maior escala.

Com seus impressionantes benchmarks, licenciamento open source liberal e características otimizadas para agentes, o Devstral não apenas é uma ferramenta poderosa de geração de código, mas também uma base crucial para sistemas de engenharia de software autônomos.