O departamento de inteligência artificial da Alibaba lançou oficialmente a versão compacta da série de modelos de linguagem visual Qwen3-VL hoje, apresentando variantes com 4 bilhões e 8 bilhões de parâmetros. Essa iniciativa marca um grande salto na aplicação das tecnologias avançadas de IA multimodal em dispositivos de borda e ambientes com recursos limitados.

Salto de desempenho, pequenos modelos competindo com os grandes

Os modelos de 4B e 8B lançados desta vez oferecem versões Instruct e Thinking, otimizados para habilidades multimodais essenciais como raciocínio STEM, perguntas e respostas visuais (VQA), reconhecimento óptico de caracteres (OCR), compreensão de vídeo e tarefas de agente.

De acordo com os resultados dos testes de benchmark publicados, esses modelos pequenos se saíram bem em várias categorias, superando concorrentes como o Gemini2.5Flash Lite e o GPT-5Nano. O mais impressionante é que seu desempenho em alguns campos pode até ser comparado ao do modelo Qwen2.5-VL-72B, lançado apenas seis meses atrás, demonstrando uma eficiência muito alta nos parâmetros.

QQ20251015-103538.png

Otimização de recursos, promovendo a democratização da IA

O destaque principal do novo modelo é a redução significativa no uso de VRAM, permitindo que ele seja executado diretamente em hardware de consumo, como notebooks e smartphones. Para melhorar ainda mais a eficiência, a Alibaba também fornece uma versão quantificada FP8, reduzindo ainda mais o consumo de recursos sem comprometer as capacidades essenciais. Como disse um membro da equipe Qwen envolvido no desenvolvimento: "Modelos VL pequenos são adequados para implantação e têm significado especial na área de celulares e robôs."

Iteração rápida, compartilhamento aberto

O lançamento deste modelo compacto continua a roadmap da série Qwen3-VL lançada pela primeira vez em setembro (modelo principal com 235 bilhões de parâmetros). Anteriormente, a Alibaba já havia lançado a variante 30B-A3B no início de outubro, obtendo resultados de benchmark comparáveis aos do GPT-5Mini e do Claude4Sonnet com apenas 30 bilhões de parâmetros ativos. Essa rápida iteração é vista pela indústria como uma evidência forte da iniciativa da Alibaba em promover a democratização da IA de alto desempenho, especialmente aplicável a sistemas embutidos como robôs.

Endereço:

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks