A equipe OpenBMB anunciou recentemente a liberação oficial da nova versão de modelo multivisual MiniCPM-V4.0. Com sua arquitetura leve e desempenho excepcional, esse modelo é chamado de "GPT-4V no celular", prometendo uma revolução nas aplicações de inteligência artificial nos dispositivos móveis.
O núcleo do MiniCPM-V4.0 está em seu design sofisticado. Ele é baseado em SigLIP2-400M e MiniCPM4-3B, com apenas 4,1B parâmetros, mas demonstra uma capacidade notável na compreensão de imagens, múltiplas imagens e vídeos. Isso permite que ele processe facilmente uma única imagem, bem como compreenda conteúdo complexo relacionado a múltiplas imagens e trechos de vídeo, oferecendo uma experiência de interação mais inteligente para os usuários.
Ainda que tenha um número reduzido de parâmetros, o desempenho do MiniCPM-V4.0 é impressionante. Em oito benchmarks principais do OpenCompass, o modelo obteve uma média de 69,0, superando concorrentes como GPT-4.1-mini e Qwen2.5-VL-3B. Esses resultados provam sua força na compreensão visual, especialmente na análise precisa e profunda de cenários complexos.
Outro destaque do MiniCPM-V4.0 é sua otimização intensiva para dispositivos móveis. Testes no novo iPhone16Pro Max mostraram que o tempo de resposta inicial foi inferior a 2 segundos, a velocidade de decodificação ultrapassou 17 token por segundo, e o aquecimento do dispositivo foi controlado eficientemente durante a execução, garantindo uma experiência suave e estável. Além disso, ele pode lidar com solicitações simultâneas, sendo ideal para aplicações reais em dispositivos de borda como celulares e tablets.
Para reduzir a barreira de uso, a equipe OpenBMB fornece suporte abrangente. O MiniCPM-V4.0 é compatível com frameworks principais como llama.cpp, Ollama e vllm_project, oferecendo opções flexíveis para implantação. A equipe também desenvolveu especificamente um aplicativo iOS, que permite executá-lo diretamente em iPhone e iPad, além de publicar um Cookbook detalhado com tutoriais completos e exemplos de código.
A liberação do MiniCPM-V4.0 abre novas possibilidades para a aplicação de tecnologias multivisuais. Suas principais aplicações incluem:
Análise de imagens e conversas em múltiplas etapas: Os usuários podem carregar imagens, permitindo que o modelo analise seu conteúdo e continue a conversa com base nisso.
Comprensão de vídeos: É capaz de analisar o conteúdo dos vídeos, fornecendo soluções para cenários que exigem processamento de informações visuais.
OCR e raciocínio matemático: O modelo possui capacidade de reconhecer textos em imagens e resolver problemas matemáticos, aumentando significativamente sua utilidade prática no trabalho e estudo.
A liberação do MiniCPM-V4.0 não apenas demonstra a excelente capacidade das equipes de IA chinesas no desenvolvimento de modelos leves, mas também fornece uma poderosa ferramenta para desenvolvedores globais explorarem a tecnologia multivisual em dispositivos móveis, avançando significativamente na democratização da inteligência artificial.