O projeto open source da Alibaba, MNN (Mobile Neural Network), lançou uma nova versão do aplicativo móvel de modelos multimoedas MnnLlmApp, adicionando suporte para os modelos Qwen-2.5-Omni-3B e 7B. Este aplicativo totalmente open source, que roda localmente no dispositivo móvel, suporta várias tarefas multimodais, como a geração de texto para texto, imagem para texto, áudio para texto e texto para imagem, além de sua alta eficiência e baixo consumo de recursos, atraiu ampla atenção dos desenvolvedores. A AIbase observou que essa atualização do MNN está promovendo ainda mais a popularização das IA multimoedas nos dispositivos móveis.

QQ20250513-094907.jpg

Link do projeto:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

Principais destaques: capacidade multimoedas totalmente fortalecida

A nova versão do MnnLlmApp integrou os modelos Qwen-2.5-Omni-3B e 7B, aproveitando a arquitetura Thinker-Talker da equipe Qwen da Alibaba Cloud, para realizar um processamento integrado de texto, imagem, áudio e vídeo. A AIbase apurou que o aplicativo oferece as seguintes funcionalidades:

Texto para texto: gera diálogos, relatórios ou códigos de alta qualidade, comparável aos modelos em nuvem.

Imagem para texto: identifica palavras em imagens ou descreve o conteúdo da cena, útil para digitalização de documentos e respostas visuais.

Áudio para texto: transcreve eficientemente o áudio, suportando reconhecimento de fala em múltiplos idiomas.

Texto para imagem: gera imagens de alta qualidade por meio de modelos de difusão, atendendo às necessidades de design criativo.

No feedback nas redes sociais, os desenvolvedores expressaram satisfação com o desempenho do Qwen-2.5-Omni-3B em GPUs de 24 GB, mantendo mais de 90% das capacidades multimodais do modelo de 7B no benchmark OmniBench, enquanto reduziu a ocupação de memória em mais de 50% (de 60,2 GB para 28,2 GB).

Vantagens técnicas: inferência local e otimização extrema

O framework MNN é conhecido por sua leveza e alto desempenho, otimizado especificamente para dispositivos móveis e borda de rede. A equipe de edição da AIbase notou que a nova versão do MnnLlmApp se destaca na inferência CPU, sendo 8,6 vezes mais rápida que o llama.cpp no pré-preenchimento e 2,3 vezes mais rápida na decodificação. O aplicativo roda completamente localmente, sem necessidade de conexão à internet para processar tarefas multimodais, garantindo a privacidade dos dados sem envio para servidores externos. Suporta uma ampla gama de modelos, incluindo Qwen, Gemma, Llama, Baichuan e outros modelos open source principais, permitindo que os desenvolvedores baixem e construam o aplicativo diretamente do GitHub. Além disso, o MNN fornece suporte ao FlashAttention-2, melhorando ainda mais a eficiência no processamento de longo contexto.

Cenários de aplicação: do desenvolvimento à produção

A capacidade multimodal do MnnLlmApp demonstra seu potencial em diversas áreas:

Educação e escritório: escaneando documentos via função imagem para texto ou transcrevendo reuniões por meio de áudio para texto.

Design criativo: gerando materiais de propaganda ou obras de arte por meio de texto para imagem.

Assistente inteligente: criando aplicativos de interação de voz localizados, como navegação offline ou assistentes de serviço ao cliente.

Aprendizado para desenvolvedores: código aberto e documentação detalhada fornecem exemplos para o desenvolvimento de grandes modelos móveis.

A AIbase analisou que a natureza open source do MNN e o suporte ao Qwen-2.5-Omni tornam-no uma plataforma ideal para os desenvolvedores explorarem IA multimodal em dispositivos móveis. Nas redes sociais, os desenvolvedores comentaram que a velocidade de inferência do MnnLlmApp (pré-preenchimento de 28 tokens/s no Llama3.18B) não alcança o topo, mas sua integração multimodal e facilidade de uso são suficientes para atender às necessidades de protótipos.

Fundo industrial: onda de open source no AI móvel

A atualização do MNN coincide com o aquecimento da concorrência no campo do AI móvel. Modelos como R1 da DeepSeek e Baichuan-Omni recentemente lançaram soluções open source multimodais, enfatizando a implantação local e custos reduzidos. No entanto, o MNN, com o suporte do ecossistema Alibaba e otimizações de hardware (como adequação profunda a dispositivos Android), mantém vantagem em desempenho e compatibilidade. A AIbase observou que a Alibaba Cloud já abriu mais de 200 modelos generativos de IA, com a série Qwen ultrapassando 80 milhões de downloads no Hugging Face, mostrando sua influência global. A versão iOS do MnnLlmApp também foi lançada, ampliando ainda mais sua cobertura em plataformas cruzadas.

O futuro do AI multimodal móvel

A atualização do MnnLlmApp marca a aceleração da migração do AI multimodal da nuvem para os dispositivos de borda. A equipe de edição da AIbase prevê que, com a contínua otimização do modelo Qwen-2.5-Omni (como suporte a vídeos mais longos ou geração de voz com menor latência), o MNN desempenhará um papel maior em ambientes como casa inteligente, sistemas de veículos e assistentes offline. No entanto, as redes sociais também destacam que o fluxo de carregamento de modelos (que exige a construção de modelos externos a partir do código-fonte) ainda precisa ser simplificado para melhorar a usabilidade do usuário.