El proyecto open source de Alibaba, MNN (Mobile Neural Network), ha lanzado la última versión de su aplicación de modelo multi-modal para dispositivos móviles, MnnLlmApp, añadiendo soporte para los modelos Qwen-2.5-Omni-3B y 7B. Esta aplicación completamente abierta al público y ejecutada localmente en dispositivos móviles es capaz de manejar diversas tareas multimodales, como generar texto a partir de texto, descripciones de imágenes, transcribir audio y crear imágenes a partir de texto, entre otros. Su alto rendimiento y bajo consumo de recursos han llamado la atención de muchos desarrolladores. AIbase ha observado que esta actualización impulsa aún más la popularización de la inteligencia artificial multimodal en dispositivos móviles.

QQ20250513-094907.jpg

Dirección del proyecto:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

Principales características: capacidad multimodal ampliamente mejorada

La nueva versión de MnnLlmApp integra los modelos Qwen-2.5-Omni-3B y 7B, aprovechando la arquitectura Thinker-Talker del equipo de Qwen de Alibaba Cloud, logrando una capacidad integral para procesar texto, imágenes, audio y video. Según AIbase, la aplicación soporta las siguientes funciones:

Texto a texto: genera diálogos de alta calidad, informes o código, comparable con los modelos en la nube.

Imagen a texto: identifica el texto en imágenes o describe el contenido de las escenas, útil para escanear documentos y responder preguntas visuales.

Audio a texto: transcribe voz de manera eficiente, compatible con múltiples idiomas.

Texto a imagen: genera imágenes de alta calidad mediante modelos de difusión, satisfaciendo las necesidades de diseño creativo.

Los comentarios en redes sociales muestran que los desarrolladores están muy satisfechos con el rendimiento de Qwen-2.5-Omni-3B en GPUs de 24 GB. Este modelo conserva más del 90% del rendimiento multimodal del modelo de 7B en OmniBench, reduciendo significativamente la ocupación de memoria (de 60.2 GB a 28.2 GB).

Ventajas técnicas: inferencia local y optimización extrema

El marco MNN se destaca por su ligereza y alto rendimiento, diseñado específicamente para dispositivos móviles y dispositivos de borde. El equipo de edición de AIbase ha notado que la nueva versión de MnnLlmApp muestra un excelente rendimiento en la inferencia de CPU, siendo 8.6 veces más rápida en el prellenado que llama a llama.cpp y 2.3 veces más rápida en la decodificación. La aplicación funciona completamente localmente sin necesidad de conexión a internet para manejar tareas multimodales, asegurando la privacidad de los datos sin enviarlos a servidores externos. Soporta una amplia gama de modelos, incluidos Qwen, Gemma, Llama y Baichuan, entre otros modelos de código abierto populares; los desarrolladores pueden descargar e implementar la aplicación directamente desde GitHub. Además, MNN ofrece soporte para FlashAttention-2, lo que mejora aún más la eficiencia en el procesamiento de contextos largos.

Escenarios de uso: desde desarrollo hasta producción

La capacidad multimodal de MnnLlmApp muestra su potencial en varios escenarios:

Educación y oficina: escanear documentos con la función de imagen a texto o transcribir registros de reuniones utilizando audio a texto.

Diseño creativo: utilizar la generación de imagen a partir de texto para crear materiales promocionales o obras artísticas.

Asistente inteligente: construir aplicaciones de interacción de voz localizadas, como navegación sin conexión o asistentes de servicio al cliente.

Aprendizaje para desarrolladores: el código fuente abierto y la documentación detallada proporcionan ejemplos valiosos para el desarrollo de grandes modelos móviles.

AIbase analiza que la propiedad de código abierto de MNN y su compatibilidad con Qwen-2.5-Omni lo convierten en una plataforma ideal para que los desarrolladores exploren la inteligencia artificial multimodal en dispositivos móviles. En las redes sociales, los desarrolladores señalan que aunque la velocidad de inferencia de MnnLlmApp (28 tokens/s para Llama3.18B) no alcanza los niveles más altos, su integración multimodal y facilidad de uso son suficientes para satisfacer las necesidades de desarrollo prototípico.

Fondo industrial: oleada de software libre en IA móvil

La actualización de MNN coincide con un aumento de la competencia en IA móvil. Recientemente, DeepSeek's R1 y Baichuan-Omni también han presentado soluciones de IA multi-modal abiertas, destacando la implementación local y los costos bajos. Sin embargo, MNN mantiene una ventaja en términos de rendimiento y compatibilidad gracias al apoyo del ecosistema de Alibaba y las optimizaciones de hardware, como la adaptación profunda para dispositivos Android. AIbase ha notado que Alibaba Cloud ya ha abierto más de 200 modelos generativos de IA, con más de 80 millones de descargas del conjunto de modelos Qwen en Hugging Face, mostrando su influencia global. También se ha lanzado una versión iOS de MnnLlmApp, expandiendo aún más su cobertura multiplataforma.

El futuro de la IA multi-modal móvil

Esta actualización marca el acelerado despliegue de la IA multi-modal desde la nube hacia los dispositivos de borde. El equipo editorial de AIbase espera que, con la continua optimización del modelo Qwen-2.5-Omni (como el soporte para videos más largos o la generación de voz con menor latencia), MNN desempeñe un papel más importante en áreas como sistemas domésticos inteligentes, sistemas de vehículos y asistentes offline. Sin embargo, las redes sociales también señalan que el proceso de carga de modelos (que requiere construir modelos externos desde el código fuente) todavía necesita simplificarse para mejorar la amigabilidad del usuario.