En la reciente conferencia Google I/O 2025, Google lanzó de manera discreta un proyecto open source llamado Google AI Edge Gallery, una aplicación de inteligencia artificial generativa que se ejecuta completamente en el dispositivo local, basada en el modelo Gemma3n más reciente, con capacidades multimodales que admiten entrada de texto, imágenes y audio. Este proyecto, con sus eficientes capacidades de inteligencia artificial en el extremo del dispositivo y sus características de código abierto, proporciona a los desarrolladores una plantilla ideal para construir aplicaciones de IA localizadas.

image.png

Google AI Edge Gallery: un nuevo referente en IA en el extremo del dispositivo

Google AI Edge Gallery es una aplicación experimental disponible para Android (la versión para iOS está por llegar) que permite a los usuarios ejecutar diversos modelos de IA open source de Hugging Face en sus dispositivos locales sin conexión a internet para lograr inferencias eficientes. El proyecto utiliza la licencia Apache2.0 y su código está disponible en GitHub, permitiendo a los desarrolladores usarlo y modificarlo libremente, lo que reduce significativamente las barreras para el desarrollo de aplicaciones de IA en el extremo del dispositivo. AIbase ha notado que este proyecto no solo muestra los últimos avances de Google en IA en el extremo del dispositivo, sino que también ofrece a los desarrolladores una plantilla rápida para comenzar a crear aplicaciones personalizadas de IA.

El punto central radica en su base en el modelo Gemma3n, un pequeño modelo de lenguaje multimodal optimizado para dispositivos móviles que admite entrada de texto, imágenes, audio y video, con una potente capacidad de inferencia local. Ya sea en entornos sin conexión para transcribir voz, analizar imágenes o interactuar en tiempo real, Google AI Edge Gallery demuestra el enorme potencial de la IA en el extremo del dispositivo.

image.png

Capacidades multimodales: procesamiento completo de texto, imágenes y audio

Google AI Edge Gallery integra las capacidades multimodales de Gemma3n, permitiendo a los usuarios subir imágenes y audio para su procesamiento. Por ejemplo, los técnicos pueden tomar fotos de equipos y formular preguntas, mientras que la IA genera respuestas precisas basadas en el contenido de la imagen; los trabajadores de almacén pueden actualizar datos de inventario mediante voz, logrando interacciones inteligentes sin necesidad de manos. Además, Gemma3n soporta reconocimiento automático de voz (ASR) de alta calidad y funciones de traducción de voz, capaces de manejar entradas multimodales complejas, ofreciendo más posibilidades para aplicaciones interactivas.

AIbase ha sabido que las versiones de 2B y 4B de parámetros de Gemma3n ya admiten entrada de texto, imágenes, video y audio, y los modelos correspondientes están disponibles en Hugging Face. Las funciones de procesamiento de audio estarán disponibles próximamente. En comparación con los modelos de grandes nubes tradicionales, el diseño compacto de Gemma3n le permite funcionar fluidamente en dispositivos con recursos limitados como teléfonos y tabletas, con un tamaño de modelo de solo 529 MB y una velocidad de llenado de tokens previos de 2585 tokens por segundo para procesar páginas completas.

image.png

Código abierto y eficiente: diseño amigable para desarrolladores

Google AI Edge Gallery proporciona un entorno ligero de ejecución de modelos mediante LiteRT Runtime y APIs de inferencia de LLM, permitiendo a los desarrolladores elegir y cambiar diferentes modelos desde la comunidad de Hugging Face. El proyecto también integra funciones de generación mejorada por búsqueda (RAG) y llamadas de funciones, lo que permite a los desarrolladores inyectar datos específicos en las aplicaciones sin necesidad de ajustar el modelo. Por ejemplo, las empresas pueden utilizar tecnología RAG para combinar bases de conocimiento internas con IA y proporcionar servicios de respuesta personalizados.

Además, Gemma3n soporta la última tecnología de cuantificación int4, reduciendo el tamaño del modelo hasta 2.5-4 veces en comparación con el formato bf16, al mismo tiempo que reduce significativamente la latencia y el uso de memoria. Este eficiente esquema de cuantificación asegura un rendimiento excepcional en dispositivos de bajo consumo energético. Los desarrolladores pueden completar rápidamente el ajuste, conversión y despliegue del modelo mediante tutoriales de Colab proporcionados por Google, simplificando enormemente el proceso de desarrollo.

Ejecución sin conexión y protección de privacidad: ventajas únicas de la IA en el extremo del dispositivo

La capacidad de ejecución completamente sin conexión de Google AI Edge Gallery es uno de sus mayores puntos fuertes. Todas las inferencias de IA se realizan en el dispositivo local, sin depender de una red o servicios de Google Play, asegurando la privacidad de los datos y una respuesta de baja latencia. Esto es particularmente importante para escenarios que requieren privacidad y real-time, como la atención médica o el mantenimiento industrial. Por ejemplo, los trabajadores de campo pueden interactuar con la IA a través de voz o imágenes en entornos sin conexión, completando diagnósticos de equipos o registros de datos.

AIbase cree que este modo de ejecución sin conexión no solo mejora la experiencia del usuario, sino que también reduce la dependencia de las empresas en la potencia de cálculo en la nube, reduciendo los costos operativos. La naturaleza open source del proyecto otorga a los desarrolladores la libertad de personalizar a su gusto, ya sea para construir asistentes educativos, herramientas de apoyo médico o explorar experiencias interactivas innovadoras; Google AI Edge Gallery ofrece una sólida base.

Influencia en la industria: la popularización y los desafíos de la IA en el extremo del dispositivo

El lanzamiento de Google AI Edge Gallery marca un paso más hacia la popularización de la IA en el extremo del dispositivo. Comparado con Hume AI EVI3 y ElevenLabs Conversational AI2.0, Google AI Edge Gallery se centra más en la implementación localizada y el ecosistema de código abierto multimodal, con el objetivo de empoderar a la comunidad de desarrolladores a través de Gemma3n y crear una diversidad de aplicaciones de IA en el extremo del dispositivo. Sin embargo, algunas opiniones creen que existe una brecha de rendimiento entre la IA en el extremo del dispositivo y los modelos en la nube, lo que podría limitar su desarrollo ante la búsqueda de "la mejor experiencia" por parte de los usuarios. AIbase considera que con el avance de la capacidad de hardware y la continua optimización de los modelos, la IA en el extremo del dispositivo podría alcanzar un rendimiento comparable al de los modelos en la nube en escenarios específicos.

El lanzamiento de Google AI Edge Gallery no solo muestra los avances tecnológicos de Gemma3n en la IA multimodal y la inferencia en el extremo del dispositivo, sino que también reduce las barreras para el desarrollo de aplicaciones de IA a través de métodos de código abierto. Sus capacidades de ejecución sin conexión, soporte multimodal y tecnologías de cuantificación eficientes proporcionan herramientas flexibles y poderosas a los desarrolladores. AIbase espera que este proyecto inspire más aplicaciones innovadoras, especialmente en escenarios sensibles a la privacidad y con recursos limitados, mostrando un valor único. En el futuro, con el lanzamiento de la versión para iOS y la integración de más modelos, Google AI Edge Gallery podría convertirse en un referente en el desarrollo de IA en el extremo del dispositivo.