Na conferência Google I/O 2025 recentemente realizada, o Google lançou de forma discreta um projeto open source chamado Google AI Edge Gallery, uma aplicação de inteligência artificial gerativa que roda completamente localmente no dispositivo, baseada no modelo mais recente Gemma3n, integrando capacidades multimodais que suportam entrada de texto, imagem e áudio. Este projeto se destaca por sua eficiente performance de IA no lado do dispositivo e pela característica open source, fornecendo aos desenvolvedores um modelo ideal para construir aplicações de IA localizadas.

image.png

Google AI Edge Gallery: Um novo marco na IA no lado do dispositivo

O Google AI Edge Gallery é uma aplicação experimental voltada para Android (uma versão para iOS está prestes a ser lançada) que permite aos usuários executar diversos modelos de IA open source da Hugging Face em seus dispositivos locais sem a necessidade de conexão à internet, permitindo inferências eficientes. O projeto está licenciado sob a Apache2.0 e o código já está disponível no GitHub, permitindo que os desenvolvedores usem e modifiquem livremente, reduzindo significativamente a barreira para criar aplicações de IA no lado do dispositivo. A AIbase observa que o projeto não apenas demonstra os mais recentes resultados do Google no campo da IA no lado do dispositivo, mas também fornece aos desenvolvedores um modelo fácil de usar para criar aplicações personalizadas de IA.

Um dos destaques principais é sua base no modelo Gemma3n, um pequeno modelo de linguagem multimodal otimizado para dispositivos móveis que suporta entrada de texto, imagem, áudio e vídeo, com uma forte capacidade de inferência local. Seja para transcrição de voz offline, análise de imagens ou interações em tempo real, o Google AI Edge Gallery demonstra todo o potencial da IA no lado do dispositivo.

image.png

Capacidades Multimodais: Cobertura Total de Texto, Imagem e Áudio

O Google AI Edge Gallery integra as funcionalidades multimodais do Gemma3n, permitindo que os usuários processem imagens e áudios carregados. Por exemplo, técnicos no local podem tirar fotos dos equipamentos e fazer perguntas, com a IA gerando respostas precisas com base no conteúdo da imagem; funcionários de armazém podem atualizar dados de estoque por voz, proporcionando interações inteligentes que liberam as mãos. Além disso, o Gemma3n suporta funções de reconhecimento automático de fala (ASR) de alta qualidade e tradução de fala, processando entradas multimodais complexas e abrindo novas possibilidades para aplicativos interativos.

A AIbase entende que as versões de 2B e 4B de parâmetros do Gemma3n já suportam entrada de texto, imagem, vídeo e áudio, com os modelos correspondentes agora disponíveis na Hugging Face, e as funções de processamento de áudio serão lançadas em breve. Comparado aos modelos de nuvem tradicionais, o design compacto do Gemma3n permite que ele execute fluidez em dispositivos com recursos limitados como smartphones e tablets, com um tamanho de modelo de apenas 529 MB, processando até 2585 tokens por segundo, suficiente para lidar com páginas inteiras de conteúdo.

image.png

Open Source e Eficiência: Design Amigável para Desenvolvedores

O Google AI Edge Gallery oferece um ambiente leve de execução de modelos através do LiteRT Runtime e APIs de inferência de LLM, permitindo que os desenvolvedores escolham e alternem diferentes modelos da comunidade Hugging Face. O projeto também integra Recuperação Aumentada de Geração (RAG) e funções de chamada de funções, permitindo que os desenvolvedores injetem dados específicos de domínio em suas aplicações sem ajustar os modelos. Por exemplo, empresas podem combinar suas bases de conhecimento internas com IA usando tecnologia RAG para fornecer serviços de resposta personalizados.

Além disso, o Gemma3n suporta a mais recente tecnologia de quantização int4, reduzindo o tamanho do modelo em 2,5 a 4 vezes em comparação ao formato bf16, enquanto reduz significativamente a latência e o uso de memória. Esse esquema eficiente de quantização garante o desempenho excepcional dos modelos de IA em dispositivos de baixo consumo de energia. Os desenvolvedores podem usar tutoriais fornecidos pelo Google no Colab para microajustar, converter e implantar modelos de forma rápida e simplificada.

Execução Offline e Proteção de Privacidade: Vantagens Únicas da IA no Lado do Dispositivo

A capacidade de execução totalmente offline do Google AI Edge Gallery é um dos destaques principais. Todas as inferências de IA são realizadas no dispositivo local, sem dependência de rede ou serviços do Google Play, garantindo privacidade dos dados e resposta de baixa latência. Isso é particularmente importante para cenários como saúde e manutenção industrial, onde a privacidade e a imediatismo são críticos. Por exemplo, trabalhadores no local podem interagir com a IA por voz ou imagem em ambientes sem conexão à internet, realizando diagnósticos de equipamentos ou registros de dados.

A AIbase acredita que esse modo de execução offline não só melhora a experiência do usuário, como também reduz a dependência das empresas em relação à computação em nuvem, diminuindo os custos operacionais. A natureza open source do projeto ainda concede aos desenvolvedores a liberdade de personalizar livremente, seja para construir assistentes educacionais, ferramentas de suporte médico ou explorar experiências interativas inovadoras, o Google AI Edge Gallery fornece uma base sólida.

Influência Industrial: Popularização e Desafios da IA no Lado do Dispositivo

O lançamento do Google AI Edge Gallery marca a popularização adicional da IA no lado do dispositivo. Em comparação com a EVI3 da Hume AI e a Conversational AI2.0 da ElevenLabs, o Google AI Edge Gallery foca mais na implantação local e no ecossistema open source de aplicações multimodais, com o objetivo de empoderar a comunidade de desenvolvedores com o Gemma3n, criando uma variedade de aplicações de IA no lado do dispositivo. No entanto, algumas opiniões argumentam que há uma diferença de desempenho entre a IA no lado do dispositivo e os modelos em nuvem, o que pode limitar seu desenvolvimento devido à busca do "melhor desempenho". A AIbase acredita que, com o aumento do desempenho dos hardwares e a contínua otimização dos modelos, a IA no lado do dispositivo terá desempenho equivalente ao dos modelos em nuvem em cenários específicos.

O lançamento do Google AI Edge Gallery não apenas demonstra os avanços tecnológicos do Gemma3n em multimodalidade e inferência no lado do dispositivo, mas também através de seu open source reduz a barreira para o desenvolvimento de aplicações de IA. Sua capacidade de execução offline, suporte a multimodalidade e tecnologias eficientes de quantização fornecem às equipes de desenvolvimento ferramentas flexíveis e poderosas. A AIbase espera que o projeto incentive aplicações inovadoras, especialmente em cenários sensíveis à privacidade e com restrições de recursos. Com o lançamento da versão iOS e a integração de mais modelos, o Google AI Edge Gallery pode se tornar o ponto de referência para o desenvolvimento de IA no lado do dispositivo.