Recentemente, a startup de Seattle, Moondream, lançou o moondream2, um modelo de linguagem visual compacto. Apesar de seu tamanho reduzido, o modelo se destaca em vários benchmarks, atraindo muita atenção. Como um modelo de código aberto, o moondream2 promete habilitar o reconhecimento de imagens local em smartphones.

Lançado oficialmente em março, o moondream2 processa entradas de texto e imagem, respondendo a perguntas, realizando extração de texto (OCR), contagem de objetos e classificação de itens. Desde o lançamento, a equipe Moondream tem atualizado continuamente o modelo, melhorando seu desempenho em benchmarks. A versão de julho mostrou progresso significativo em OCR e compreensão de documentos, especialmente na análise de dados econômicos históricos. O modelo obteve pontuações acima de 60% em DocVQA, TextVQA e GQA, demonstrando sua capacidade de execução local.
Uma característica notável do moondream2 é seu tamanho compacto: apenas 1,6 bilhão de parâmetros. Isso permite que ele seja executado não apenas em servidores em nuvem, mas também em computadores locais e até mesmo em dispositivos de menor desempenho, como smartphones ou computadores de placa única.
Apesar de seu tamanho reduzido, seu desempenho é comparável a modelos concorrentes com dezenas de bilhões de parâmetros, superando-os até mesmo em alguns benchmarks.
Em uma comparação de modelos de linguagem visual para dispositivos móveis, pesquisadores apontaram que, embora o moondream2 tenha apenas 170 milhões de parâmetros, seu desempenho é semelhante ao de modelos com 700 milhões de parâmetros, sendo ligeiramente inferior apenas no conjunto de dados SQA. Isso sugere que, embora modelos menores apresentem um desempenho excelente, ainda enfrentam desafios na compreensão de contextos específicos.

O desenvolvedor do modelo, Vikhyat Korrapati, afirma que o moondream2 foi construído com base em outros modelos, como SigLIP, o Phi-1.5 da Microsoft e o conjunto de dados de treinamento LLaVA. Este modelo de código aberto está disponível gratuitamente para download no GitHub e uma demonstração está disponível no Hugging Face. Na plataforma de codificação, o moondream2 também atraiu a atenção da comunidade de desenvolvedores, recebendo mais de 5.000 avaliações de estrelas.
Este sucesso atraiu a atenção de investidores: na rodada de financiamento inicial liderada pela Felicis Ventures, M12 (Microsoft's venture fund), GitHub fund e Ascend, a Moondream arrecadou US$ 4,5 milhões. O CEO da empresa, Jay Allen, trabalhou por muitos anos na Amazon Web Services (AWS) e lidera esta startup em crescimento.
O lançamento do moondream2 marca o surgimento de uma série de modelos de código aberto otimizados, que exigem menos recursos enquanto oferecem desempenho semelhante a modelos maiores e mais antigos. Embora existam alguns modelos locais menores no mercado, como o assistente inteligente da Apple e o Gemini Nano do Google, esses fabricantes ainda terceirizam tarefas mais complexas para a nuvem.
huggingface:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
Destaques:
🌟 A Moondream lançou o moondream2, um modelo de linguagem visual com apenas 160 milhões de parâmetros, que pode ser executado em dispositivos pequenos, como smartphones.
📈 O modelo possui poderosas capacidades de processamento de texto e imagem, respondendo a perguntas, realizando OCR, contagem de objetos e classificação, com excelente desempenho em benchmarks.
💰 A Moondream arrecadou US$ 4,5 milhões em financiamento, seu CEO trabalhou na Amazon e a equipe continua atualizando e melhorando o desempenho do modelo.




