Compacto e poderoso! O modelo de IA visual moondream2 de bolso: apenas 1,6 bilhão de parâmetros, funciona em smartphones

Recentemente, a startup de Seattle, Moondream, lançou o moondream2, um modelo de linguagem visual compacto. Apesar de seu tamanho reduzido, o modelo se destaca em vários benchmarks, atraindo muita atenção. Como um modelo de código aberto, o moondream2 promete habilitar o reconhecimento de imagens local em smartphones.

Lançado oficialmente em março, o moondream2 processa entradas de texto e imagem, respondendo a perguntas, realizando extração de texto (OCR), contagem de objetos e classificação de itens. Desde o lançamento, a equipe Moondream tem atualizado continuamente o modelo, melhorando seu desempenho em benchmarks. A versão de julho mostrou progresso significativo em OCR e compreensão de documentos, especialmente na análise de dados econômicos históricos. O modelo obteve pontuações acima de 60% em DocVQA, TextVQA e GQA, demonstrando sua capacidade de execução local.

Uma característica notável do moondream2 é seu tamanho compacto: apenas 1,6 bilhão de parâmetros. Isso permite que ele seja executado não apenas em servidores em nuvem, mas também em computadores locais e até mesmo em dispositivos de menor desempenho, como smartphones ou computadores de placa única.

Apesar de seu tamanho reduzido, seu desempenho é comparável a modelos concorrentes com dezenas de bilhões de parâmetros, superando-os até mesmo em alguns benchmarks.

Em uma comparação de modelos de linguagem visual para dispositivos móveis, pesquisadores apontaram que, embora o moondream2 tenha apenas 170 milhões de parâmetros, seu desempenho é semelhante ao de modelos com 700 milhões de parâmetros, sendo ligeiramente inferior apenas no conjunto de dados SQA. Isso sugere que, embora modelos menores apresentem um desempenho excelente, ainda enfrentam desafios na compreensão de contextos específicos.

O desenvolvedor do modelo, Vikhyat Korrapati, afirma que o moondream2 foi construído com base em outros modelos, como SigLIP, o Phi-1.5 da Microsoft e o conjunto de dados de treinamento LLaVA. Este modelo de código aberto está disponível gratuitamente para download no GitHub e uma demonstração está disponível no Hugging Face. Na plataforma de codificação, o moondream2 também atraiu a atenção da comunidade de desenvolvedores, recebendo mais de 5.000 avaliações de estrelas.

Este sucesso atraiu a atenção de investidores: na rodada de financiamento inicial liderada pela Felicis Ventures, M12 (Microsoft's venture fund), GitHub fund e Ascend, a Moondream arrecadou US$ 4,5 milhões. O CEO da empresa, Jay Allen, trabalhou por muitos anos na Amazon Web Services (AWS) e lidera esta startup em crescimento.

O lançamento do moondream2 marca o surgimento de uma série de modelos de código aberto otimizados, que exigem menos recursos enquanto oferecem desempenho semelhante a modelos maiores e mais antigos. Embora existam alguns modelos locais menores no mercado, como o assistente inteligente da Apple e o Gemini Nano do Google, esses fabricantes ainda terceirizam tarefas mais complexas para a nuvem.

huggingface:https://huggingface.co/vikhyatk/moondream2

github:https://github.com/vikhyat/moondream

Destaques:
🌟 A Moondream lançou o moondream2, um modelo de linguagem visual com apenas 160 milhões de parâmetros, que pode ser executado em dispositivos pequenos, como smartphones.
📈 O modelo possui poderosas capacidades de processamento de texto e imagem, respondendo a perguntas, realizando OCR, contagem de objetos e classificação, com excelente desempenho em benchmarks.
💰 A Moondream arrecadou US$ 4,5 milhões em financiamento, seu CEO trabalhou na Amazon e a equipe continua atualizando e melhorando o desempenho do modelo.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Compacto e poderoso! O modelo de IA visual moondream2 de bolso: apenas 1,6 bilhão de parâmetros, funciona em smartphones

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias

Revolução dos podcasts com IA! Doubao lança sistema automático de voz múltipla 98% de precisão na identificação de personagens, rivalizando com dramas de rádio profissionais