Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Aquila-VL-2B-llava-qwen

Modelo de linguagem visual que combina informações de imagem e texto para processamento inteligente.

Produto ComumImagemModelo de Linguagem VisualMultimodal

Abrir Site

O modelo Aquila-VL-2B é um modelo de linguagem visual (VLM) treinado na estrutura LLava-one-vision, utilizando o modelo Qwen2.5-1.5B-instruct como modelo de linguagem (LLM) e siglip-so400m-patch14-384 como torre visual. O modelo foi treinado no conjunto de dados Infinity-MM de construção própria, contendo aproximadamente 40 milhões de pares imagem-texto. Este conjunto de dados combina dados abertos coletados da internet e dados de instruções sintéticas gerados usando modelos VLM abertos. A disponibilização do código-fonte do modelo Aquila-VL-2B visa impulsionar o desenvolvimento de desempenho multimodal, especialmente no processamento combinado de imagem e texto.

Abrir Site

Aquila-VL-2B-llava-qwen Situação do Tráfego Mais Recente

Total de Visitas Mensais

25296546

Taxa de Rejeição

43.31%

Média de Páginas por Visita

5.8

Duração Média da Visita

00:04:45

Aquila-VL-2B-llava-qwen Tendência de Visitas

Aquila-VL-2B-llava-qwen Distribuição Geográfica das Visitas

Aquila-VL-2B-llava-qwen Fontes de Tráfego

Aquila-VL-2B-llava-qwen Alternativas

Aquila-VL-2B-llava-qwen — Modelo de linguagem visual que combina informações de imagem e texto para processamento inteligente.

Imagem

•Modelo de Linguagem Visual•Multimodal

216

Qwen2.5-VL — Qwen2.5-VL é um poderoso modelo de linguagem visual que consegue compreender o conteúdo de imagens e vídeos e gerar texto correspondente.

Seleção Nacional

•Multimodal•Reconhecimento de imagem

1134

Ollama OCR para Web — Um poderoso pacote OCR que utiliza modelos de linguagem visual de última geração para extrair texto de imagens.

Imagem

•OCR•Reconhecimento de Imagem

396

Moondream AI — Modelo de linguagem visual de código aberto, executável em diversos dispositivos.

Outros

•Inteligência Artificial•Código Aberto

288

Valley-Eagle-7B — Modelo multimodal de grande porte, processando dados de texto, imagem e vídeo.

Produtividade

•Multimodal•Modelo de Grande Porte

270

DeepSeek-VL2-Tiny — Modelo avançado de linguagem visual de grande porte e especialista híbrido

Imagem

•Modelo de Linguagem Visual•Especialista Híbrido

492

POINTS-Yi-1.5-9B-Chat — Avanço recente em modelos de linguagem visual, integrando novas tecnologias do WeChat AI.

Produtividade

•Modelo de Linguagem Visual•WeChat AI

198

POINTS-Qwen-2-5-7B-Chat — Avanços recentes em modelos de linguagem visual

Produtividade

•Modelo de linguagem visual•Multimodal

192

InternVL2_5-38B — Série de modelos de linguagem grandes multimodais avançados

Imagem

•Multimodal•Modelo de Linguagem Grande

402

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

Imagem

•Modelo de linguagem visual•Multimodal

192

Qwen2-VL-2B — Modelo de linguagem visual de ponta, com suporte para compreensão multimodal e geração de texto.

Imagem

•Modelo de Linguagem Visual•Multimodal

174

GPTS4O.SO — Plataforma de IA multimodal que integra interação de texto, imagem e áudio

Produtividade

•IA•Multimodal

306

Molmo — Família de modelos de IA multimodal de ponta

Seleção Internacional

•Multimodal•IA

450

Qwen2-VL — Modelo de linguagem visual de nova geração, que vê o mundo com mais clareza.

Imagem

•Modelo de Linguagem Visual•Suporte Multilíngue

390

LLaVA-NeXT — Modelo multimodal de grande escala, processando múltiplas imagens, vídeos e dados 3D.

Imagem

•Multimodal•Reconhecimento de imagem

720

Falcon 2 — Falcon 2 é um modelo de linguagem grande (LLM),开源、 multilíngue e multimodal, com capacidade de conversão de imagem para texto.

Produtividade

•IA•Código Aberto

492

MiniGemini — Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

Programação

•Multimodal•Modelo de linguagem visual

2538

MouSi — Modelo de linguagem visual multimodal

Produtividade

•Multimodal•Modelo de Linguagem Visual

414

DevMind AI — Assistente de desenvolvimento de IA multimodal

Programação

•Desenvolvimento de IA•Multimodal

330

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

Produtividade

•Multimodal•Modelo Generativo

InternVL3 — InternVL3 de código abierto: 7 tamaños que cubren el procesamiento de texto, imágenes y video; capacidad multimodal extendida al análisis de imágenes industriales

Produtividade

•IA•Multimodal

Kimi-VL — Modelo de linguagem visual híbrido de especialista de código aberto eficiente, com capacidade de raciocínio multimodal.

Seleção Nacional

•Multimodal•Raciocínio

DreamActor-M1 — Uma estrutura de animação de imagem humana baseada em DiT, que realiza controle refinado e consistência de longo prazo.

Produtividade

•Animação humana•Geração de vídeo

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Seleção Internacional

•Inteligência Artificial•Programação

MistralOCR.net — O Mistral OCR é um poderoso produto OCR de compreensão de documentos que consegue extrair texto, imagens, tabelas e equações de PDFs e imagens com altíssima precisão.

Produtividade

•Processamento de documentos•OCR

228

Gemini Robotics — Modelo robótico basado en Gemini 2.0, que lleva la IA al mundo físico, con capacidades visuales, lingüísticas y de movimiento.

Seleção Internacional

•Inteligencia artificial•Robótica

126

R1-Omni — R1-Omni ist ein multimodalen Emotionserkennungsmodell, das Reinforcement Learning integriert und sich auf die Verbesserung der Interpretierbarkeit der multimodalen Emotionserkennung konzentriert.

Programação

•Multimodal•Emotionserkennung

156

GO-1 — A Zhiyuan lançou o primeiro modelo de base de incorporação universal GO-1, propondo inovadoramente a arquitetura ViLLA, impulsionando o desenvolvimento da inteligência incorporada.

Seleção Nacional

•Inteligência Embodied•Multimodal

150

OpenAI Agents SDK — O OpenAI Agents SDK é um kit de desenvolvimento para construir agentes autônomos, simplificando a orquestração de fluxos de trabalho com múltiplos agentes.

Seleção Internacional

•Inteligência Artificial•Agentes

234

SmolVLM2 — SmolVLM2 é um modelo de linguagem leve focado na análise e geração de conteúdo de vídeo.

Vídeo

•Análise de vídeo•Geração de texto

204