Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

LLaVA-OneVision

Modelo de conversão eficiente para tarefas de visão multimodal

Produto ComumImagemMultimodalReconhecimento Visual

Abrir Site

LLaVA-OneVision é um grande modelo multimodal (LMMs) desenvolvido em colaboração pela ByteDance e diversas universidades. Ele impulsiona os limites de desempenho dos modelos abertos de grande porte multimodais em cenários de imagem única, múltiplas imagens e vídeo. O design do modelo permite uma forte transferência de aprendizagem entre diferentes modalidades/cenários, exibindo novas capacidades abrangentes, especialmente em compreensão de vídeo e capacidade multi-cenário, demonstrado através da conversão de tarefas de imagem para vídeo.

Abrir Site

LLaVA-OneVision Situação do Tráfego Mais Recente

Total de Visitas Mensais

65044

Taxa de Rejeição

51.34%

Média de Páginas por Visita

1.3

Duração Média da Visita

00:00:26

LLaVA-OneVision Tendência de Visitas

LLaVA-OneVision Distribuição Geográfica das Visitas

LLaVA-OneVision Fontes de Tráfego

LLaVA-OneVision Alternativas

LLaVA-OneVision — Modelo de conversão eficiente para tarefas de visão multimodal

Imagem

•Multimodal•Reconhecimento Visual

732

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

Produtividade

•Multimodal•Modelo Generativo

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Seleção Internacional

•Inteligência Artificial•Programação

Gemini Robotics — Modelo robótico basado en Gemini 2.0, que lleva la IA al mundo físico, con capacidades visuales, lingüísticas y de movimiento.

Seleção Internacional

•Inteligencia artificial•Robótica

126

GO-1 — A Zhiyuan lançou o primeiro modelo de base de incorporação universal GO-1, propondo inovadoramente a arquitetura ViLLA, impulsionando o desenvolvimento da inteligência incorporada.

Seleção Nacional

•Inteligência Embodied•Multimodal

150

OpenAI Agents SDK — O OpenAI Agents SDK é um kit de desenvolvimento para construir agentes autônomos, simplificando a orquestração de fluxos de trabalho com múltiplos agentes.

Seleção Internacional

•Inteligência Artificial•Agentes

234

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

Seleção Internacional

•Inteligência Artificial•Modelo de Linguagem

144

UniTok — UniTok é um tokenizador visual unificado para geração e compreensão visual.

Imagem

•Inteligência Artificial•Geração Visual

120

Migician — Migician é um modelo de linguagem grande multimodal focado na localização de imagens múltiplas, capaz de realizar localização precisa de imagens múltiplas de forma livre.

Imagem

•Multimodal•Localização de Imagens

180

Mochii AI — Mochii AI é um ecossistema de inteligência artificial personalizado, com suporte de modelos de ponta, que impulsiona o futuro da colaboração entre humanos e IA.

Seleção Nacional

•Inteligência Artificial•Ferramenta de Produtividade

150

TheoremExplainAgent — TheoremExplainAgent é um sistema inteligente usado para gerar vídeos explicativos multimodais de teoremas.

Educação

•Inteligência Artificial•Educação

ZeroBench — ZeroBench é um benchmark visual de alta dificuldade para modelos multimodais de grande porte contemporâneos.

Imagem

•Multimodal•Benchmark

300

VideoRAG — VideoRAG é uma estrutura de geração aprimorada por recuperação para processamento de vídeos de contexto extremamente longo.

Vídeo

•Compreensão de vídeo•Recuperação aprimorada

174

OmniHuman-1 — OmniHuman-1 é uma estrutura multimodal baseada em uma única imagem de rosto e sinais de movimento para gerar vídeos humanos.

Vídeo

•Inteligência Artificial•Geração de Vídeo

5736

MILS — LLMs podem ver e ouvir sem nenhum treinamento prévio.

Imagem

•Inteligência Artificial•Multimodal

198

Janus-Pro-7B — Janus-Pro-7B é uma nova estrutura autoregressiva que unifica a compreensão e a geração multimodais.

Imagem

•Multimodal•Geração de Imagens

1200

O Último Exame da Humanidade — O Último Exame da Humanidade é um benchmark multimodal usado para avaliar a capacidade de modelos de linguagem de grande porte.

Outros

•Inteligência Artificial•Benchmark

234

UI-TARS — UI-TARS é um modelo de agente GUI nativo de próxima geração usado para automatizar a interação com interfaces gráficas do usuário.

Seleção Nacional

•Inteligência Artificial•Automação

3912

MinMo — MinMo é um modelo de linguagem grande multimodário para interação de voz perfeita.

Chat

•Interação de voz•Multimodal

252

Albus IA — Espaço de trabalho de IA multifuncional, com assistente de voz em tempo real e tela multimodais para auxiliar na criação e no pensamento eficientes.

Produtividade

•Inteligência Artificial•Voz em Tempo Real

180

Moondream AI — Modelo de linguagem visual de código aberto, executável em diversos dispositivos.

Outros

•Inteligência Artificial•Código Aberto

288

DiffSensei — Modelo de geração de mangás personalizado, que conecta LLMs multimodais e modelos de difusão.

Imagem

•Geração de Mangá•Multimodal

1002

InternVL2_5-4B-MPO-AWQ — Modelo de linguagem grande multimodal, otimizado para interação imagem-texto.

Imagem

•Multimodal•Modelo de Linguagem Grande

210

Valley 2.0 — Modelo de linguagem grande multi-modal, aprimora a capacidade de processamento de dados de texto, imagem e vídeo.

Outros

•Multimodal•Modelo de Linguagem Grande

372

Ideal Estudante — Seu assistente inteligente, sempre com você.

Seleção Nacional

•Inteligência Artificial•Perguntas e Respostas

1458

Valley — Modelo multimodal de larga escala, processando dados de texto, imagem e vídeo.

Imagem

•Multimodal•Modelo de Larga Escala

348

FlagAI — Projeto de código aberto de algoritmos, modelos e ferramentas de otimização de modelos de linguagem grandes (LLMs) - uma solução completa.

Programação

•Inteligência Artificial•Modelos de Linguagem Grandes (LLMs)

198

Infini-Megrez — Modelo de compreensão multimodal de ponta a ponta, com sinergia de hardware e software para liberar a inteligência de ponta a ponta.

Produtividade

•Inteligência Artificial•Aprendizado Profundo

246

WePOINTS — O projeto WePOINTS fornece uma estrutura unificada para modelos multimodais.

Programação

•Multimodal•Inteligência Artificial

168

InternVL 2.5 — Série de modelos de linguagem grandes multimodais de código aberto

Produtividade

•Multimodal•Modelo de Linguagem Grande

282