Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Phi-3.5-vision

Modelo multimodal avançado, suporta compreensão de imagens e texto.

Produto ComumProgramaçãoMultimodalCompreensão de Imagens

Abrir Site

Phi-3.5-vision é um modelo multimodal leve e de última geração desenvolvido pela Microsoft, construído com base em conjuntos de dados que incluem dados sintéticos e sites publicamente disponíveis e filtrados, focando em dados de raciocínio denso e de alta qualidade para texto e visão. Este modelo pertence à família de modelos Phi-3 e passou por um rigoroso processo de aprimoramento, combinando ajuste fino supervisionado e otimização de preferência direta para garantir o seguimento preciso de instruções e fortes medidas de segurança.

Abrir Site

Phi-3.5-vision Situação do Tráfego Mais Recente

Total de Visitas Mensais

25296546

Taxa de Rejeição

43.31%

Média de Páginas por Visita

5.8

Duração Média da Visita

00:04:45

Phi-3.5-vision Tendência de Visitas

Phi-3.5-vision Distribuição Geográfica das Visitas

Phi-3.5-vision Fontes de Tráfego

Phi-3.5-vision Alternativas

Qwen2-VL-2B — Modelo de linguagem visual de ponta, com suporte para compreensão multimodal e geração de texto.

Imagem

•Modelo de Linguagem Visual•Multimodal

174

Phi-3.5-vision — Modelo multimodal avançado, suporta compreensão de imagens e texto.

Programação

•Multimodal•Compreensão de Imagens

312

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

Produtividade

•Multimodal•Modelo Generativo

SmolVLM2 — SmolVLM2 é um modelo de linguagem leve focado na análise e geração de conteúdo de vídeo.

Vídeo

•Análise de vídeo•Geração de texto

204

Magma-8B — Magma-8B é um modelo de IA multimodal lançado pela Microsoft, capaz de processar entradas de imagem e texto e gerar saídas de texto.

Imagem

•Multimodal•IA

156

SmolVLM-256M-Instruct — SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.

Imagem

•Multimodal•Processamento de Imagens

228

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

Vídeo

•Multimodal•Compreensão de Vídeo

294

InternVL2_5-38B-MPO — Modelo da série InternVL2.5-MPO, baseado no InternVL2.5 e otimização de preferência mista, apresentando desempenho excepcional.

Chat

•Multimodal•Modelo de linguagem grande

354

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

Imagem

•Modelo de linguagem visual•Multimodal

192

Pixtral Large — Modelo de IA multimodal de ponta, oferecendo compreensão de imagens e texto.

Seleção Internacional

•IA•Multimodal

300

ultravox-v0_4_1-llama-3_1-70b — Modelo de linguagem grande multimodal de voz

Produtividade

•Reconhecimento de Voz•Geração de Texto

210

Aquila-VL-2B-llava-qwen — Modelo de linguagem visual que combina informações de imagem e texto para processamento inteligente.

Imagem

•Modelo de Linguagem Visual•Multimodal

216

Ferret-UI-Llama8b — Modelo de linguagem grande multimodais baseado em Llama-3-8B, focado em tarefas de interface de usuário.

Programação

•Multimodal•Modelo de Linguagem Grande

330

MM1.5 — Otimização e Análise de Modelos de Linguagem Grandes Multimodais

Produtividade

•Multimodal•Modelo de Linguagem Grande

234

Pixtral-12B-2409 — Modelo multimodal de 12B parâmetros, combinando um codificador visual para processar imagens e texto.

Produtividade

•Multimodal•Processamento de Imagens

228

mPLUG-Owl3 — Modelo de linguagem grande multimodal que compreende sequências longas de imagens.

Imagem

•Multimodal•Compreensão de imagens

288

MiniCPM-V 2.6 — Modelo de linguagem multimodal de alto desempenho, adequado para compreensão de imagens e vídeos.

Imagem

•Multimodal•Compreensão de Imagens

354

CogVLM2 — Modelo de diálogo pré-treinado multimodais de segunda geração

Produtividade

•Multimodal•Modelo Pré-treinado

618

Falcon 2 — Falcon 2 é um modelo de linguagem grande (LLM),开源、 multilíngue e multimodal, com capacidade de conversão de imagem para texto.

Produtividade

•IA•Código Aberto

492

PaliGemma — Modelo de linguagem visual de ponta e código aberto do Google

Imagem

•Modelo de linguagem visual•Compreensão de imagens

348

idefics-80b — Modelo multimodal universal, utilizável para perguntas e respostas, descrição de imagens e outras tarefas.

Produtividade

•IA•Multimodal

618

Prévia do Grok-1.5 Vision — O primeiro modelo multimodal que conecta o mundo digital e o físico

Produtividade

•Multimodal•IA

1218

MiniGemini — Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

Programação

•Multimodal•Modelo de linguagem visual

2538

GLM-4-32B — Modelo de linguagem poderoso, que suporta diversas tarefas de processamento de linguagem natural.

Seleção Nacional

•Processamento de Linguagem Natural•Aprendizado Profundo

InternVL3 — InternVL3 de código abierto: 7 tamaños que cubren el procesamiento de texto, imágenes y video; capacidad multimodal extendida al análisis de imágenes industriales

Produtividade

•IA•Multimodal

Kimi-VL — Modelo de linguagem visual híbrido de especialista de código aberto eficiente, com capacidade de raciocínio multimodal.

Seleção Nacional

•Multimodal•Raciocínio

Dream 7B — Dream 7B é o mais poderoso modelo de linguagem grande de difusão aberta.

Produtividade

•Modelo de difusão•Modelo de linguagem grande

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Phi-3.5-vision

Phi-3.5-vision Situação do Tráfego Mais Recente

Phi-3.5-vision Tendência de Visitas

Phi-3.5-vision Distribuição Geográfica das Visitas

Phi-3.5-vision Fontes de Tráfego

Phi-3.5-vision Alternativas

Qwen2-VL-2B — Modelo de linguagem visual de ponta, com suporte para compreensão multimodal e geração de texto.

Phi-3.5-vision — Modelo multimodal avançado, suporta compreensão de imagens e texto.

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

SmolVLM2 — SmolVLM2 é um modelo de linguagem leve focado na análise e geração de conteúdo de vídeo.

Magma-8B — Magma-8B é um modelo de IA multimodal lançado pela Microsoft, capaz de processar entradas de imagem e texto e gerar saídas de texto.

SmolVLM-256M-Instruct — SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

InternVL2_5-38B-MPO — Modelo da série InternVL2.5-MPO, baseado no InternVL2.5 e otimização de preferência mista, apresentando desempenho excepcional.

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

Pixtral Large — Modelo de IA multimodal de ponta, oferecendo compreensão de imagens e texto.

ultravox-v0_4_1-llama-3_1-70b — Modelo de linguagem grande multimodal de voz

Aquila-VL-2B-llava-qwen — Modelo de linguagem visual que combina informações de imagem e texto para processamento inteligente.

Ferret-UI-Llama8b — Modelo de linguagem grande multimodais baseado em Llama-3-8B, focado em tarefas de interface de usuário.

MM1.5 — Otimização e Análise de Modelos de Linguagem Grandes Multimodais

Pixtral-12B-2409 — Modelo multimodal de 12B parâmetros, combinando um codificador visual para processar imagens e texto.

mPLUG-Owl3 — Modelo de linguagem grande multimodal que compreende sequências longas de imagens.

MiniCPM-V 2.6 — Modelo de linguagem multimodal de alto desempenho, adequado para compreensão de imagens e vídeos.

CogVLM2 — Modelo de diálogo pré-treinado multimodais de segunda geração

Falcon 2 — Falcon 2 é um modelo de linguagem grande (LLM),开源、 multilíngue e multimodal, com capacidade de conversão de imagem para texto.

PaliGemma — Modelo de linguagem visual de ponta e código aberto do Google

idefics-80b — Modelo multimodal universal, utilizável para perguntas e respostas, descrição de imagens e outras tarefas.

Prévia do Grok-1.5 Vision — O primeiro modelo multimodal que conecta o mundo digital e o físico

MiniGemini — Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

TinyGPT-V — Modelo de linguagem grande e multimodal eficiente

Fuyu-8B — Modelo multimodal pequeno, que suporta geração de imagens e texto

SEED — Capacita o LLM a visualizar e a criar imagens.

GLM-4-32B — Modelo de linguagem poderoso, que suporta diversas tarefas de processamento de linguagem natural.

InternVL3 — InternVL3 de código abierto: 7 tamaños que cubren el procesamiento de texto, imágenes y video; capacidad multimodal extendida al análisis de imágenes industriales

Kimi-VL — Modelo de linguagem visual híbrido de especialista de código aberto eficiente, com capacidade de raciocínio multimodal.

Dream 7B — Dream 7B é o mais poderoso modelo de linguagem grande de difusão aberta.