MMStar

Um conjunto de testes de referência de elite para avaliar grandes modelos de linguagem visual.

Produto ComumProdutividadeModelos de linguagem visualTestes de referência

O MMStar é um conjunto de testes de referência projetado para avaliar a capacidade multimodal de grandes modelos de linguagem visual. Ele contém 1500 amostras cuidadosamente selecionadas de linguagem visual, cobrindo 6 capacidades principais e 18 dimensões específicas. Cada amostra foi revisada manualmente para garantir a dependência visual, minimizar vazamentos de dados e exigir capacidades multimodais avançadas para resolução. Além dos indicadores tradicionais de precisão, o MMStar propõe dois novos indicadores para medir o vazamento de dados e o ganho de desempenho real do treinamento multimodal. Os pesquisadores podem usar o MMStar para avaliar a capacidade multimodal de modelos de linguagem visual em várias tarefas e, com a ajuda dos novos indicadores, identificar problemas potenciais nos modelos.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

MMStar

MMStar Situação do Tráfego Mais Recente

MMStar Tendência de Visitas

MMStar Distribuição Geográfica das Visitas

MMStar Fontes de Tráfego

MMStar Alternativas

MMStar — Um conjunto de testes de referência de elite para avaliar grandes modelos de linguagem visual.

Visual Sketchpad — Ferramenta de raciocínio visual para modelos de linguagem multimodal.

MouSi — Modelo de linguagem visual multimodal

Modelo de Linguagem Multimodal Spirit LM — Modelo de linguagem multimodal que integra texto e fala.

Griffon — Modelo de Linguagem de Grande Visão (LVLM) multimodal de alta resolução

Localizador de Referências da Custom Writings — Encontre fontes de referência confiáveis

Cantor — Estrutura inovadora de raciocínio em cadeia multimodal que melhora a capacidade de raciocínio visual

Planejamento de Linguagem de Vídeo — Planejamento visual para tarefas complexas e de longo prazo

Modelo de Pensamento Visual Kimi k1 — Modelo de pensamento visual baseado em aprendizado por reforço, líder do setor em testes de ciências.

Ambiente de Testes LLM — Uma plataforma interativa para carregar e testar modelos de linguagem grandes.

InternVL2_5-26B — Modelo de linguagem grande multimodal, integrando compreensão visual e linguística.

Tabela de Modelos — Lista detalhada e informações sobre modelos de linguagem de grande porte

POINTS-Qwen-2-5-7B-Chat — Avanços recentes em modelos de linguagem visual

MM1.5 — Otimização e Análise de Modelos de Linguagem Grandes Multimodais

OpenCompass 2.0 - Ranking de Modelos de Linguagem de Grande Porte — Ranking de modelos de linguagem de grande porte, com avaliação de desempenho em tempo real.

RealFill — Geração de preenchimento de imagem real baseada em referência

Florence-VL — Ferramenta de aprimoramento de modelos de linguagem visual, combinando codificador visual generativo e técnica de fusão profunda e ampla.

VSP-LLM — Estrutura que combina processamento visual de fala com modelos de linguagem grandes

Modelos de Linguagem de Recompensa Própria — Treinamento de modelos de linguagem com recompensas próprias

MiniCPM-o-2_6 — MiniCPM-o 2.6 é um poderoso modelo de linguagem grande multimodal, adequado para transmissão ao vivo visual, de voz e multimodal.

POINTS-Yi-1.5-9B-Chat — Avanço recente em modelos de linguagem visual, integrando novas tecnologias do WeChat AI.

vision-parse — Utiliza modelos de linguagem visual para analisar PDFs em Markdown.

LLaVA-o1 — Modelo de linguagem visual capaz de raciocínio passo a passo.

modelos-de-linguagem-grandes-autoadaptativos — Uma estrutura de modelo de linguagem grande que se adapta em tempo real a tarefas desconhecidas.

ZeroBench — ZeroBench é um benchmark visual de alta dificuldade para modelos multimodais de grande porte contemporâneos.

DriveVLM — Fusão de modelos de linguagem visual (VLMs) e direção autônoma

ml-ferret — Modelo de linguagem de aprendizado de máquina (MLLM) de ponta a ponta, que permite referência e localização precisas.

Verificação de Visão — Estudar as relações entre strings em modelos de linguagem, verificando o mundo visual.

Moondream AI — Modelo de linguagem visual de código aberto, executável em diversos dispositivos.

Modelos Mundiais de Grande Escala — Modelos Mundiais de Grande Escala: Compreendendo Vídeo e Linguagem

MMStar

MMStar Situação do Tráfego Mais Recente

MMStar Tendência de Visitas

MMStar Distribuição Geográfica das Visitas

MMStar Fontes de Tráfego

MMStar Alternativas

MMStar — Um conjunto de testes de referência de elite para avaliar grandes modelos de linguagem visual.

Visual Sketchpad — Ferramenta de raciocínio visual para modelos de linguagem multimodal.

MouSi — Modelo de linguagem visual multimodal

Modelo de Linguagem Multimodal Spirit LM — Modelo de linguagem multimodal que integra texto e fala.

Griffon — Modelo de Linguagem de Grande Visão (LVLM) multimodal de alta resolução

Localizador de Referências da Custom Writings — Encontre fontes de referência confiáveis

Cantor — Estrutura inovadora de raciocínio em cadeia multimodal que melhora a capacidade de raciocínio visual

Planejamento de Linguagem de Vídeo — Planejamento visual para tarefas complexas e de longo prazo