ViTMatte

Sistema de recorte de imágenes basado en transformadores visuales puros preentrenados

Producto ComúnImagenRecorte de imágenesTransformadores visuales

ViTMatte es un sistema de recorte de imágenes basado en transformadores visuales puros preentrenados (Plain Vision Transformers, ViTs). Utiliza un mecanismo de atención mixto y un cuello convolucional para optimizar el equilibrio entre rendimiento y cómputo, e introduce un módulo de captura de detalles para complementar la información detallada necesaria para el recorte. ViTMatte es el primer trabajo que libera el potencial de los ViT en el campo del recorte de imágenes mediante una adaptación sencilla, heredando las ventajas de los ViT en estrategias de preentrenamiento, diseño de arquitectura simple y estrategias de inferencia flexibles. En las dos pruebas de referencia más utilizadas para recorte de imágenes, Composition-1k y Distinctions-646, ViTMatte ha alcanzado el rendimiento más avanzado, superando con una gran ventaja a los trabajos anteriores.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

ViTMatte

ViTMatte Situación del tráfico más reciente

ViTMatte Tendencia de visitas

ViTMatte Distribución geográfica de las visitas

ViTMatte Fuentes de tráfico

ViTMatte Alternativas

ViTMatte — Sistema de recorte de imágenes basado en transformadores visuales puros preentrenados

Magma — Magma es un modelo base capaz de comprender y ejecutar entradas multimodales, utilizable en tareas y entornos complejos.

timesfm-2.0-500m-pytorch — Modelo de predicción de series temporales preentrenado desarrollado por Google Research.

OpenEMMA — Modelo multimodal de conducción autónoma de extremo a extremo de código abierto

ModernBERT-base — Modelo codificador bidireccional eficiente para el procesamiento de textos largos

SynCamMaster — Tecnología de generación de video sincrónico multiperspectiva

InternVL2_5-26B — Modelo de lenguaje grande multimodal que integra la comprensión visual y lingüística.

Meta Llama 3.3 — Modelo lingüístico extenso de preentrenamiento multilingüe de 70 000 millones de parámetros

ViTLP — Modelo de preentrenamiento de diseño de texto guiado por visión para la inteligencia de documentos

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — Modelo de lenguaje de código abierto para generación de código con 3200 millones de parámetros.

Qwen2.5-Coder-0.5B-Instruct — Modelo de generación de código de 0.5B parámetros con ajuste de instrucciones de la serie Qwen2.5-Coder

Qwen2.5-Coder-3B — Modelo de 3B parámetros de la serie Qwen2.5-Coder, enfocado en la generación y comprensión de código.

Informe técnico de Qwen2.5-Coder — Serie de informes técnicos de Qwen2.5-Coder

Aya Expanse-8b — Modelo de lenguaje grande multilingüe que admite 23 idiomas.

DTLR — Modelo de reconocimiento de escritura a mano y detección de caracteres

OLMoE — Modelo de lenguaje mixto de expertos de código abierto con 130 millones de parámetros activos.

OpenCity — Modelo base espacio-temporal de código abierto para la predicción del tráfico.

EXAONE-3.0-7.8B-Instruct — Modelo de generación de texto bilingüe con 780 millones de parámetros

Meta Llama 3.1-405B — Modelo de lenguaje grande preentrenado multilingüe

Index-1.9B-Pure — Modelo de lenguaje grande ligero, enfocado en la generación de texto.

Index-1.9B-Chat — Modelo de generación de diálogo basado en 1.900 millones de parámetros

Modelo de Extracción de Información Yayi — Modelo de extracción de información de alta calidad basado en datos a gran escala

Qwen2 — Modelo de preentrenamiento multilingüe de última generación con un rendimiento excepcional.

Serie GLM-4 — Modelo de diálogo multimodal y multilingüe de código abierto

CogVLM2 — Modelo de diálogo de preentrenamiento multimodal de segunda generación

Mixtral-8x22B — Un gran modelo de lenguaje basado en un modelo de expertos dispersos.

Qwen1.5-32B — Serie de modelos de lenguaje preentrenados basados en la arquitectura Transformer

Chronos — Modelo de predicción de series temporales preentrenado basado en la arquitectura de modelos lingüísticos.

Gemma-7B — Modelo lingüístico de Google con 7 mil millones de parámetros

Gemma-2b — Modelo de lenguaje preentrenado de código abierto lanzado por Google.