Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas MCP

Lanzamiento del próximo codificador de visión de código abierto OpenVision: Una poderosa alternativa más allá de CLIP y SigLIP

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · May 13, 2025

La Universidad de California en Santa Cruz (UC Santa Cruz) anunció recientemente el lanzamiento de OpenVision, una nueva serie de codificadores visuales diseñados para ofrecer alternativas a modelos como los de OpenAI (CLIP) y Google (SigLIP). La introducción de OpenVision brinda a desarrolladores y empresas más flexibilidad y opciones, haciendo que el procesamiento e interpretación de imágenes sea más eficiente.

¿Qué son los Codificadores Visuales?

Los codificadores visuales son modelos de IA que convierten materiales visuales (generalmente imágenes estáticas cargadas) en datos numéricos que otros modelos no visuales (como grandes modelos de lenguaje) pueden entender. Los codificadores visuales actúan como un puente crucial entre la comprensión de imágenes y texto, permitiendo que los grandes modelos de lenguaje identifiquen temas, colores, posiciones y otras características en las imágenes para un razonamiento e interacción más complejos.

Características Clave de OpenVision

1. **Opciones de Modelo Diversas**

OpenVision proporciona 26 modelos diferentes con tamaños de parámetros que van desde 5.9 millones hasta 632 millones. Esta diversidad permite a los desarrolladores elegir modelos adecuados según escenarios específicos de aplicación, ya sea identificar imágenes en sitios de construcción o brindar orientación de solución de problemas para electrodomésticos.

2. **Arquitectura de Implementación Flexible**

OpenVision está diseñado para adaptarse a diversos escenarios de uso. Los modelos más grandes son adecuados para cargas de trabajo a nivel de servidor, requiriendo alta precisión y comprensión visual detallada, mientras que las variantes más pequeñas están optimizadas para computación en el borde, ideales para entornos con limitaciones de cómputo y memoria. Además, los modelos admiten tamaños de parche adaptativos (8×8 y 16×16), permitiendo compromisos flexibles entre resolución de detalle y carga computacional.

3. **Rendimiento Sobresaliente en Pruebas Multimodales**

En una serie de pruebas de referencia, OpenVision demostró un excelente desempeño en diversas tareas visuales de lenguaje. Aunque la evaluación de OpenVision aún incluye benchmarks tradicionales de CLIP (como ImageNet y MSCOCO), el equipo de investigación enfatizó que estos métricos no deben ser confiados únicamente para evaluar el rendimiento del modelo. Recomendaron adoptar una cobertura más amplia de benchmarks y protocolos de evaluación abiertos para reflejar mejor las aplicaciones multimodales del mundo real.

4. **Estrategia de Entrenamiento Progresiva Eficiente**

OpenVision emplea una estrategia de entrenamiento progresivo de resolución donde el modelo comienza a entrenarse en imágenes de baja resolución y se afinan gradualmente hacia resoluciones más altas. Este método mejora la eficiencia del entrenamiento, generalmente 2 a 3 veces más rápido que CLIP y SigLIP, sin sacrificar el rendimiento en tareas posteriores.

5. **Sistemas Optimizados Ligeros y Aplicaciones en Computación en el Borde**

OpenVision también busca combinar efectivamente con modelos de lenguaje pequeños. En un experimento, el codificador visual se combinó con un modelo Smol-LM de 1.5 millones de parámetros, creando un modelo multimodal con un recuento total de parámetros por debajo de 2.5 millones. A pesar de su pequeño tamaño, este modelo mantuvo un buen rendimiento en tareas como respuesta a preguntas visuales y comprensión de documentos.

La Importancia de las Aplicaciones Empresariales

El enfoque integral de código abierto y desarrollo modular de OpenVision tiene un significado estratégico importante para los tomadores de decisiones tecnológicas en las empresas. No solo proporciona capacidades visuales de alto rendimiento listas para usar a los grandes modelos de lenguaje, sino que también asegura la confidencialidad de los datos propietarios de las empresas. Además, la arquitectura transparente de OpenVision permite que los equipos de seguridad monitoreen y evalúen posibles vulnerabilidades en el modelo.

La biblioteca de modelos de OpenVision ahora está disponible en implementaciones de PyTorch y JAX y puede descargarse de Hugging Face. Las recetas de entrenamiento también han sido puestas a disposición del público. Al ofrecer alternativas transparentes, eficientes y escalables, OpenVision proporciona a investigadores y desarrolladores una base flexible para impulsar el desarrollo de aplicaciones visión-lenguaje.

Proyecto: https://ucsc-vlaa.github.io/OpenVision/

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily