Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas MCP

Google lanza PaLI-3, un nuevo modelo de lenguaje visual con un rendimiento potente y menos parámetros

学术头条

Publicado elNoticias de IA · 2 minutos de lectura · Oct 19, 2023

Recientemente, el equipo de investigación de Google presentó PaLI-3, un nuevo modelo de lenguaje visual. A pesar de tener menos parámetros que modelos de mayor tamaño, PaLI-3 ofrece un rendimiento superior. La investigación utiliza un codificador de imágenes preentrenado de forma contrastiva, lo que permite a PaLI-3 destacar en diversas tareas de localización y comprensión de texto. PaLI-3 ha logrado los mejores resultados en varios conjuntos de datos de preguntas y respuestas visuales, demostrando una potente capacidad de comprensión multimodal. El estudio comparó el preentrenamiento clasificatorio con el preentrenamiento contrastivo, descubriendo que este último permite crear modelos de lenguaje visual más eficientes.

modelo de lenguaje visual Google PaLI-3

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Boletín diario de IA: Kunlun Wanwei lanza modelos de código abierto Skywork-OR1; la plataforma de desarrollo de agentes iFLYTEK StarAgent admite completamente MCP; Kimi lanza el modelo de lenguaje visual de código abierto Kimi-VL

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de los productos de IA. Más información sobre nuevos productos de IA: https://top.aibase.com/1、Kimi lanza el modelo de lenguaje visual de código abierto Kimi-VL y Kimi-VL-Thinking, superando a GPT-4 en varios puntos de referencia. Moonshot AI recientemente lanzó código abierto

Apr 14, 2025

Kimi-VL y Kimi-VL-Thinking, modelos de lenguaje visual de código abierto, superan a GPT-4o en varios benchmarks

Los modelos de lenguaje visual de código abierto Kimi-VL y Kimi-VL-Thinking han superado a GPT-4o en varias pruebas de referencia. Estos modelos representan un avance significativo en el campo de la inteligencia artificial, combinando la capacidad de procesamiento del lenguaje natural con la comprensión de imágenes.

Apr 14, 2025

Google lanza PaliGemma 2 Mix, un nuevo modelo de lenguaje visual con múltiples funciones para desarrolladores

Recientemente, Google anunció el lanzamiento de un nuevo modelo de lenguaje visual (VLM), llamado PaliGemma2Mix. Este modelo combina las capacidades de procesamiento de imágenes y procesamiento de lenguaje natural, pudiendo comprender simultáneamente información visual y entrada de texto, y generar la salida correspondiente según sea necesario. Esto marca un nuevo avance en el procesamiento de múltiples tareas dentro de la inteligencia artificial. PaliGemma2Mix ofrece funciones muy potentes, incluyendo la descripción de imágenes, el reconocimiento óptico de caracteres

Feb 20, 2025

2.5k

IBM lanza Granite-Vision-3.1-2B, un modelo de lenguaje visual que facilita el análisis de documentos complejos

Con el continuo avance de la inteligencia artificial, la fusión de datos visuales y de texto se ha convertido en un desafío complejo. Los modelos tradicionales suelen tener dificultades para analizar con precisión documentos visuales estructurados como tablas, gráficos, infografías e ilustraciones. Esta limitación afecta la capacidad de extracción y comprensión automática de contenido, lo que a su vez impacta en aplicaciones como el análisis de datos, la recuperación de información y la toma de decisiones. Para abordar esta necesidad, IBM ha lanzado recientemente Granite-Vision-3.1-2B, un modelo de lenguaje visual pequeño diseñado específicamente para la comprensión de documentos.

Feb 8, 2025

2.5k

La tecnología VLA lidera la carrera de la conducción autónoma, Nvidia ayuda a las empresas emergentes a ganar cuota de mercado rápidamente

En la industria de la conducción autónoma, 2025 se considera el "año de la llegada de VLA", lo que marca el surgimiento de un nuevo paradigma tecnológico. VLA, o Modelo de Visión-Lenguaje-Acción (Vision-Language-Action Model), fue propuesto inicialmente por DeepMind en 2023, con el objetivo de mejorar la comprensión y capacidad de respuesta de los robots al entorno. En los últimos años, esta tecnología ha recibido una gran atención en el campo de la conducción autónoma. En comparación con los modelos tradicionales de visión-lenguaje (VLM), VLA

Jan 25, 2025

2.3k

NVIDIA lanza NVILA, un nuevo modelo de lenguaje visual que supera a GPT-4o Mini y Llama 3.2

Recientemente, NVIDIA presentó NVILA, su nuevo modelo de lenguaje visual abierto. Diseñado para optimizar la precisión y la eficiencia, NVILA se ha establecido como un líder en el campo de la IA visual gracias a su rendimiento excepcional. Según NVIDIA, NVILA reduce en 4,5 veces el coste de entrenamiento, en 3,4 veces la memoria necesaria para el ajuste fino y casi en 2 veces la latencia en el relleno previo y la decodificación. Estas cifras se basan en comparaciones con otro gran modelo de visión LLaVa OneVision. En el benchmark de vídeo...

Dec 9, 2024

3.4k

NVIDIA presenta NVEagle, un nuevo modelo de lenguaje visual que puede conversar contigo a partir de imágenes

NVIDIA, en colaboración con varias universidades, ha presentado NVEagle, un gran modelo de lenguaje visual capaz de mantener conversaciones a partir de imágenes. NVEagle puede analizar el contenido de las imágenes y proporcionar respuestas precisas, como identificar a la persona en una imagen como Jensen Huang. El modelo mejora significativamente la comprensión de la información visual al convertir las imágenes en etiquetas visuales y combinarlas con incrustaciones de texto. Para abordar el desafío del procesamiento de imágenes de alta resolución, el equipo de investigación exploró diferentes codificadores visuales y estrategias de fusión, creando modelos como Eagle-X5-7B y Eagle-X

Sep 2, 2024

2.8k

Google AI lanza ScreenAI: un modelo de lenguaje visual para interpretar interfaces de usuario e infografías

El equipo de Google AI presentó ScreenAI, un modelo de lenguaje visual capaz de comprender completamente las interfaces de usuario y las infografías. ScreenAI destaca en múltiples tareas, incluyendo preguntas y respuestas sobre gráficos, anotación de elementos y generación de resúmenes. El equipo publicó tres nuevos conjuntos de datos para proporcionar más recursos para futuras investigaciones. Al aprovechar el lenguaje visual común y los diseños complejos, ScreenAI ofrece un método integral para comprender el contenido digital.

Feb 21, 2024

700

CogAgent: Nuevo modelo de lenguaje visual desarrollado por la Universidad Tsinghua para una comprensión y navegación GUI mejoradas

El equipo de IA de la Universidad Tsinghua ha lanzado CogAgent, un nuevo modelo de lenguaje visual centrado en la comprensión y navegación de interfaces gráficas de usuario (GUI). CogAgent emplea un sistema de doble codificador para procesar elementos GUI y texto complejos, mostrando un rendimiento excepcional con entradas de alta resolución de 1120x1120 píxeles. El modelo supera a los métodos LLM existentes en tareas de navegación GUI en plataformas PC y Android, y también muestra un rendimiento excelente en los benchmarks de preguntas y respuestas de texto y visión. Las aplicaciones potenciales incluyen la automatización de GUI.

Dec 27, 2023

1.1k

Google AI y la UC Berkeley presentan PixelLLM, un modelo de lenguaje visual

Google AI y la Universidad de California presentan PixelLLM, un modelo de lenguaje visual que aborda los desafíos de localización y alineación en los grandes modelos de lenguaje. PixelLLM establece una alineación densa entre cada palabra de salida del modelo de lenguaje y la posición de los píxeles, resolviendo con éxito los desafíos de los grandes modelos de lenguaje en tareas de localización. En tareas visuales, PixelLLM muestra un rendimiento excepcional, incluyendo descripciones de objetivos densas, descripciones condicionales de posición y localización de referencias. Este logro representa un avance significativo en el campo de los grandes modelos de lenguaje, allanan el camino para...

Dec 19, 2023

660