Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas MCP

Nuevo método de indicaciones visuales SoM para mejorar la precisión y el detalle de GPT-4V

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Oct 23, 2023

Los investigadores han presentado un nuevo método de indicaciones visuales llamado SoM, que mejora el rendimiento de GPT-4V, el modelo multimodal de OpenAI, en tareas visuales de grano fino. SoM utiliza un modelo de segmentación interactiva para dividir la imagen en diferentes regiones y añadir etiquetas a cada una. De esta manera, GPT-4V puede comprender mejor los objetos y las relaciones espaciales dentro de la imagen, superando en varias tareas visuales a modelos especializados y otros modelos multimodales de código abierto. Este estudio demuestra el potencial de GPT-4V en tareas visuales de grano fino.

GPT-4V Indicaciones visuales Modelo multimodal

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Qwen VLo, el modelo de comprensión y generación multimodal unificado de Tongyi Qianwen

Recientemente, se lanzó oficialmente el modelo de gran dimensión multimodal Qwen VLo, logrando avances significativos en la comprensión y generación de contenido visual, brindando a los usuarios una nueva experiencia de creación visual. Según información proporcionada, Qwen VLo ha sido completamente actualizado basándose en las ventajas de la serie de modelos Qwen-VL anteriores. Este modelo no solo puede comprender 'el mundo' con precisión, sino que también puede realizar una recreación de alta calidad basada en esa comprensión, logrando así una transición real de la percepción a la generación. Los usuarios ahora pueden utilizar Qwen Chat (chat.qwen.ai)

Jun 28, 2025

¡Noticia importante! El primer gran modelo de código abierto en el mar de China, Cangyuan, ha aparecido, impulsando la era de la inteligencia oceánica

El primer modelo grande de código abierto en el ámbito marino de China, OceanGPT (Cangyuan), fue oficialmente lanzado en Hangzhou, Zhejiang. Este logro innovador fue desarrollado liderado por el Laboratorio Nacional de Tecnología de Percepción Oceánica Precisa de la Universidad de Zhejiang, marcando un importante paso adelante en el campo de la tecnología oceánica de China. OceanGPT tiene la capacidad básica de responder preguntas sobre conocimientos oceánicos, y puede interpretar datos multimodales como imágenes de sonar y mapas de observación oceánica mediante lenguaje natural. Esta habilidad permite que OceanGPT se desempeñe bien al manejar datos oceánicos complejos. Este modelo también utiliza

Jun 27, 2025

460

Diario de IA del 27 de junio: Tencent libera como código abierto el modelo Huyuan-A13B ligero; Keling AI lanzará una función de efectos de sonido para videos

¡Bienvenido a la sección 【Diario de IA】 de AIbase! Tres minutos al día para conocer las principales noticias del día sobre IA, ayuda a comprender las tendencias del sector de la IA y las aplicaciones innovadoras de productos de IA. Más información sobre IA en: https://www.aibase.com/zh1. El modelo Huyuan-A13B ligero de Tencent se libera como código abierto, se puede implementar con una sola tarjeta de GPU de gama media o baja. Tencent ha lanzado un nuevo miembro de la familia de modelos de gran tamaño Huyuan, el modelo Huyuan-A13B, que utiliza una arquitectura de mezcla de expertos (MoE), con un tamaño total de parámetros de 80 mil millones y 13 mil millones de parámetros activados, grandes

Jun 27, 2025

Tencent libera un modelo ligero de HuanYuan-A13B, se puede implementar con una sola tarjeta GPU de gama media-baja

Tencent presenta oficialmente y libera un nuevo miembro de la familia de modelos grandes HuanYuan: el modelo HuanYuan-A13B. Este modelo utiliza una arquitectura basada en expertos mezclados (MoE), con un tamaño total de parámetros de 80 mil millones y parámetros activados de 13 mil millones. Mantiene el rendimiento de los modelos de código abierto de vanguardia, pero reduce significativamente el retraso de razonamiento y los costos computacionales, ofreciendo una solución de IA más rentable para desarrolladores individuales y pequeñas y medianas empresas.

Jun 27, 2025

OpenAI lanza un nuevo modelo de la API Deep Research: o3/o4-mini-deep research

Jun 27, 2025

¡Noticia importante! Google libera el modelo multimodal Gemma3n, ahora se puede ejecutar en un teléfono con rendimiento de inteligencia artificial en la nube

Jun 27, 2025

Gemini reemplazará a Google Assistant, ¡llega un nuevo modelo de protección de privacidad!

Jun 27, 2025

FLUX.1 Kontext de Black Forest sorprende al abrir su código fuente: edición de imágenes rival de GPT-4o

Black Forest Labs anunció oficialmente que su nuevo modelo de edición de imágenes FLUX.1Kontext [dev] ahora es de código abierto, lo que ha generado gran atención en la comunidad de IA. Este modelo, el último miembro de la serie FLUX.1, es reconocido por sus poderosas capacidades de edición de imágenes y rendimiento eficiente, convirtiéndolo en una alternativa de código abierto comparable a GPT-4o. FLUX.1Kontext [dev] se basa en una arquitectura de transformador de coincidencia de flujo de 1.200 millones de parámetros, diseñada específicamente para tareas de edición de imágenes, y admite hardware de nivel de consumo.

Jun 27, 2025

OpenAI mejora significativamente: se abre la API del modelo de investigación profunda. La función de búsqueda en la web se reduce considerablemente en precio

OpenAI anunció oficialmente el acceso a la API de su modelo de investigación profunda, proporcionando a los desarrolladores un conjunto de herramientas poderosas que incluyen búsqueda automática en la web, análisis de datos, MCP (Protocolo de Comunicación de Modelos) y ejecución de código. Los modelos abiertos incluyen las versiones profundas de o3 y o4-mini, que ya se habían utilizado en ChatGPT, ahora los desarrolladores pueden llamarlos directamente a través de la API. Estos modelos son especialmente adecuados para tareas complejas que requieren obtener información actualizada y realizar razonamientos avanzados. En cuanto a la expansión de funciones, o3,

Jun 27, 2025

¡Llegó un nuevo poder abierto! FLUX.1 Kontext [dev] desafía a GPT-4o, entrando en una nueva era de edición de imágenes

Jun 27, 2025