Diario de IA: Alibaba presenta el modelo multimodal Qwen3-Omni; Google lanza el protocolo AP2; Baidu presenta el modelo Qianfan-VL

Bienvenido al programa 【Diario de IA】! Aquí es tu guía para explorar el mundo de la inteligencia artificial cada día. Cada día, te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores, para que puedas comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh

1. Alibaba Cloud lanza el primer modelo de IA multimodal completo del mundo, Qwen3-Omni, capaz de procesar texto, imágenes, audio y video de forma unificada

Alibaba Cloud lanzó Qwen3-Omni, el primer modelo de IA multimodal nativo de extremo a extremo a nivel mundial, que soporta el procesamiento unificado de texto, imágenes, audio y video. Este modelo muestra un rendimiento avanzado en múltiples campos y está disponible como código abierto, permitiendo satisfacer las necesidades multilingües de usuarios globales.

【Resumen de AiBase:】
🌟 Qwen3-Omni es el primer modelo de IA multimodal nativo de extremo a extremo a nivel mundial, capaz de procesar texto, imágenes, audio y video de forma unificada.
🌐 El modelo admite 119 idiomas de texto y 19 tipos de entrada de voz, lo que permite satisfacer las necesidades multilingües de usuarios globales.
🖼️ La nueva versión Qwen-Image-Edit-2509 admite edición múltiple de imágenes, mejorando significativamente la coherencia y efectividad de la edición.
Enlace detallado: https://github.com/QwenLM/Qwen3-Omni huggingface: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

2. ¡Deséchale la preocupación de editar fotos! La función de edición múltiple de imágenes de Qwen-Image de Alibaba crea fácilmente anuncios profesionales

El artículo presenta una importante actualización en la herramienta de edición de imágenes de IA de Alibaba, Qwen-Image, incluyendo la nueva función de edición múltiple de imágenes, la incorporación de la tecnología de mapa de puntos clave de ControlNet y la expansión de aplicaciones a la creación de memes, ofreciendo soluciones más eficientes para la industria de comercio electrónico y marketing digital.

【Resumen de AiBase:】
🖼️ Nueva función de edición múltiple de imágenes, que permite combinaciones flexibles de personas + personas, personas + productos y personas + escenarios.
⚙️ Incorporación de la función de mapa de puntos clave de ControlNet, mejorando la precisión del control de posturas humanas.
🛒 Ampliación de aplicaciones, soporte para la creación de memes, apoyando la industria de comercio electrónico y marketing.
Enlace detallado: https://chat.qwen.ai/?inputFeature=image_edit

3. Baidu lanza el modelo Qianfan-VL, con modelos de diferentes tamaños que satisfacen diversas necesidades de escena

El equipo de inteligencia artificial de Baidu Cloud lanzó un nuevo modelo de comprensión visual, Qianfan-VL, que incluye tres tamaños: 3B, 8B y 70B, optimizado profundamente para aplicaciones empresariales multimodales. Qianfan-VL destaca en OCR, escenas educativas y resolución de problemas matemáticos, mostrando capacidades generales excelentes y un excelente rendimiento en tareas específicas en pruebas estándar.

【Resumen de AiBase:】
🧠 Modelos de diferentes tamaños que satisfacen diversas necesidades de escena.
📊 Los modelos de 8B y 70B tienen capacidad de razonamiento y pensamiento.
📄 Rendimiento excelente en OCR y comprensión de documentos.
Enlace detallado: https://baidubce.github.io/Qianfan-VL/

4. Google lanza el protocolo AP2, colabora con PayPal para abrir una nueva era de pagos con IA

El protocolo AP2 de Google proporciona un marco seguro y confiable para los pagos con IA, asegurando la legalidad y seguridad de las transacciones mediante un mecanismo de token de autorización, mientras colabora con PayPal para impulsar la innovación y aplicación de la IA en el ámbito de los pagos.

【Resumen de AiBase:】
🛒 El protocolo AP2 proporciona un mecanismo de autorización seguro para pagos con IA, garantizando la legalidad de las transacciones.
🤝 Google colabora con PayPal para impulsar la aplicación práctica de la IA en el ámbito de los pagos.
🔒 El sistema de tokens de autorización define claramente las responsabilidades, mejorando la transparencia de las transacciones.
Enlace detallado: https://github.com/google-agentic-commerce/AP2

5. Apple amplía su plataforma de generación de imágenes: Image Playground introducirá más modelos de IA de terceros

Apple realizó una importante actualización en Image Playground en macOS Tahoe26, iPadOS26 e iOS26, introduciendo ChatGPT como modelo de generación de imágenes, y planea admitir más modelos de terceros, como Gemini2.5Flash Image de Google.

【Resumen de AiBase:】
🍎 Apple amplía Image Playground para admitir más modelos de IA de terceros, incluyendo OpenAI y Gemini2.5Flash Image de Google.
⚙️ Se agregó el "índice de estimación de retardo" y "identificador de marca", lo que indica que Apple está optimizando el mecanismo de selección de modelos.
🔒 Apple podría preferir colaborar con socios externos en lugar de admitir directamente modelos de código abierto, para garantizar la seguridad de las herramientas de generación de imágenes.

6. ¡Conviértete en un dispositivo de aprendizaje en un solo clic! Baidu Search lanza AI伴学 (Acompañante de Aprendizaje)

Baidu lanza AI伴学, que convierte teléfonos comunes en dispositivos de aprendizaje mediante tecnología de IA, ofreciendo funciones como ejercicios precisos y entrenamiento de habla, ayudando a promover la equidad educativa y la difusión de recursos.

【Resumen de AiBase:】
📚 AI伴学 convierte teléfonos comunes en dispositivos de aprendizaje mediante tecnología de IA, mejorando la equidad educativa.
🗣️ Ofrece herramientas de habla y corrección de ensayos, ayudando al aprendizaje personalizado de los estudiantes.
🌍 El equipo educativo de Baidu utiliza tecnologías como Wenshi 4.5 para impulsar la integración y difusión de recursos educativos.

7. El asistente de tablas de DingTalk se lanza oficialmente: una frase genera una tabla, construyendo una plataforma de aplicaciones empresariales de IA

DingTalk lanza el Asistente de Tablas de IA, transformando las tablas de IA en una plataforma para crear aplicaciones en la era de la IA. Los usuarios solo necesitan actualizar a la última versión para experimentar esta nueva funcionalidad. El Asistente de Tablas de IA admite descripciones en lenguaje natural, generando automáticamente tablas, flujos de trabajo automatizados y paneles de análisis de datos, reduciendo significativamente la barrera de uso.

【Resumen de AiBase:】
✨ El Asistente de Tablas de IA admite descripciones en lenguaje natural, generando automáticamente tablas, flujos de trabajo automatizados y paneles de análisis de datos.
🚀 Introduce el agente de campo, añade 30 agentes, admite capacidades de IA multimodal como comprensión de videos y personajes digitales.
🌐 Soporte de flujos de trabajo entre plataformas, nueva admisión de flujos de trabajo de plataformas como Bailian y Coze, logrando consolidación y análisis de datos entre plataformas.

8. DeepSeek-V3.1-Terminus se lanza con un gran avance: rendimiento mejorado en general, capacidad de razonamiento profundo significativamente mejorada

DeepSeek lanzó el modelo DeepSeek-V3.1-Terminus y lo hizo de código abierto. Este modelo corrigió problemas de inconsistencia lingüística y caracteres anómalos del modelo anterior, optimizó el rendimiento de agentes de programación y búsqueda. Los datos de prueba muestran que su rendimiento mejoró entre 0,2% y 36,5%, especialmente destacándose en conocimiento de alto nivel, multimodal y razonamiento profundo.

【Resumen de AiBase:】
🧠 El modelo DeepSeek-V3.1-Terminus mejora el rendimiento en general, con un aumento de 0,2%-36,5%
🚀 Optimiza especialmente el rendimiento de agentes de programación y búsqueda, resolviendo problemas de inconsistencia lingüística de versiones anteriores
🔍 Destaca en la prueba HLE, mostrando fuertes capacidades de razonamiento profundo y procesamiento multimodal
Enlace detallado: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

9. ¡Kimi Agent Member sorprende con su lanzamiento! Donaciones se convierten en 9 meses de VIP, 49 yuanes por un estudio de IA valioso

Kimi lanzó un nuevo servicio de membresía Agent, ofreciendo beneficios adicionales a usuarios tempranos que hicieron donaciones, al mismo tiempo que el sistema de membresía basado en ritmos musicales muestra creatividad de la marca. La función de investigación profunda se basa en modelos propios, proporcionando perspectivas profesionales, impulsando la evolución de los asistentes de IA hacia agentes inteligentes.

【Resumen de AiBase:】
✨ Kimi lanza el servicio de membresía Agent, los usuarios que hicieron donaciones obtienen tiempo adicional de membresía.
🎵 El sistema de membresía se llama usando términos de ritmo musical clásico, fusionando arte y tecnología.
🔍 La función de investigación profunda se basa en modelos propios, ofreciendo análisis multidimensional y descubrimiento cognitivo.

10. ¡El primer modelo de inteligencia corporal general del mundo se hace de código abierto! GO-1 de Zhiyuan Robotics impacta con fuerza

Zhiyuan Robotics anunció que su modelo base general GO-1 de inteligencia corporal se hace de código abierto en su totalidad, siendo el primer modelo de inteligencia corporal del mundo que adopta una arquitectura ViLLA, capaz de comprender y ejecutar tareas complejas. Esta medida impulsará la aplicación y investigación de la inteligencia corporal, reduciendo la barrera tecnológica y atrayendo a más desarrolladores a participar en este ecosistema, fomentando la innovación y cooperación interdisciplinaria.

【Resumen de AiBase:】
🤖 GO-1 es el primer modelo de inteligencia corporal del mundo que utiliza una arquitectura ViLLA, combinando capacidades visuales, de lenguaje y acciones potenciales.
💡 Hacer públicos GO-1 impulsará la aplicación y investigación de la inteligencia corporal, reduciendo la barrera tecnológica.
🌐 Zhiyuan Robotics espera atraer más desarrolladores a participar en el ecosistema de inteligencia corporal, fomentando la innovación y cooperación interdisciplinaria.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Diario de IA: Alibaba presenta el modelo multimodal Qwen3-Omni; Google lanza el protocolo AP2; Baidu presenta el modelo Qianfan-VL

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Sora 2 domina la App Store, CICC sigue viendo con optimismo la cadena de suministro de IA

Anthropic abre Zero Slop Zone en Nueva York para rechazar el contenido de IA de baja calidad

OpenAI confirma que los usuarios activos semanales de ChatGPT superan los 800 millones

El ex primer ministro británico Sunak se une a Microsoft y la empresa de inteligencia artificial Anthropic como asesor senior

El paquete Go de OpenAI ChatGPT entra en Asia! Menos de 5 dólares al mes

Ant Financial lanza el modelo de lenguaje Ling-1T con 1 billón de parámetros, estableciendo un nuevo estándar en la industria en términos de velocidad y capacidad de razonamiento

Anthropic obtiene una alianza estratégica con IBM: el modelo grande Claude entra en el mercado empresarial, la posición de OpenAI está en juego

¡Fiesta gratuita de Sora2! Lovart desbloquea de un solo golpe videos de IA sin marcas de agua 5 días 5+1 veces de generación Pro, membresía Pro con generación ilimitada

El CEO de OpenAI elogia a ChatGPT Pulse como su funcionalidad favorita, pero no descarta la introducción de publicidad en el futuro

Juego de búsqueda del nuevo álbum de Taylor Swift desencadena controversia: los fans cuestionan que el video de promoción sea generado por IA

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Diario de IA: Alibaba presenta el modelo multimodal Qwen3-Omni; Google lanza el protocolo AP2; Baidu presenta el modelo Qianfan-VL

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Sora 2 domina la App Store, CICC sigue viendo con optimismo la cadena de suministro de IA

Anthropic abre Zero Slop Zone en Nueva York para rechazar el contenido de IA de baja calidad

OpenAI confirma que los usuarios activos semanales de ChatGPT superan los 800 millones

El ex primer ministro británico Sunak se une a Microsoft y la empresa de inteligencia artificial Anthropic como asesor senior

El paquete Go de OpenAI ChatGPT entra en Asia! Menos de 5 dólares al mes

Ant Financial lanza el modelo de lenguaje Ling-1T con 1 billón de parámetros, estableciendo un nuevo estándar en la industria en términos de velocidad y capacidad de razonamiento

Anthropic obtiene una alianza estratégica con IBM: el modelo grande Claude entra en el mercado empresarial, la posición de OpenAI está en juego

¡Fiesta gratuita de Sora2! Lovart desbloquea de un solo golpe videos de IA sin marcas de agua 5 días 5+1 veces de generación Pro, membresía Pro con generación ilimitada

El CEO de OpenAI elogia a ChatGPT Pulse como su funcionalidad favorita, pero no descarta la introducción de publicidad en el futuro

Juego de búsqueda del nuevo álbum de Taylor Swift desencadena controversia: los fans cuestionan que el video de promoción sea generado por IA

GEO Services