Bienvenido al programa 【Diario de IA】! Aquí es tu guía para explorar el mundo de la inteligencia artificial cada día. Cada día, te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores, para que puedas comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.
Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh
1. Alibaba Cloud lanza el primer modelo de IA multimodal completo del mundo, Qwen3-Omni, capaz de procesar texto, imágenes, audio y video de forma unificada
Alibaba Cloud lanzó Qwen3-Omni, el primer modelo de IA multimodal nativo de extremo a extremo a nivel mundial, que soporta el procesamiento unificado de texto, imágenes, audio y video. Este modelo muestra un rendimiento avanzado en múltiples campos y está disponible como código abierto, permitiendo satisfacer las necesidades multilingües de usuarios globales.
【Resumen de AiBase:】
🌟 Qwen3-Omni es el primer modelo de IA multimodal nativo de extremo a extremo a nivel mundial, capaz de procesar texto, imágenes, audio y video de forma unificada.
🌐 El modelo admite 119 idiomas de texto y 19 tipos de entrada de voz, lo que permite satisfacer las necesidades multilingües de usuarios globales.
🖼️ La nueva versión Qwen-Image-Edit-2509 admite edición múltiple de imágenes, mejorando significativamente la coherencia y efectividad de la edición.
Enlace detallado: https://github.com/QwenLM/Qwen3-Omni huggingface: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
2. ¡Deséchale la preocupación de editar fotos! La función de edición múltiple de imágenes de Qwen-Image de Alibaba crea fácilmente anuncios profesionales
El artículo presenta una importante actualización en la herramienta de edición de imágenes de IA de Alibaba, Qwen-Image, incluyendo la nueva función de edición múltiple de imágenes, la incorporación de la tecnología de mapa de puntos clave de ControlNet y la expansión de aplicaciones a la creación de memes, ofreciendo soluciones más eficientes para la industria de comercio electrónico y marketing digital.
【Resumen de AiBase:】
🖼️ Nueva función de edición múltiple de imágenes, que permite combinaciones flexibles de personas + personas, personas + productos y personas + escenarios.
⚙️ Incorporación de la función de mapa de puntos clave de ControlNet, mejorando la precisión del control de posturas humanas.
🛒 Ampliación de aplicaciones, soporte para la creación de memes, apoyando la industria de comercio electrónico y marketing.
Enlace detallado: https://chat.qwen.ai/?inputFeature=image_edit
3. Baidu lanza el modelo Qianfan-VL, con modelos de diferentes tamaños que satisfacen diversas necesidades de escena
El equipo de inteligencia artificial de Baidu Cloud lanzó un nuevo modelo de comprensión visual, Qianfan-VL, que incluye tres tamaños: 3B, 8B y 70B, optimizado profundamente para aplicaciones empresariales multimodales. Qianfan-VL destaca en OCR, escenas educativas y resolución de problemas matemáticos, mostrando capacidades generales excelentes y un excelente rendimiento en tareas específicas en pruebas estándar.
【Resumen de AiBase:】
🧠 Modelos de diferentes tamaños que satisfacen diversas necesidades de escena.
📊 Los modelos de 8B y 70B tienen capacidad de razonamiento y pensamiento.
📄 Rendimiento excelente en OCR y comprensión de documentos.
Enlace detallado: https://baidubce.github.io/Qianfan-VL/
4. Google lanza el protocolo AP2, colabora con PayPal para abrir una nueva era de pagos con IA
El protocolo AP2 de Google proporciona un marco seguro y confiable para los pagos con IA, asegurando la legalidad y seguridad de las transacciones mediante un mecanismo de token de autorización, mientras colabora con PayPal para impulsar la innovación y aplicación de la IA en el ámbito de los pagos.
【Resumen de AiBase:】
🛒 El protocolo AP2 proporciona un mecanismo de autorización seguro para pagos con IA, garantizando la legalidad de las transacciones.
🤝 Google colabora con PayPal para impulsar la aplicación práctica de la IA en el ámbito de los pagos.
🔒 El sistema de tokens de autorización define claramente las responsabilidades, mejorando la transparencia de las transacciones.
Enlace detallado: https://github.com/google-agentic-commerce/AP2
5. Apple amplía su plataforma de generación de imágenes: Image Playground introducirá más modelos de IA de terceros
Apple realizó una importante actualización en Image Playground en macOS Tahoe26, iPadOS26 e iOS26, introduciendo ChatGPT como modelo de generación de imágenes, y planea admitir más modelos de terceros, como Gemini2.5Flash Image de Google.
【Resumen de AiBase:】
🍎 Apple amplía Image Playground para admitir más modelos de IA de terceros, incluyendo OpenAI y Gemini2.5Flash Image de Google.
⚙️ Se agregó el "índice de estimación de retardo" y "identificador de marca", lo que indica que Apple está optimizando el mecanismo de selección de modelos.
🔒 Apple podría preferir colaborar con socios externos en lugar de admitir directamente modelos de código abierto, para garantizar la seguridad de las herramientas de generación de imágenes.
6. ¡Conviértete en un dispositivo de aprendizaje en un solo clic! Baidu Search lanza AI伴学 (Acompañante de Aprendizaje)
Baidu lanza AI伴学, que convierte teléfonos comunes en dispositivos de aprendizaje mediante tecnología de IA, ofreciendo funciones como ejercicios precisos y entrenamiento de habla, ayudando a promover la equidad educativa y la difusión de recursos.
【Resumen de AiBase:】
📚 AI伴学 convierte teléfonos comunes en dispositivos de aprendizaje mediante tecnología de IA, mejorando la equidad educativa.
🗣️ Ofrece herramientas de habla y corrección de ensayos, ayudando al aprendizaje personalizado de los estudiantes.
🌍 El equipo educativo de Baidu utiliza tecnologías como Wenshi 4.5 para impulsar la integración y difusión de recursos educativos.
7. El asistente de tablas de DingTalk se lanza oficialmente: una frase genera una tabla, construyendo una plataforma de aplicaciones empresariales de IA
DingTalk lanza el Asistente de Tablas de IA, transformando las tablas de IA en una plataforma para crear aplicaciones en la era de la IA. Los usuarios solo necesitan actualizar a la última versión para experimentar esta nueva funcionalidad. El Asistente de Tablas de IA admite descripciones en lenguaje natural, generando automáticamente tablas, flujos de trabajo automatizados y paneles de análisis de datos, reduciendo significativamente la barrera de uso.
【Resumen de AiBase:】
✨ El Asistente de Tablas de IA admite descripciones en lenguaje natural, generando automáticamente tablas, flujos de trabajo automatizados y paneles de análisis de datos.
🚀 Introduce el agente de campo, añade 30 agentes, admite capacidades de IA multimodal como comprensión de videos y personajes digitales.
🌐 Soporte de flujos de trabajo entre plataformas, nueva admisión de flujos de trabajo de plataformas como Bailian y Coze, logrando consolidación y análisis de datos entre plataformas.
8. DeepSeek-V3.1-Terminus se lanza con un gran avance: rendimiento mejorado en general, capacidad de razonamiento profundo significativamente mejorada
DeepSeek lanzó el modelo DeepSeek-V3.1-Terminus y lo hizo de código abierto. Este modelo corrigió problemas de inconsistencia lingüística y caracteres anómalos del modelo anterior, optimizó el rendimiento de agentes de programación y búsqueda. Los datos de prueba muestran que su rendimiento mejoró entre 0,2% y 36,5%, especialmente destacándose en conocimiento de alto nivel, multimodal y razonamiento profundo.
【Resumen de AiBase:】
🧠 El modelo DeepSeek-V3.1-Terminus mejora el rendimiento en general, con un aumento de 0,2%-36,5%
🚀 Optimiza especialmente el rendimiento de agentes de programación y búsqueda, resolviendo problemas de inconsistencia lingüística de versiones anteriores
🔍 Destaca en la prueba HLE, mostrando fuertes capacidades de razonamiento profundo y procesamiento multimodal
Enlace detallado: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
9. ¡Kimi Agent Member sorprende con su lanzamiento! Donaciones se convierten en 9 meses de VIP, 49 yuanes por un estudio de IA valioso
Kimi lanzó un nuevo servicio de membresía Agent, ofreciendo beneficios adicionales a usuarios tempranos que hicieron donaciones, al mismo tiempo que el sistema de membresía basado en ritmos musicales muestra creatividad de la marca. La función de investigación profunda se basa en modelos propios, proporcionando perspectivas profesionales, impulsando la evolución de los asistentes de IA hacia agentes inteligentes.
【Resumen de AiBase:】
✨ Kimi lanza el servicio de membresía Agent, los usuarios que hicieron donaciones obtienen tiempo adicional de membresía.
🎵 El sistema de membresía se llama usando términos de ritmo musical clásico, fusionando arte y tecnología.
🔍 La función de investigación profunda se basa en modelos propios, ofreciendo análisis multidimensional y descubrimiento cognitivo.
10. ¡El primer modelo de inteligencia corporal general del mundo se hace de código abierto! GO-1 de Zhiyuan Robotics impacta con fuerza
Zhiyuan Robotics anunció que su modelo base general GO-1 de inteligencia corporal se hace de código abierto en su totalidad, siendo el primer modelo de inteligencia corporal del mundo que adopta una arquitectura ViLLA, capaz de comprender y ejecutar tareas complejas. Esta medida impulsará la aplicación y investigación de la inteligencia corporal, reduciendo la barrera tecnológica y atrayendo a más desarrolladores a participar en este ecosistema, fomentando la innovación y cooperación interdisciplinaria.
【Resumen de AiBase:】
🤖 GO-1 es el primer modelo de inteligencia corporal del mundo que utiliza una arquitectura ViLLA, combinando capacidades visuales, de lenguaje y acciones potenciales.
💡 Hacer públicos GO-1 impulsará la aplicación y investigación de la inteligencia corporal, reduciendo la barrera tecnológica.
🌐 Zhiyuan Robotics espera atraer más desarrolladores a participar en el ecosistema de inteligencia corporal, fomentando la innovación y cooperación interdisciplinaria.