¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del campo de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.
Conozca los nuevos productos de IA aquí: https://top.aibase.com/
1. OpenAI lanza dos modelos de razonamiento multimodal: o4-mini y la versión completa de o3
OpenAI presentó en una transmisión en vivo sus últimos modelos multimodales, o4-mini y la versión completa de o3. Estos modelos tienen la capacidad de procesar simultáneamente texto, imágenes y audio, y pueden utilizar herramientas externas para procesar tareas complejas. El o4-mini ha demostrado un rendimiento excepcional en diversas pruebas, con una precisión superior a la de o3, y ocupando un lugar destacado en las competiciones de programación.

【Resumen de AiBase:】
🛠️ o4-mini y o3 tienen capacidad de procesamiento multimodal, pudiendo manejar texto, imágenes y audio simultáneamente, y llamando automáticamente a herramientas externas.
📊 o4-mini alcanzó una precisión del 93.4% y 92.7% en las pruebas AIME2024 y 2025 respectivamente, superando a la versión completa de o3.
💻 En las competiciones de programación, o4-mini obtuvo 2700 puntos, situándose entre los 200 mejores programadores del mundo, demostrando una potente capacidad de programación.
2. El primer asistente de IA de WeChat, "Yuanbao", se lanza oficialmente y se puede agregar como amigo de WeChat
Lanzado por Tencent, "Yuanbao" es el primer asistente de IA que funciona en la plataforma WeChat. Los usuarios pueden buscarlo y agregarlo directamente como amigo en WeChat para disfrutar de una experiencia de chat más realista. Yuanbao no solo puede analizar artículos, imágenes y documentos de las cuentas públicas de WeChat, sino que también puede interactuar de forma inteligente y responder a las preguntas adicionales de los usuarios. Este asistente prioriza la privacidad del usuario y cuenta con una función de codificación automática de fotos de identificación, aunque actualmente no admite llamadas de voz o video.

【Resumen de AiBase:】
🌟 Se lanza el primer asistente de IA de WeChat, "Yuanbao", que los usuarios pueden agregar directamente buscando en WeChat.
📊 Yuanbao admite el análisis de artículos, imágenes y documentos de cuentas públicas, ofreciendo interacción inteligente.
🔒 Cuenta con funciones de protección de la privacidad, incluyendo codificación automática de fotos de identificación.
3. ByteDance lanza el modelo de pensamiento profundo Doubao 1.5: pensamiento profundo multimodal, baja latencia
En la parada de Hangzhou de la gira de innovación de IA de Volcano Engine el 17 de abril, ByteDance lanzó el modelo de pensamiento profundo Doubao 1.5, mostrando sus excelentes capacidades en matemáticas, programación, razonamiento científico y escritura creativa. Este modelo utiliza la arquitectura MoE, con una configuración de parámetros superior y un bajo coste de inferencia. Combinado con la tecnología de comprensión visual, el modelo puede analizar fotos, ayudar en viajes y gestión de proyectos, y su capacidad de búsqueda de vídeo se ha mejorado significativamente, aumentando la comodidad de los usuarios para obtener información.

【Resumen de AiBase:】
📈 El modelo Doubao 1.5 destaca en matemáticas y programación, utilizando la arquitectura MoE con una configuración de parámetros superior.
🌍 El nuevo modelo, combinado con la tecnología de comprensión visual, puede analizar fotos, ayudar en viajes y gestión de proyectos, ofreciendo potentes funciones.
🎥 La capacidad de búsqueda de vídeo se ha mejorado significativamente, permitiendo a los usuarios acceder rápidamente a la información relevante en los vídeos, con un aumento constante en su uso.
4. Kimi, el lado oscuro de la luna, lanza el modelo de prueba de teoremas matemáticos de código abierto Kimina-Prover
El equipo técnico de Kimi lanzó una versión preliminar de Kimina-Prover, haciendo públicos varios modelos y conjuntos de datos, mostrando un rendimiento excepcional en el campo de la demostración formal de teoremas. Kimina-Prover, al combinar el aprendizaje por refuerzo a gran escala con la inferencia formal, mejora significativamente la capacidad de razonamiento y la eficiencia de las muestras del modelo, alcanzando una tasa de aprobación del 80.7%, superando los resultados anteriores.

【Resumen de AiBase:】
🔍 Kimina-Prover alcanzó una tasa de aprobación del 80.7% en la prueba de referencia miniF2F, superando los resultados anteriores.
🚀 Este modelo combina el aprendizaje por refuerzo a gran escala con la inferencia formal, mejorando significativamente la capacidad de razonamiento y la eficiencia de las muestras.
📚 Kimina-Prover tiene una fuerte capacidad de explicación, permitiendo a los usuarios ver el proceso de deducción para facilitar la comprensión del comportamiento del modelo.
Enlace de detalles: https://arxiv.org/abs/2504.11354
5. OpenAI lanza el superagente de código abierto: Codex CLI, superando las 5000 estrellas en 5 horas
OpenAI lanzó recientemente Codex CLI, una herramienta ligera de agentes de código inteligente, que rápidamente ha atraído una gran atención, superando las 5000 estrellas en tan solo cinco horas, y se espera que supere las 10.000 estrellas en el día. Codex CLI cuenta con potentes funciones como la generación, ejecución, refactorización y prueba de código, mejorando en gran medida la eficiencia del trabajo de los desarrolladores.

【Resumen de AiBase:】
🌟 Codex CLI obtuvo 5000 estrellas en solo 5 horas después de su lanzamiento, y se espera que supere las 10.000 estrellas hoy.
💻 Esta herramienta puede generar, ejecutar, refactorizar y probar código automáticamente, siendo potente y práctica.
📈 OpenAI planea lanzar más productos de agentes inteligentes y está explorando la adquisición de plataformas de programación de IA para fortalecer su competitividad.
Enlace de detalles: https://github.com/openai/codex?tab=readme-ov-file
6. La función Gemini Live de Google se abre completamente, los usuarios de Android disfrutan de una nueva experiencia
Google anunció recientemente que la función Gemini Live de su aplicación Gemini está disponible gratuitamente para todos los usuarios de Android. Anteriormente, esta función solo estaba disponible para los usuarios de Pixel 9 y Samsung Galaxy S25. La potencia de Gemini Live radica en su capacidad para identificar en tiempo real el contenido de la cámara y la pantalla, proporcionando a los usuarios información y comentarios instantáneos, mejorando en gran medida la experiencia interactiva. Debido a la positiva respuesta de los usuarios, Google decidió promocionar esta función, y se espera que se lance completamente en las próximas semanas.

【Resumen de AiBase:】
🌟 La función Gemini Live ya está disponible gratuitamente para todos los usuarios de Android, anteriormente solo para usuarios de Pixel 9 y Galaxy S25.
📸 Esta función puede identificar en tiempo real el contenido de la cámara y la pantalla, proporcionando información y comentarios instantáneos para mejorar la experiencia interactiva del usuario.
🚀 Microsoft lanzó el mismo día una herramienta de IA similar, Copilot Vision, mostrando el rápido progreso de la tecnología de reconocimiento de información en tiempo real.
7. OpenAI planea adquirir la herramienta de programación de IA Windsurf por 3000 millones de dólares
OpenAI está negociando la adquisición de la herramienta de programación de IA Windsurf por aproximadamente 3000 millones de dólares. Esta adquisición sería la mayor operación de fusión y adquisición de OpenAI, marcando una importante apuesta en el mercado de herramientas de desarrollo de IA. Windsurf es una popular herramienta de asistencia de programación de IA que puede generar e interpretar código, y ya ha recibido más de 200 millones de dólares en financiación.
【Resumen de AiBase:】
💰 OpenAI está negociando la adquisición de Windsurf por 3000 millones de dólares, lo que sería su mayor adquisición si se completa.
🚀 Windsurf es una popular herramienta de asistencia de programación de IA que admite la generación e interpretación de código, y ha recibido más de 200 millones de dólares en financiación.
📈 Esta adquisición mejorará las capacidades de programación de OpenAI, ayudándola a ocupar una posición de liderazgo en el competitivo mercado de herramientas de IA.
8. JetBrains lanza el agente inteligente de codificación Junie AI, impulsando una nueva experiencia en programación y depuración
JetBrains anunció recientemente que su nuevo agente inteligente de codificación Junie AI está listo para la producción, con el objetivo de ayudar a los desarrolladores a escribir y depurar código de manera más eficiente. El lanzamiento de Junie AI marca un gran avance de JetBrains en el campo de las herramientas de IA. Además, JetBrains también actualizó su asistente de IA anterior, compatible con los últimos modelos de IA y mejorando la experiencia del usuario. Para hacer frente a la competencia del mercado, JetBrains planea lanzar un plan gratuito para atraer a más desarrolladores a utilizar sus herramientas.
【Resumen de AiBase:】
🤖 Junie AI está listo para la producción, centrándose en el manejo y la depuración de tareas complejas.
📈 El asistente de IA actualizado admite varios modelos de IA recientes y agrega la función de edición de varios archivos.
🌐 JetBrains lanzará un plan gratuito que ofrece autocompletado de código ilimitado para satisfacer las necesidades de diferentes desarrolladores.
Enlace de detalles: https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/
9. El robot humanoide de código abierto Reachy2 sale a la venta oficialmente
Reachy2, de Pollen Robotics, es un robot humanoide de código abierto con un precio de 70.000 dólares, que ya se utiliza en varias universidades e instituciones de investigación de primer nivel. Su diseño modular y su potente capacidad de conducción de IA lo convierten en un pionero en el campo de la robótica humanoide, adecuado para diversas situaciones de investigación y educación. La naturaleza de código abierto de Reachy2 y su flexible soporte de programación ofrecen a los desarrolladores un amplio espacio para la innovación, impulsando el progreso de la tecnología robótica.

【Resumen de AiBase:】
🤖 Diseño altamente humanoide, con brazos de 7 grados de libertad, capaz de realizar movimientos naturales y precisos, adecuado para diversas aplicaciones.
🔄 Arquitectura modular y de código abierto, compatible con la programación Python SDK, los desarrolladores pueden ampliar las funciones según sus necesidades, impulsando la innovación tecnológica.
🌍 Ya se ha implementado en más de 20 países, con clientes que incluyen instituciones de renombre, mostrando su amplio potencial de aplicación en los sectores sanitario, minorista y educativo.
10. El Laboratorio de Inteligencia Artificial de Shanghai lanza la versión mejorada del gran modelo multimodal "Shusheng · Wanxiang 3.0"
El "Shusheng · Wanxiang 3.0", lanzado por el Laboratorio de Inteligencia Artificial de Shanghai, es un nuevo gran modelo multimodal con una capacidad mejorada de procesamiento de entrada de texto y multimodal, mostrando un rendimiento excepcional. Este modelo ha mejorado significativamente en rendimiento y experiencia de usuario, con una mayor velocidad de respuesta y una mayor capacidad de comprensión, capaz de satisfacer las diversas necesidades de los usuarios.
【Resumen de AiBase:】
🚀 La versión mejorada "Shusheng · Wanxiang 3.0" ha mejorado significativamente su capacidad de procesamiento multimodal, adecuada para diversas aplicaciones.
💡 Este modelo ha mejorado notablemente en rendimiento y experiencia de usuario, con una mayor velocidad de respuesta y capacidad de comprensión.
🌐 Las iniciativas de código abierto ofrecen a los desarrolladores una nueva plataforma, fomentando la innovación y la aplicación, impulsando el desarrollo de la industria.
11. Los modelos de pensamiento profundo Doubao y de generación de imágenes a partir de texto 3.0 abren oficialmente su API para clientes empresariales
Doubao lanzó recientemente los modelos Doubao 1.5 de pensamiento profundo y Doubao de generación de imágenes a partir de texto 3.0, abriendo oficialmente su API a través de Volcano Engine para desarrolladores y clientes empresariales. Estos dos modelos muestran un rendimiento excepcional en tareas de inferencia y generación de imágenes, impulsando la aplicación y el desarrollo de la tecnología de IA. El modelo de pensamiento profundo destaca en tareas de razonamiento profesional, mientras que el modelo de generación de imágenes a partir de texto muestra una mejora significativa en la calidad de la generación de imágenes.
【Resumen de AiBase:】
🧠 El modelo Doubao 1.5 de pensamiento profundo muestra un rendimiento excelente en tareas de razonamiento de áreas profesionales, acercándose al nivel de los mejores del mundo.
🎨 El modelo Doubao de generación de imágenes a partir de texto 3.0 permite la generación de imágenes de alta resolución, mejorando la eficiencia creativa y ofreciendo capacidades de diseño de nivel comercial.
🚀 La API abierta de estos dos modelos proporciona a los clientes empresariales una capacidad de inferencia y generación de imágenes más eficiente y general, impulsando el desarrollo de la tecnología de IA.
Enlace de detalles: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5




