Bienvenido al programa de noticias de IA! Aquí encontrarás una guía para explorar el mundo de la inteligencia artificial cada día. Todos los días te presentamos las noticias más destacadas del sector de la IA, centrándonos en desarrolladores para ayudarte a comprender las tendencias tecnológicas e innovaciones en la aplicación de productos de IA.

Productos de IA frescos haz clic para saber más: https://top.aibase.com/

1. PaddleOCR 3.0 de Baidu se lanza como código abierto, con un aumento del 13% en precisión de OCR

El equipo de PaddlePaddle de Baidu lanzó la versión 3.0 de PaddleOCR, mejorando la precisión de reconocimiento de texto, el soporte para múltiples idiomas, la identificación de escritura a mano y la capacidad de análisis de documentos. Además, añadió compatibilidad con hardware nacional y lanzó funciones clave como PP-OCRv5, PP-StructureV3 y PP-ChatOCRv4.

image.png

[Resumen de AiBase:]

🚀 El modelo de reconocimiento de texto en todas las escenas PP-OCRv5 admite la identificación de cinco tipos de texto, con una mejora general del 13% en precisión, permitiendo implementaciones sin problemas.

📚 La solución de análisis de documentos PP-StructureV3 mejora la detección de estructuras y la identificación de tablas, mostrando un excelente rendimiento en análisis de alta precisión en múltiples escenarios.

🤖 La solución de comprensión de documentos inteligentes PP-ChatOCRv4 combina grandes modelos como Wenxin, mejorando la precisión de extracción de información crítica en un 15% y apoyando el procesamiento de documentos complejos.

Enlace detallado: https://github.com/PaddlePaddle/PaddleOCR

2. ¡Se lanza el superinteligente SkyWork de Kunlun Weiwei! La revolución de la Oficina Inteligente llega, con Deep Research que supera a OpenAI con solo el 40% del costo!

El superinteligente SkyWork es un agente inteligente basado en la tecnología autónoma de Deep Research para la Oficina Inteligente, que ha causado gran revuelo en la comunidad global de IA debido a sus poderosas capacidades de generación de contenido multimodal y su bajo costo, solo el 40% del de OpenAI.

image.png

[Resumen de AiBase:]

✨ El superinteligente SkyWork utiliza una arquitectura de múltiples agentes inteligentes, incluyendo 5 agentes especializados y 1 agente general, y soporta la generación de múltiples contenidos de oficina en un solo paso.

🚀 Su tecnología central, el modelo Deep Research, tiene un bajo costo y alta eficiencia, superando a OpenAI Deep Research con 82.42 puntos en las pruebas GAIA.

🌐 La estrategia de marco abierto y bajo costo hace que SkyWork sea una opción ideal para pequeñas y medianas empresas y desarrolladores individuales.

Enlace detallado: https://mcp.so/server/skywork-super-agents/Skywork-ai

3. API principal de OpenAI soporta MCP, simplificando el flujo de desarrollo de inteligentes agentes

La API Responses de OpenAI ha agregado soporte para MCP, reduciendo significativamente la dificultad de integrar modelos de IA con herramientas externas. También ha lanzado varias actualizaciones de características, como la generación de imágenes, el intérprete de código y la optimización de la función de búsqueda de archivos.

image.png

[Resumen de AiBase:]

✨ La API Responses de OpenAI soporta el protocolo MCP, lo que permite a los desarrolladores conectar herramientas externas con solo unas pocas líneas de código.

🌟 Nuevas funciones incluyen la generación de imágenes, el intérprete de código y la optimización de la capacidad de búsqueda de archivos, aumentando la eficiencia del desarrollo.

🌐 MCP se ha convertido en el estándar de facto para el desarrollo de agentes inteligentes, promoviendo la colaboración y flexibilidad entre plataformas.

4. xAI lanza API de búsqueda en línea Live Search: impulsando a la IA a obtener contenido en tiempo real

xAI lanzó oficialmente la API de búsqueda en vivo Live Search, que permite a los desarrolladores utilizar el modelo Grok para buscar información en tiempo real desde múltiples fuentes de datos, mejorando significativamente la capacidad de procesamiento dinámico de información de las aplicaciones de IA. Esta API está actualmente en prueba pública gratuita, proporcionando herramientas poderosas a los desarrolladores para simplificar la lógica de búsqueda y la integración de datos.

image.png

[Resumen de AiBase:]

🌟 La API de búsqueda en vivo Live Search soporta decisiones autónomas de búsqueda, ya que Grok puede determinar automáticamente si necesita buscar según el contexto de la conversación, sin intervención manual.

🌐 Provee fuentes de datos diversas, como la plataforma X, páginas web, noticias y canales RSS, asegurando información completa y actualizada en tiempo real.

🔧 Muy flexible y eficiente para integrar, con SDKs diversos, los desarrolladores pueden ajustar fácilmente la URL base y la clave de API para un rápido acceso.

Enlace detallado: https://docs.x.ai/docs/guides/live-search

5. Google Sparkify lanza producto experimental que convierte preguntas en videos animados en segundos, haciendo que los conocimientos complejos sean fáciles de entender

Sparkify de Google utiliza los modelos Gemini y Veo para convertir conceptos complejos en videos animados intuitivos, aplicable a la educación, divulgación científica y creación de contenido.

image.png

[Resumen de AiBase:]

✨ Los conceptos complejos se presentan de manera visual a través de videos animados, mejorando la eficiencia de comprensión.

🎥 Utiliza los modelos Gemini2.5 y Veo2 para generar rápidamente videos de alta calidad.

🌍 Soporta la extensión a varios idiomas, cubriendo más regiones y grupos de población en el futuro.

Enlace detallado: https://sparkify.withgoogle.com/explore

6. Mistral vuelve al campamento del código abierto: lanza el modelo de IA de código Devstral

Mistral AI ha lanzado Devstral, un nuevo modelo de lenguaje de código abierto diseñado específicamente para el desarrollo de software de inteligencia artificial. Este modelo ligero es potente y compatible con ejecución local, demostrando el poder de la colaboración de la comunidad de código abierto.

image.png

[Resumen de AiBase:]

Devstral cuenta con 24 millones de parámetros y se publica bajo la licencia Apache2.0, permitiendo despliegues libres y comerciales.

Su rendimiento es excepcional, superando a muchos modelos cerrados en las pruebas SWE-Bench, adecuado para escenarios locales y de privatización.

Como el último avance de la serie Codestral, Devstral soporta la comprensión de contexto entre archivos, ideal para tareas de desarrollo de software complejas.

7. Video Ocean lanza herramienta para generar videos HD de 2K/4K, causando furor por su costo

El 21 de mayo, la empresa Luochen Technology lanzó la nueva herramienta de generación de videos de IA Video Ocean, que puede generar videos de alta calidad rápidamente y ofrece una variedad de efectos y funciones a un precio muy bajo y completamente gratis, causando una ola de entusiasmo en la creación.

image.png

[Resumen de AiBase:]

✨ Soporta la generación de videos HD de 2K/4K en 5-10 segundos, ideal para todo tipo de creación.

🎥 Ofrece una gran cantidad de plantillas y efectos, como Laugh, Cakeify, etc., permitiendo que usuarios principiantes puedan crear videos profesionales fácilmente.

💰 Solo cuesta una décima parte del costo de Cool2.0, completamente gratis, atrayendo elogios de diferentes grupos de usuarios.

8. Google lanza herramienta SynthID Detector, ayudando a identificar contenido generado por IA

Google lanzó la nueva herramienta llamada SynthID Detector, diseñada para ayudar a los usuarios a detectar si el contenido fue generado por sus herramientas de IA. Esta herramienta puede identificar contenido generado por IA y destacar partes con marcas de agua SynthID, actualmente disponible para los primeros usuarios de prueba.

image.png

[Resumen de AiBase:]

🌟 SynthID Detector es una nueva herramienta para identificar contenido generado por IA, compatible con imágenes, texto, audio y video.

🔍 Esta herramienta puede escanear automáticamente el contenido cargado y buscar y destacar las marcas de agua SynthID.

🚀 Actualmente solo está disponible para los primeros usuarios de prueba, pero se expandirá progresivamente a más usuarios en el futuro.

Enlace detallado: https://blog.google/technology/ai/google-synthid-ai-content-detector/

9. El rápido ascenso del asistente de notas de Google NotebookLM

El asistente de gestión de conocimiento impulsado por IA de Google, NotebookLM, ha experimentado un crecimiento del 56% en visitas mensuales en los últimos seis meses, destacándose por sus innovadoras funciones como 'resumen de audio', soporte para múltiples idiomas y amplias aplicaciones.

image.png

[Resumen de AiBase:]

🚀 NotebookLM ha experimentado un crecimiento del 56% en visitas mensuales, convirtiéndose en un oscuro caballo ganador en las aplicaciones de IA.

🌐 Soporta la generación de podcasts en más de 50 idiomas, eliminando barreras lingüísticas y mejorando la experiencia del usuario.

📚 Ideal para estudiantes, investigadores y creadores de contenido, desde la academia hasta el entretenimiento, es eficiente en todo tipo de usos.

10. Silicon Flow mejora sus APIs de modelos de inferencia, soportando longitud de contexto de hasta 128K

Silicon Flow ha mejorado sus APIs de modelos de inferencia, aumentando significativamente la longitud de contexto máxima a 128K, lo que mejora considerablemente la capacidad de razonamiento y la calidad de salida del modelo. Además, ha introducido funciones independientes para controlar cadenas de razonamiento y la longitud de la respuesta, permitiendo a los desarrolladores ajustar más flexiblemente el rendimiento del modelo.

image.png

[Resumen de AiBase:]

🚀 Soporta una longitud de contexto máxima de 128K, mejorando significativamente la profundidad de razonamiento y la integridad de la salida del modelo.

🔍 Introduce funciones independientes para controlar las cadenas de razonamiento y la longitud de la respuesta, aumentando la precisión del control del comportamiento del modelo.

⚠️ Cuando se alcanza el límite de longitud, la salida del modelo se truncará y se marcará la causa, asegurando la transparencia del uso.

Enlace detallado: https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

11. Google DeepMind lanza nuevo modelo de generación musical Lyria2, con soporte para composición en tiempo real

Lyria2 es el último modelo de generación musical lanzado por Google DeepMind, que cuenta con alta fidelidad de sonido, interacción en tiempo real y capacidad para adaptarse a varios estilos musicales, revolucionando la creación musical.

image.png

[Resumen de AiBase:]

🎶 Alta fidelidad de sonido: puede generar audios estéreo de 48kHz, capturando detalles musicales precisos, ideal para producciones profesionales y proyectos comerciales.

⚡ Interacción en tiempo real: la función Lyria RealTime permite ajustar en tiempo real el estilo y el ritmo de la música, inspirando la creatividad.

🌐 Soporte multimostrual: integrado en la herramienta Music AI Sandbox, soporta entradas de texto, partituras o fragmentos de audio, cubriendo varios estilos musicales.

Enlace detallado: https://deepmind.google/models/lyria/

12. MMaDA, el modelo multimodal grande que permite a la IA "pensar entre dimensiones", ¡el competente en texto e imagen ha llegado!