Bienvenido al programa "Diario de IA"! Aquí es tu guía diaria para explorar el mundo de la inteligencia artificial. Cada día, te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándote a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.
Productos de IA recientes Haz clic para obtener más información:https://app.aibase.com/zh
1. Step-Function lanzó el modelo de lenguaje de audio de extremo a extremo Step-Audio 2 mini
Step-Function lanzó el modelo de lenguaje de audio de extremo a extremo más potente y de código abierto Step-Audio 2 mini, obteniendo resultados SOTA en varios benchmarks internacionales, demostrando una excelente comprensión del audio, reconocimiento de voz, traducción entre idiomas y capacidad de diálogo. Este modelo utiliza un diseño arquitectónico innovador, superando la estructura tradicional de ASR + LLM + TTS en tres niveles, permitiendo la conversión directa de entrada de audio original a salida de voz, e introduciendo razonamiento por cadenas de pensamiento y optimización conjunta con aprendizaje por refuerzo, mejorando la comprensión de la información paralingüística y la capacidad de respuesta natural.
[Resumen de AiBase:]
🔥 Step-Audio2mini obtuvo resultados SOTA en varios benchmarks internacionales, superando modelos abiertos como Qwen-Omni y Kimi-Audio.
🧠 El modelo utiliza una arquitectura multimodal verdaderamente de extremo a extremo, rompiendo con la estructura tradicional ASR + LLM + TTS, logrando un procesamiento de audio más sencillo y de baja latencia.
💡 Se introduce el razonamiento por cadenas de pensamiento y la optimización conjunta con aprendizaje por refuerzo, mejorando la comprensión y la capacidad de respuesta natural hacia información paralingüística como emociones, tono y música.
Enlace de detalles: https://github.com/stepfun-ai/Step-Audio2
2. Reglas nuevas sobre contenido de IA entraron en vigor el 1 de septiembre. No identificar es ilegal, los creadores de contenido se enfrentan urgentemente
El método de identificación de contenido generado y sintetizado por inteligencia artificial entró en vigor el 1 de septiembre, marcando una nueva etapa en la gobernanza del contenido de IA en China, caracterizada por institucionalización y estandarización. Las nuevas reglas requieren que todo el contenido generado por IA tenga una identificación explícita e implícita, para mejorar la transparencia de la información y prevenir la difusión de noticias falsas.
[Resumen de AiBase:]
✅ La identificación explícita exige que el contenido generado por IA esté claramente etiquetado en texto, imágenes, videos y audios, rompiendo el "arte de hacer invisible" del contenido de IA.
🔍 La identificación implícita incorpora huellas digitales en metadatos para lograr trazabilidad y capacidad de supervisión.
⚖️ Las consecuencias de no cumplir son graves, incluyendo limitación de flujo, corrección, eliminación y riesgos legales, impulsando el desarrollo normalizado de la industria de IA.
3. Meituan lanza un modelo grande de código abierto LongCat: tiene como objetivo empoderar a los desarrolladores y acelerar la implementación de aplicaciones de IA
El modelo grande de código abierto LongCat de Meituan tiene una sólida fuerza técnica, logrando un rendimiento computacional eficiente mediante una arquitectura híbrida de expertos y mostrando un buen desempeño en varios benchmarks, ofreciendo a los desarrolladores una poderosa herramienta.
[Resumen de AiBase:]
🧠 LongCat-Flash tiene 56 mil millones de parámetros, utiliza una arquitectura de expertos mixtos (MoE) y activa dinámicamente parte de los parámetros para optimizar la eficiencia computacional.
🚀 Soporta una capacidad de procesamiento de más de 100 tokens por segundo, con baja latencia y alta escalabilidad.
📊 Muestra un excelente desempeño en tareas como MMLU y razonamiento matemático, demostrando su potencial en aplicaciones prácticas.
Enlace de detalles: https://longcat.chat/
4. Laboratorio de IA de Shanghái lanza el modelo multimedial ShuSheng·WanXiang InternVL3.5
El Laboratorio de IA de Shanghái lanzó el modelo multimedial InternVL3.5, logrando una mejora integral en capacidad de razonamiento, eficiencia de implementación y capacidad general mediante técnicas innovadoras como el aprendizaje por refuerzo en cascada, la ruta de resolución visual dinámica y la arquitectura de desacoplamiento. El modelo mostró un excelente desempeño en varios benchmarks, superando modelos principales como GPT-5 y Claude-3.7-Sonnet.
[Resumen de AiBase:]
✨ InternVL3.5 utiliza un marco de aprendizaje por refuerzo en cascada, mejorando significativamente el rendimiento de razonamiento.
🖼️ El modelo admite múltiples resoluciones visuales y optimiza la velocidad de respuesta.
🚀 Ofrece modelos con diferentes tamaños de parámetros para satisfacer escenarios de necesidades de recursos diversos.
Enlace de detalles: https://github.com/OpenGVLab/InternVL
5. Tencent ARC lanza el modelo de audio AudioStory: genera audio largo usando modelos de lenguaje grande
El modelo AudioStory lanzado por el equipo de Tencent ARC combina modelos de lenguaje grande y tecnología de generación de audio, capaz de generar narraciones de audio largas estructuradas y con coherencia temporal. El modelo destaca en la capacidad de seguimiento de instrucciones y calidad del audio, aplicable a múltiples escenarios como doblaje de videos y generación de audio largo.
[Resumen de AiBase:]
🎧 AudioStory es un modelo de generación de audio narrativo largo basado en modelos de lenguaje grande, capaz de manejar diversas tareas de audio.
📊 El modelo posee una fuerte capacidad de seguimiento de instrucciones, pudiendo generar narrativas de audio coherentes y mejorar la experiencia del usuario.
🛠️ El equipo ha lanzado código de inferencia y muestra varios casos de aplicación, demostrando sus ventajas en doblaje de videos y generación de audio largo.
Enlace de detalles: https://github.com/TencentARC/AudioStory
6. OpenAI lanza con sorpresa GPT-realtime! La revolución de la IA de voz está aquí, la comunicación humano-máquina es difícil de distinguir
El modelo de voz GPT-realtime de OpenAI alcanzó avances significativos en fluidez natural y expresión emocional, capaz de simular con precisión el tono, fluctuaciones emocionales y variaciones de velocidad de habla humana. Además, el modelo posee capacidad de procesamiento multimodal y puede ajustar dinámicamente el estilo de voz para adaptarse a diferentes requisitos de escena, trayendo cambios revolucionarios en la interacción de voz con IA.
[Resumen de AiBase:]
🚀 GPT-realtime ofrece una experiencia de interacción de voz natural sin precedentes, reproduciendo con precisión los detalles de la voz humana.
🧠 El modelo posee capacidad de procesamiento multimodal, analizando e respondiendo combinando información de imagen y audio.
💡 Soporta cambio de estilos de voz, satisfaciendo las necesidades de interacción de voz personalizada en diferentes escenarios.
7. Meta y UCSD lanzan DeepConf: la precisión del razonamiento de IA alcanza 99,9%, reduciendo el costo computacional en un 85%
La tecnología DeepConf lanzada por Meta y la Universidad de California en San Diego (UCSD) alcanzó una precisión del 99,9% en tareas de razonamiento complejas y redujo el consumo de recursos computacionales en un 84,7%. Esta tecnología introduce un mecanismo de "confianza", permitiendo que la IA ajuste dinámicamente sus estrategias de resolución de problemas, mejorando así la eficiencia y precisión del razonamiento.
[Resumen de AiBase:]
🔍 La tecnología DeepConf alcanzó una precisión del 99,9% en tareas de razonamiento complejas.
💡 El consumo de recursos computacionales se redujo en un 84,7%, disminuyendo significativamente los costos de cálculo.
🚀 A través del mecanismo de "confianza", la IA puede ajustar dinámicamente sus estrategias de resolución de problemas, mejorando la eficiencia del razonamiento.
Enlace de detalles: https://arxiv.org/abs/2508.15260
8. Musk reconoció que el repositorio de código de xAI fue robado, y un antiguo empleado se mudó a OpenAI!
Musk reconoció que el repositorio de código de xAI fue robado, y el antiguo empleado Xuechen Li fue acusado de robar secretos comerciales y mudarse a OpenAI, lo que provocó una amplia atención en la comunidad tecnológica.
[Resumen de AiBase:]
💻 Al antiguo empleado Xuechen Li se le acusó de robar secretos comerciales de xAI y mudarse a OpenAI.
🔒 xAI solicitó al tribunal prohibir a Li trabajar en OpenAI y devolver los datos robados.
🚀 Antes de dejar la empresa, Li vendió casi 7 millones de dólares, posiblemente ahorrando a OpenAI miles de millones en costos de investigación y desarrollo.
9. El equipo de Qwen de Alibaba lanzó el siguiente marco de automatización GUI Mobile-Agent-v3 y GUI-Owl
El equipo de Qwen de Alibaba lanzó dos productos revolucionarios —— Mobile-Agent-v3 y GUI-Owl —— con el objetivo de resolver los desafíos en la automatización de interfaces gráficas de usuario (GUI). Estas herramientas mejoran la capacidad de comprensión y ejecución de tareas mediante modelos multimodales y cooperación entre agentes, demostrando una fuerte capacidad para completar tareas en múltiples plataformas, lo que marca un importante avance en el campo de automatización de GUI general de Alibaba.
[Resumen de AiBase:]
🧠 GUI-Owl es un modelo de agente multimodal lanzado por Alibaba, integrando capacidades de percepción, razonamiento y ejecución, adaptándose a entornos de GUI complejos.
🤖 El marco Mobile-Agent-v3 permite la cooperación entre agentes, mejorando la eficiencia de ejecución de tareas mediante actualizaciones dinámicas de planes.
📊 Estos dos productos destacaron en pruebas de benchmark de automatización de GUI, marcando un importante avance en el campo de automatización de Alibaba.
Enlace de detalles: https://arxiv.org/abs/2508.15144
10. Microsoft lanza Copilot Labs, el primer instrumento experimental "Copilot Expresión de Audio" está disponible
Microsoft lanzó un nuevo centro de IA experimental llamado Copilot Labs, con el objetivo de invitar a los usuarios a participar en la innovación y el desarrollo de IA. Su primer instrumento es "Expresión de Audio de Copilot", que puede convertir texto escrito en voz narrativa natural y fluida, y soporta modos de emoción y narrativa, permitiendo al usuario tener un control elevado.
[Resumen de AiBase:]
🌟 Copilot Labs es una plataforma que invita a los usuarios a participar en la innovación de IA, marcando la exploración adicional de Microsoft en el campo de IA.
🔊 "Expresión de Audio de Copilot" es el primer instrumento experimental, capaz de convertir texto en voz natural y soportar modos de emoción y narrativa.
🌐 Este instrumento está disponible gratuitamente en todo el mundo, pero algunas funciones requieren iniciar sesión con una cuenta de Microsoft y tener una suscripción a Copilot Pro.
Enlace de detalles: https://copilot.microsoft.com/labs/experiments/audio-expression
11. Xiaohongshu-MCP, la herramienta mágica de automatización de Xiaohongshu, ya está disponible! AI ayuda a la creación de contenido, liberando tus manos!