Diario de IA: Nuevas regulaciones sobre contenido de IA entraron en vigor; Meituan lanzó un modelo de gran tamaño de código abierto llamado LongCat; Jiechu propuso un modelo de gran tamaño de audio Step-Audio 2 mini

站长之家

Publicado elNoticias de IA · 17 minutos de lectura · Sep 1, 2025

Bienvenido al programa "Diario de IA"! Aquí es tu guía diaria para explorar el mundo de la inteligencia artificial. Cada día, te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándote a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haz clic para obtener más información:https://app.aibase.com/zh

1. Step-Function lanzó el modelo de lenguaje de audio de extremo a extremo Step-Audio 2 mini

Step-Function lanzó el modelo de lenguaje de audio de extremo a extremo más potente y de código abierto Step-Audio 2 mini, obteniendo resultados SOTA en varios benchmarks internacionales, demostrando una excelente comprensión del audio, reconocimiento de voz, traducción entre idiomas y capacidad de diálogo. Este modelo utiliza un diseño arquitectónico innovador, superando la estructura tradicional de ASR + LLM + TTS en tres niveles, permitiendo la conversión directa de entrada de audio original a salida de voz, e introduciendo razonamiento por cadenas de pensamiento y optimización conjunta con aprendizaje por refuerzo, mejorando la comprensión de la información paralingüística y la capacidad de respuesta natural.

[Resumen de AiBase:]
🔥 Step-Audio2mini obtuvo resultados SOTA en varios benchmarks internacionales, superando modelos abiertos como Qwen-Omni y Kimi-Audio.
🧠 El modelo utiliza una arquitectura multimodal verdaderamente de extremo a extremo, rompiendo con la estructura tradicional ASR + LLM + TTS, logrando un procesamiento de audio más sencillo y de baja latencia.
💡 Se introduce el razonamiento por cadenas de pensamiento y la optimización conjunta con aprendizaje por refuerzo, mejorando la comprensión y la capacidad de respuesta natural hacia información paralingüística como emociones, tono y música.
Enlace de detalles: https://github.com/stepfun-ai/Step-Audio2

2. Reglas nuevas sobre contenido de IA entraron en vigor el 1 de septiembre. No identificar es ilegal, los creadores de contenido se enfrentan urgentemente

El método de identificación de contenido generado y sintetizado por inteligencia artificial entró en vigor el 1 de septiembre, marcando una nueva etapa en la gobernanza del contenido de IA en China, caracterizada por institucionalización y estandarización. Las nuevas reglas requieren que todo el contenido generado por IA tenga una identificación explícita e implícita, para mejorar la transparencia de la información y prevenir la difusión de noticias falsas.

[Resumen de AiBase:]
✅ La identificación explícita exige que el contenido generado por IA esté claramente etiquetado en texto, imágenes, videos y audios, rompiendo el "arte de hacer invisible" del contenido de IA.
🔍 La identificación implícita incorpora huellas digitales en metadatos para lograr trazabilidad y capacidad de supervisión.
⚖️ Las consecuencias de no cumplir son graves, incluyendo limitación de flujo, corrección, eliminación y riesgos legales, impulsando el desarrollo normalizado de la industria de IA.

3. Meituan lanza un modelo grande de código abierto LongCat: tiene como objetivo empoderar a los desarrolladores y acelerar la implementación de aplicaciones de IA

El modelo grande de código abierto LongCat de Meituan tiene una sólida fuerza técnica, logrando un rendimiento computacional eficiente mediante una arquitectura híbrida de expertos y mostrando un buen desempeño en varios benchmarks, ofreciendo a los desarrolladores una poderosa herramienta.

[Resumen de AiBase:]
🧠 LongCat-Flash tiene 56 mil millones de parámetros, utiliza una arquitectura de expertos mixtos (MoE) y activa dinámicamente parte de los parámetros para optimizar la eficiencia computacional.
🚀 Soporta una capacidad de procesamiento de más de 100 tokens por segundo, con baja latencia y alta escalabilidad.
📊 Muestra un excelente desempeño en tareas como MMLU y razonamiento matemático, demostrando su potencial en aplicaciones prácticas.
Enlace de detalles: https://longcat.chat/

4. Laboratorio de IA de Shanghái lanza el modelo multimedial ShuSheng·WanXiang InternVL3.5

El Laboratorio de IA de Shanghái lanzó el modelo multimedial InternVL3.5, logrando una mejora integral en capacidad de razonamiento, eficiencia de implementación y capacidad general mediante técnicas innovadoras como el aprendizaje por refuerzo en cascada, la ruta de resolución visual dinámica y la arquitectura de desacoplamiento. El modelo mostró un excelente desempeño en varios benchmarks, superando modelos principales como GPT-5 y Claude-3.7-Sonnet.

[Resumen de AiBase:]
✨ InternVL3.5 utiliza un marco de aprendizaje por refuerzo en cascada, mejorando significativamente el rendimiento de razonamiento.
🖼️ El modelo admite múltiples resoluciones visuales y optimiza la velocidad de respuesta.
🚀 Ofrece modelos con diferentes tamaños de parámetros para satisfacer escenarios de necesidades de recursos diversos.
Enlace de detalles: https://github.com/OpenGVLab/InternVL

5. Tencent ARC lanza el modelo de audio AudioStory: genera audio largo usando modelos de lenguaje grande

El modelo AudioStory lanzado por el equipo de Tencent ARC combina modelos de lenguaje grande y tecnología de generación de audio, capaz de generar narraciones de audio largas estructuradas y con coherencia temporal. El modelo destaca en la capacidad de seguimiento de instrucciones y calidad del audio, aplicable a múltiples escenarios como doblaje de videos y generación de audio largo.

[Resumen de AiBase:]
🎧 AudioStory es un modelo de generación de audio narrativo largo basado en modelos de lenguaje grande, capaz de manejar diversas tareas de audio.
📊 El modelo posee una fuerte capacidad de seguimiento de instrucciones, pudiendo generar narrativas de audio coherentes y mejorar la experiencia del usuario.
🛠️ El equipo ha lanzado código de inferencia y muestra varios casos de aplicación, demostrando sus ventajas en doblaje de videos y generación de audio largo.
Enlace de detalles: https://github.com/TencentARC/AudioStory

6. OpenAI lanza con sorpresa GPT-realtime! La revolución de la IA de voz está aquí, la comunicación humano-máquina es difícil de distinguir

El modelo de voz GPT-realtime de OpenAI alcanzó avances significativos en fluidez natural y expresión emocional, capaz de simular con precisión el tono, fluctuaciones emocionales y variaciones de velocidad de habla humana. Además, el modelo posee capacidad de procesamiento multimodal y puede ajustar dinámicamente el estilo de voz para adaptarse a diferentes requisitos de escena, trayendo cambios revolucionarios en la interacción de voz con IA.

[Resumen de AiBase:]
🚀 GPT-realtime ofrece una experiencia de interacción de voz natural sin precedentes, reproduciendo con precisión los detalles de la voz humana.
🧠 El modelo posee capacidad de procesamiento multimodal, analizando e respondiendo combinando información de imagen y audio.
💡 Soporta cambio de estilos de voz, satisfaciendo las necesidades de interacción de voz personalizada en diferentes escenarios.

7. Meta y UCSD lanzan DeepConf: la precisión del razonamiento de IA alcanza 99,9%, reduciendo el costo computacional en un 85%

La tecnología DeepConf lanzada por Meta y la Universidad de California en San Diego (UCSD) alcanzó una precisión del 99,9% en tareas de razonamiento complejas y redujo el consumo de recursos computacionales en un 84,7%. Esta tecnología introduce un mecanismo de "confianza", permitiendo que la IA ajuste dinámicamente sus estrategias de resolución de problemas, mejorando así la eficiencia y precisión del razonamiento.

[Resumen de AiBase:]
🔍 La tecnología DeepConf alcanzó una precisión del 99,9% en tareas de razonamiento complejas.
💡 El consumo de recursos computacionales se redujo en un 84,7%, disminuyendo significativamente los costos de cálculo.
🚀 A través del mecanismo de "confianza", la IA puede ajustar dinámicamente sus estrategias de resolución de problemas, mejorando la eficiencia del razonamiento.
Enlace de detalles: https://arxiv.org/abs/2508.15260

8. Musk reconoció que el repositorio de código de xAI fue robado, y un antiguo empleado se mudó a OpenAI!

Musk reconoció que el repositorio de código de xAI fue robado, y el antiguo empleado Xuechen Li fue acusado de robar secretos comerciales y mudarse a OpenAI, lo que provocó una amplia atención en la comunidad tecnológica.

[Resumen de AiBase:]
💻 Al antiguo empleado Xuechen Li se le acusó de robar secretos comerciales de xAI y mudarse a OpenAI.
🔒 xAI solicitó al tribunal prohibir a Li trabajar en OpenAI y devolver los datos robados.
🚀 Antes de dejar la empresa, Li vendió casi 7 millones de dólares, posiblemente ahorrando a OpenAI miles de millones en costos de investigación y desarrollo.

9. El equipo de Qwen de Alibaba lanzó el siguiente marco de automatización GUI Mobile-Agent-v3 y GUI-Owl

El equipo de Qwen de Alibaba lanzó dos productos revolucionarios —— Mobile-Agent-v3 y GUI-Owl —— con el objetivo de resolver los desafíos en la automatización de interfaces gráficas de usuario (GUI). Estas herramientas mejoran la capacidad de comprensión y ejecución de tareas mediante modelos multimodales y cooperación entre agentes, demostrando una fuerte capacidad para completar tareas en múltiples plataformas, lo que marca un importante avance en el campo de automatización de GUI general de Alibaba.

[Resumen de AiBase:]
🧠 GUI-Owl es un modelo de agente multimodal lanzado por Alibaba, integrando capacidades de percepción, razonamiento y ejecución, adaptándose a entornos de GUI complejos.
🤖 El marco Mobile-Agent-v3 permite la cooperación entre agentes, mejorando la eficiencia de ejecución de tareas mediante actualizaciones dinámicas de planes.
📊 Estos dos productos destacaron en pruebas de benchmark de automatización de GUI, marcando un importante avance en el campo de automatización de Alibaba.
Enlace de detalles: https://arxiv.org/abs/2508.15144

10. Microsoft lanza Copilot Labs, el primer instrumento experimental "Copilot Expresión de Audio" está disponible

Microsoft lanzó un nuevo centro de IA experimental llamado Copilot Labs, con el objetivo de invitar a los usuarios a participar en la innovación y el desarrollo de IA. Su primer instrumento es "Expresión de Audio de Copilot", que puede convertir texto escrito en voz narrativa natural y fluida, y soporta modos de emoción y narrativa, permitiendo al usuario tener un control elevado.

[Resumen de AiBase:]
🌟 Copilot Labs es una plataforma que invita a los usuarios a participar en la innovación de IA, marcando la exploración adicional de Microsoft en el campo de IA.
🔊 "Expresión de Audio de Copilot" es el primer instrumento experimental, capaz de convertir texto en voz natural y soportar modos de emoción y narrativa.
🌐 Este instrumento está disponible gratuitamente en todo el mundo, pero algunas funciones requieren iniciar sesión con una cuenta de Microsoft y tener una suscripción a Copilot Pro.
Enlace de detalles: https://copilot.microsoft.com/labs/experiments/audio-expression

11. Xiaohongshu-MCP, la herramienta mágica de automatización de Xiaohongshu, ya está disponible! AI ayuda a la creación de contenido, liberando tus manos!

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

La empresa noruega de robots 1X presenta su primer robot humanoide para uso doméstico, Neo, con un precio de 20.000 dólares y una tarifa de suscripción mensual de 499 dólares. Este robot de 1,68 metros está diseñado especialmente para tareas como lavar platos y ordenar, y utiliza un modelo de cooperación entre IA y operadores humanos a distancia, necesitando soporte externo para completar tareas complejas.

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

Amazon AWS anunció que invertirá otros 5.000 millones de dólares en Corea durante los próximos seis años para ampliar los centros de datos de inteligencia artificial, y colaborará con el Grupo SK para construir una instalación grande en Ulsan. La inversión total en Corea alcanzará los 12.600 millones de dólares, lo que demuestra su importancia estratégica para el mercado coreano.

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

La rápida evolución de las tecnologías de IA está transformando la industria de los videojuegos. La IA generativa trae nuevas oportunidades y desafíos, y empresas como Microsoft y Amazon están reorientando sus recursos hacia aplicaciones de IA. Los desarrolladores de videojuegos tienen opiniones diferentes sobre esto, y el futuro de la industria sigue siendo incierto.

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Qualcomm presenta dos chips de inferencia de IA en la nube, el AI200 y el AI250, que planea comercializar en 2026 y 2027, lo que marca su transición hacia una infraestructura integral de IA. Esta noticia impulso un aumento del 20% en el precio de las acciones en un solo día, el mayor aumento desde 2019. A diferencia de la estrategia completa de NVIDIA, Qualcomm se centra en el mercado de la inferencia de modelos grandes, destacando su ventaja en eficiencia energética y costo.

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

El 29 de octubre, Magic Leap y Google anunciaron una nueva colaboración en la conferencia Iniciativa de Inversión Futura de Riad, trabajando juntos para desarrollar un prototipo de gafas AR y promover avances en la tecnología de realidad aumentada. Ross Rosenburg, líder de Magic Leap, declaró que la empresa se está transformando de pionera en realidad aumentada a socio de ecosistema, aprovechando su experiencia en innovaciones ópticas y de visualización para alcanzar una nueva etapa de su visión.

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

El equipo de Tsinghua y Kuaishou Ling presenta el modelo SVG, que reemplaza al VAE, resolviendo el problema de entrelazamiento semántico, mejorando la eficiencia de entrenamiento en un 6200% y la velocidad de generación en un 3500%, lo que marca el paulatino abandono del VAE en el campo de generación de imágenes.

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

En la conferencia GTC de 2025, NVIDIA presentó el "Diseño Omniverse DSX", un esquema diseñado específicamente para centros de datos de IA de nivel giga, conocido como "fábrica de IA". Este esquema está basado en el marco Omniverse y admite diferentes escalas, desde 100 millones hasta 1.000 millones de vatios, con el objetivo de entrenar y ejecutar eficientemente modelos de IA grandes, satisfaciendo la creciente demanda de cálculo de IA, siendo un avance importante en la infraestructura de inteligencia artificial.

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

La televisión central informó sobre el problema de las noticias falsas creadas por la IA. Li Liang, vicepresidente de Douyin, respondió diciendo que la IA es una espada de doble filo: aunque es fácil propagar rumores, Douyin está utilizando la IA para combatirlos, desarrollando agentes inteligentes para buscar rápidamente información autoritativa y desmentir los rumores.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Diario de IA: Nuevas regulaciones sobre contenido de IA entraron en vigor; Meituan lanzó un modelo de gran tamaño de código abierto llamado LongCat; Jiechu propuso un modelo de gran tamaño de audio Step-Audio 2 mini

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

GEO Services

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento