Diario de IA: La función de marco inicial y final de Hailuo IA está en línea; Yeshi Technology lanza Wenda Xiao 5; OpenAI lanza un nuevo modelo de voz GPT-Realtime

Bienvenido al programa "Diario de IA"! Aquí es tu guía para explorar el mundo de la inteligencia artificial cada día. Cada día, te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores, para que comprendas las tendencias tecnológicas y conozcas las aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh

1. La función de marco inicial y final de HaiLuo AI de MiniMax se lanza oficialmente en web y aplicación

La función de marco inicial y final lanzada por HaiLuo AI está disponible oficialmente en web y en la aplicación, y se ha abierto el modo solo de marco final. Esta tecnología mejora significativamente el límite superior de la capacidad de marco inicial y final en la industria, mediante una comprensión más fuerte de las instrucciones, efectos dinámicos más suaves y una imaginación más audaz.

【Resumen de AiBase:】
🧠 Capacidad más fuerte para seguir instrucciones complejas, comprendiendo y ejecutando cada detalle con precisión
🎬 Generación de dinámicas físicas extremadamente complejas, como combinaciones fluidas de acciones intensas como peleas o gimnasia
🎨 Función de imaginación que supera las expectativas, logrando un desempeño extraordinario cuando hay un gran salto entre el primer y último marco o falta de instrucciones

2. Yuan Shi Technology lanza Wenshao 5, desafiando a GPT-5, aparece un nuevo referente nacional de IA

El producto estrella de Yuan Shi Technology, Wenshao 5, alcanza prestaciones cercanas a GPT-5 en varias pruebas, marcando un importante avance en la tecnología de modelos grandes nacionales. Este sistema posee un modo de pensamiento dinámico, adecuado para múltiples campos, y destaca especialmente en capacidades STEM, conocimientos punteros y programación de código.

【Resumen de AiBase:】
✨ Wenshao 5 alcanza prestaciones cercanas a GPT-5, convirtiéndose en un nuevo referente nacional de IA.
🧠 Posee un modo de pensamiento dinámico, capaz de decidir inteligentemente cuándo responder rápidamente o pensar profundamente.
📊 Destaca en capacidades STEM, conocimientos avanzados y programación de código, obteniendo una calificación general superior a los productos similares.

3. OpenAI lanza un nuevo modelo de voz GPT-Realtime, diseñado específicamente para agentes de IA de voz

OpenAI lanzó un nuevo modelo de voz llamado GPT-Realtime, diseñado específicamente para agentes de IA de voz, capaz de generar voz natural y fluida, y soportar entradas de imágenes y cambio de idioma. Su capacidad de razonamiento y precisión en seguimiento de instrucciones se ha mejorado significativamente, además de ofrecer funciones de seguridad poderosas, aplicables en múltiples sectores industriales.

【Resumen de AiBase:】
🎙️ GPT-Realtime es un modelo multimedios de voz lanzado por OpenAI, diseñado específicamente para agentes de IA de voz.
🧠 El modelo posee capacidades de razonamiento e interpretación de instrucciones, mejorando el nivel de inteligencia de la interacción de voz.
🔒 El API Realtime incluye medidas de protección de seguridad, garantizando la privacidad y seguridad de los datos de los usuarios.

4. ¡Adiós a lo complicado! Google Gemini AI hace que el procesamiento de tablas sea muy fácil

Google introdujo el asistente Gemini AI, lo que hace que el procesamiento de datos en Google Sheets sea más inteligente y eficiente, mejorando la experiencia del usuario.

【Resumen de AiBase:】
📊 El asistente Gemini AI de Google trae funciones de procesamiento de datos inteligentes para Google Sheets.
💡 La nueva función "Convertir en tabla" analiza y organiza automáticamente los datos, mejorando la productividad.
🔄 Los usuarios pueden personalizar expresiones de fórmulas, adaptándose a cambios en los datos, sin necesidad de ajustar manualmente las fórmulas.

5. ¡La revolución de la voz de IA está aquí! Tencen presenta una tecnología revolucionaria que convierte máquinas en narradores profesionales, generando efectos de sonido de Hollywood con una sola frase

El artículo presenta la tecnología AudioStory desarrollada por el laboratorio ARC de Tencen, que puede generar contenido de audio de alta calidad basado en descripciones de texto, con una fuerte capacidad narrativa. Utiliza una estrategia de división y mecanismo de conexión desacoplada para realizar tareas complejas de generación de audio.

【Resumen de AiBase:】
✨ La tecnología AudioStory puede generar contenido de audio de películas basado en descripciones de texto.
🧠 Utiliza una estrategia de división, dividiendo historias complejas en eventos de audio ordenados.
🔄 El mecanismo de conexión desacoplada asegura una coincidencia precisa entre la calidad del audio y el significado.
Enlace detallado: https://arxiv.org/pdf/2508.20088

6. Baidu planea formar 10 millones de especialistas en IA en los próximos cinco años

El artículo describe el plan de Baidu de formar 10 millones de especialistas en IA en los próximos cinco años, mostrando sus continuos esfuerzos y logros en el campo de la inteligencia artificial. Además, menciona que los ingresos de las nuevas actividades de IA de Baidu han tenido un buen desempeño, demostrando su competitividad en el mercado.

【Resumen de AiBase:】
🌟 Baidu planea formar otros 10 millones de especialistas en IA en los próximos cinco años, impulsando el desarrollo de la industria.
📈 Según el informe de Baidu del segundo trimestre de 2025, los ingresos de las nuevas actividades de IA superaron los 10 mil millones de yuanes, un aumento del 34% frente al año anterior.
🎓 La formación de talentos se llevará a cabo a través de colaboraciones con universidades, capacitación empresarial y educación en línea.

7. ¡Un tutor de IA contra el fraude aparece! MathGPT.ai tiene éxito en 30 universidades en EE.UU., se implementará a gran escala este otoño

MathGPT.ai redefine el rol de la IA en la educación matemática mediante la metodología socrática y mecanismos de control liderados por profesores. Esta plataforma no solo ofrece servicios de tutoría contra el fraude, sino que también apoya cursos universitarios de matemáticas y se integra con sistemas de gestión de aprendizaje principales, asegurando un acceso sin obstáculos.

【Resumen de AiBase:】
🧠 MathGPT.ai utiliza la técnica de preguntas socráticas, animando a los estudiantes a pensar críticamente en lugar de obtener respuestas directamente.
🔒 Los profesores pueden controlar cómo los estudiantes utilizan las herramientas de IA, incluyendo si el IA proporciona apoyo de tutoría.
🌐 La plataforma está integrada con Canvas, Blackboard y Brightspace, y es compatible con lectores de pantalla, mejorando la accesibilidad para personas con discapacidad.

8. Xcode de Apple integra claudsonnet4: ¡la era de la revolución de la IA llega a iOS!

Apple integró oficialmente el modelo de IA Claude Sonnet4 en Xcode 26Beta7, brindando a los desarrolladores de iOS una experiencia de programación inteligente. Este modelo puede generar código de alta calidad, localizar errores y repararlos automáticamente, y la nueva función inline playgrounds permite a los desarrolladores ejecutar y probar código directamente en las líneas de código, mejorando la eficiencia de desarrollo.

【Resumen de AiBase:】
🍎 Integración del modelo de IA Claude Sonnet4, mejorando la capacidad de generación de código y corrección de errores.
🧪 Nueva función inline playgrounds, permitiendo ejecutar ejemplos de código en tiempo real.
🔒 Implementado basándose en interfaces de extensión oficiales de Apple, asegurando estabilidad y seguridad de la funcionalidad.

9. Microsoft lanza su primer modelo de IA desarrollado internamente MAI-Voice-1 y MAI-1-preview, compitiendo con OpenAI

Microsoft lanzó su primer modelo de IA desarrollado internamente MAI-Voice-1 y MAI-1-preview, lo que marca un avance importante en el campo de la inteligencia artificial y fortalece su competencia con OpenAI. MAI-Voice-1 puede generar audio rápidamente y ya se ha aplicado en funciones como Copilot Daily; mientras que MAI-1-preview se centra en ayudar con consultas diarias y futuramente se utilizará en el procesamiento de texto del asistente de IA Copilot.

【Resumen de AiBase:】
🗣️ MAI-Voice-1 puede generar audio rápidamente y ya se ha utilizado en varias funciones, como Copilot Daily.
🚀 MAI-1-preview se utilizará en el procesamiento de texto del asistente de IA Copilot, lo que marca un avance importante de Microsoft en el ámbito de la IA de consumo.
🌟 Microsoft lanzó dos modelos de IA desarrollados internamente, MAI-Voice-1 y MAI-1-preview, mejorando su competitividad con OpenAI.
Enlace detallado: https://microsoft.ai/news/two-new-in-house-models/

10. xAI presenta Grok Code Fast1: un modelo de codificación rápido y económico para desarrolladores de software

xAI presentó Grok Code Fast1, un modelo de lenguaje grande diseñado específicamente para el desarrollo de software, rápido y económico. Este modelo muestra un excelente rendimiento en capacidad de razonamiento y generación de código, y ya está disponible gratuitamente en múltiplas plataformas de programación inteligente principales.

【Resumen de AiBase:】
🚀 Grok Code Fast1 utiliza una arquitectura ligera, mejorando la velocidad del servicio y la tasa de aciertos de caché.
🌐 Soporta plataformas como GitHub Copilot y Cursor, ofreciendo una prueba gratuita para atraer a desarrolladores a experimentar.
💰 La estrategia de precios es competitiva, con 0,20 dólares por millón de tokens de entrada y 1,50 dólares por token de salida, ideal para desarrolladores con presupuesto limitado.
Enlace detallado: https://x.ai/news/grok-code-fast-1

11. SuperCLUE multimodal visual榜单 de agosto: Gemini-2.5-Pro ocupa el primer lugar

En el ranking del benchmark de modelos de lenguaje visual multimodal chino (SuperCLUE-VLM) publicado el 28 de agosto, Gemini-2.5-Pro obtuvo 74,99 puntos y ocupó el primer lugar, seguido por GPT-5(high) de OpenAI con 68,59 puntos. Este ranking se construye en torno a tres dimensiones: reconocimiento básico, razonamiento visual y aplicación visual, con el objetivo de proporcionar un estándar objetivo y justo para evaluar modelos de lenguaje visual multimodal.

【Resumen de AiBase:】
🧠 Gemini-2.5-Pro obtuvo 74,99 puntos en el ranking SuperCLUE-VLM, demostrando una fuerte capacidad multimodal.
📊 El cuestionario incluye 15 modelos multimodales, incluidos modelos nacionales y extranjeros como Claude-Opus-4.1 y GPT-5(high).
🏆 ERNIE-4.5-Turbo-VL de Baidu se clasifica junto con otros modelos nacionales, mostrando una fuerte competitividad en el mercado.

12. Reglamento sobre etiquetado de contenido de IA del 1 de septiembre: riesgos legales directos por incumplimiento, los profesionales deben ver el guía de prevención de riesgos

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

Diario de IA: La función de marco inicial y final de Hailuo IA está en línea; Yeshi Technology lanza Wenda Xiao 5; OpenAI lanza un nuevo modelo de voz GPT-Realtime

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Anker presenta un grabador de voz de inteligencia artificial tan pequeño como una moneda

Se informa que DeepSeek lanzará un modelo de agente de IA potente a finales de año

Diario de IA: Apple lanzará en 2024 una búsqueda de IA para Siri; OpenAI permite el uso de la función Projects en ChatGPT; Kimi K2-0905 se lanza en Discord

La apariencia de Microsoft Copilot se lanzará a un público más amplio

IDC: El mercado global de robots de limpieza para el hogar inteligente crece a pesar de la situación adversa, con un aumento del 33% en las entregas

Ultraman: el uso de Codex de OpenAI aumenta 10 veces, destacando la gran influencia de GPT-5

Raycast lanza el complemento Cursor Agent, la programación con IA es más eficiente

Kimi K2-0905 se lanza en Discord, aún no tiene capacidad de pensamiento y visión

¡Alegría general! Se ha publicado el modelo de instrucción oficial de nano banana de Google, incluyendo un ejemplo completo de código

Se informa que Apple está desarrollando su propio motor de búsqueda de inteligencia artificial, el plan de preguntas y respuestas sobre conocimiento mundial se lanzará en primavera de 2026

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

Diario de IA: La función de marco inicial y final de Hailuo IA está en línea; Yeshi Technology lanza Wenda Xiao 5; OpenAI lanza un nuevo modelo de voz GPT-Realtime

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Anker presenta un grabador de voz de inteligencia artificial tan pequeño como una moneda

Se informa que DeepSeek lanzará un modelo de agente de IA potente a finales de año

Diario de IA: Apple lanzará en 2024 una búsqueda de IA para Siri; OpenAI permite el uso de la función Projects en ChatGPT; Kimi K2-0905 se lanza en Discord

La apariencia de Microsoft Copilot se lanzará a un público más amplio

IDC: El mercado global de robots de limpieza para el hogar inteligente crece a pesar de la situación adversa, con un aumento del 33% en las entregas

Ultraman: el uso de Codex de OpenAI aumenta 10 veces, destacando la gran influencia de GPT-5

Raycast lanza el complemento Cursor Agent, la programación con IA es más eficiente

Kimi K2-0905 se lanza en Discord, aún no tiene capacidad de pensamiento y visión

¡Alegría general! Se ha publicado el modelo de instrucción oficial de nano banana de Google, incluyendo un ejemplo completo de código

Se informa que Apple está desarrollando su propio motor de búsqueda de inteligencia artificial, el plan de preguntas y respuestas sobre conocimiento mundial se lanzará en primavera de 2026

GEO Services