Diario de IA: El modelo Wan 2.2-S2V pronto se lanzará; ByteDance prueba internamente un generador de modelos 3D; Microsoft libera el modelo VibeVoice-1.5B

站长之家

Publicado elNoticias de IA · 16 minutos de lectura · Aug 26, 2025

Bienvenido al programa "Diario de IA"! Esta es su guía diaria para explorar el mundo de la inteligencia artificial. Cada día, le presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores, para que pueda comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh

1. Anticipado por Tongyi Wanxiang de Alibaba: Modelo Wan 2.2-S2V, generación sincronizada de video y audio

El equipo de Tongyi Wanxiang de Alibaba publicó su nuevo modelo de IA Wan 2.2-S2V en la plataforma de redes sociales X. Este modelo puede generar video y audio simultáneamente, logrando una integración profunda entre video y audio. Esto marca un avance importante en la tecnología de generación multimpodal de IA, proporcionando a los creadores de contenido herramientas más eficientes y expresivas.

【Resumen de AiBase:】
🔥 El modelo Wan2.2-S2V tiene la capacidad de generar video y audio sincronizados, superando las limitaciones de los modelos tradicionales de generación de video.
🎵 El modelo puede generar videos de IA con audio de canto, mostrando la innovación de la tecnología de generación multimpodal de IA.
🚀 Este modelo podría redefinir los estándares del campo de generación de videos de IA, impulsando el desarrollo de contenido con mayor inmersión y realismo.

2. ByteDance prueba una nueva herramienta de generación de modelos 3D llamada “3D Model Generator”

El equipo Doutu de ByteDance está desarrollando una nueva herramienta de generación de modelos 3D llamada “3D Model Generator”, con el objetivo de proporcionar a los usuarios funciones de generación a gran escala controlables. Esta herramienta admite métodos de generación basados en imágenes y combinando imágenes con archivos de modelos, reduciendo la barrera de la modelización 3D, especialmente significativo en el ámbito del desarrollo de juegos.

【Resumen de AiBase:】
🖼️ Soporta la generación de modelos 3D basados en imágenes, reduciendo la barrera de la modelización 3D.
⚙️ Ofrece métodos de generación combinando imágenes y archivos de modelos, mejorando la flexibilidad de la creación.
🚀 Se espera que esté disponible públicamente, ampliando las funciones de Doutu y atendiendo mejor las necesidades de los usuarios.

3. ¡Incluso los teléfonos pueden ejecutarlo! MinitCPM-V4.5, lanzado con fuerza por Mianbi Intelligence: 410 millones de parámetros superan a GPT-4.1-mini

Mianbi Intelligence y el laboratorio de NLP de la Universidad de Ciencia y Tecnología de China lanzaron MinitCPM-V4.5, un modelo multimodal de extremo, con un rendimiento excelente y una implementación eficiente. Este modelo obtuvo excelentes resultados en múltiples pruebas estándar, soporta múltiples idiomas, videos y procesamiento de imágenes de alta resolución, se adapta a dispositivos periféricos y promueve la difusión de la tecnología de IA.

【Resumen de AiBase:】
🌟 MinitCPM-V4.5 con 410 millones de parámetros alcanza un alto rendimiento, superando modelos como GPT-4.1-mini.
🖼️ Soporta la comprensión de múltiples imágenes, videos y el procesamiento de imágenes de alta resolución, con una ventaja en OCR frente a los modelos principales.
📱 Implementación eficiente en dispositivos periféricos, adecuado para escenarios móviles y sin conexión, reduciendo la barrera de desarrollo.
Enlace detallado: https://huggingface.co/openbmb/MiniCPM-V-4_5

4. Apple lanza un nuevo método de entrenamiento de IA: Reemplazar la calificación humana con listas de tareas mejora significativamente el rendimiento del modelo

El equipo de investigación de Apple propuso un método innovador de entrenamiento llamado aprendizaje por refuerzo basado en listas de retroalimentación (RLCF), que sustituye el mecanismo tradicional de calificación humana mediante puntuaciones de "me gusta" por listas de tareas específicas, mejorando considerablemente la capacidad del modelo de lenguaje grande para ejecutar instrucciones complejas. Este método muestra un buen desempeño en varios benchmarks, especialmente en la ejecución de tareas complejas con múltiples pasos.

【Resumen de AiBase:】
🍎 El método RLCF sustituye la calificación humana por listas de tareas, mejorando la capacidad del modelo para ejecutar instrucciones complejas.
📊 En pruebas como FollowBench e InFoBench, el rendimiento mejora significativamente, alcanzando hasta un 8,2%.
⚙️ Utiliza modelos grandes para generar listas de verificación, guiando a modelos pequeños para optimizarlos, pero requiere recursos informáticos poderosos.

5. Microsoft abre el modelo VibeVoice-1.5B: Nueva ruptura en la síntesis de voz de 90 minutos

Microsoft abrió el modelo de audio VibeVoice-1.5B, que logró importantes avances en la tecnología de síntesis de voz, incluyendo la síntesis de voz de 90 minutos, soporte para cuatro oradores y una tasa de compresión de audio de 3200 veces. Además, su arquitectura de doble tokenizer resolvió efectivamente el problema de incompatibilidad entre tono de voz y semántica, brindando una nueva ruptura tecnológica en el campo de la síntesis de voz.

【Resumen de AiBase:】
🔊 El modelo VibeVoice-1.5B puede sintetizar un audio de 90 minutos de una vez, soportando hasta cuatro oradores.
💾 El modelo logra una tasa de compresión de audio de 3200 veces, manteniendo un sonido de alta fidelidad.
🤖 Utiliza una arquitectura de doble tokenizer para resolver el problema de incompatibilidad entre tono de voz y semántica.
Enlace detallado: https://huggingface.co/microsoft/VibeVoice-1.5B

6. Imagen 4 de Google ya está disponible en Gemini API y Google AI Studio

La empresa Google lanzó el nuevo modelo de generación de imágenes a partir de texto Imagen4, accesible a los usuarios a través de la plataforma Gemini API y Google AI Studio. Este modelo incluye tres versiones optimizadas para diferentes necesidades, mejorando la calidad, velocidad y eficiencia de costos de la generación de imágenes, proporcionando poderosas herramientas para industrias como el arte, el diseño publicitario, etc.

【Resumen de AiBase:】
🌟 La versión estándar de Imagen4 mejora la calidad general de la generación de imágenes, destacando especialmente en la precisión de la representación de texto.
⚡ La versión Imagen4Fast optimiza la generación rápida de imágenes y tareas de procesamiento masivo, mejorando significativamente la velocidad y reduciendo el costo a 0,02 dólares por generación.
🖼️ La versión Imagen4Ultra puede generar detalles más finos en imágenes y seguir más precisamente las instrucciones de texto de los usuarios, asegurando consistencia y precisión en los resultados generados.

7. Pérdida de talento clave en IA de ByteDance: El director de investigación visual Feng Jiasi deja oficialmente la empresa

Feng Jiasi, como principal responsable del equipo de investigación básica visual del modelo Seed de ByteDance, su salida tuvo cierto impacto en la estrategia de investigación de IA de la empresa. Tiene una sólida formación académica y experiencia en el campo de visión por computadora, y logró logros notables tras unirse a ByteDance.

【Resumen de AiBase:】
🔥 Feng Jiasi es el responsable del equipo de investigación básica visual del modelo Seed de ByteDance, su salida ha generado amplia atención.
💡 Feng Jiasi tiene formación en la Universidad de Ciencia y Tecnología de China, el Instituto de Automática de la Academia China de Ciencias y la Universidad Nacional de Singapur, con una sólida formación académica.
🚀 Durante su tiempo en ByteDance, lideró investigaciones sobre modelos básicos multimodales y modelos de generación, contribuyendo significativamente a la innovación tecnológica de la empresa.

8. NVIDIA lanza la plataforma de cómputo para robots Jetson Thor

NVIDIA lanzó una nueva plataforma de cómputo para robots llamada Jetson Thor, basada en la arquitectura GPU Blackwell, con una potencia de IA de 2070 TFLOPS, lo que representa un aumento de 7,5 veces en comparación con la generación anterior. Esta plataforma cuenta con 128 GB de memoria, admite la ejecución de múltiples modelos de IA y se integra con la plataforma de simulación NVIDIA Isaac, ofreciendo un entorno de desarrollo unificado para los desarrolladores.

【Resumen de AiBase:】
🚀 Jetson Thor utiliza la arquitectura GPU Blackwell, con una potencia de IA de 2070 TFLOPS, un aumento significativo en el rendimiento.
🧠 Viene equipado con 128 GB de memoria muy grande, admitiendo el procesamiento multitarea y la operación eficiente en escenarios complejos.
🌐 Se integra con la plataforma de simulación NVIDIA Isaac, proporcionando un entorno de desarrollo unificado desde la nube hasta los bordes.

9. Genspark lanza AIDesigner: Generación automática de todo el plan de marca, redefine el nuevo panorama del diseño con IA

AIDesigner de Genspark es una herramienta revolucionaria de diseño de IA que puede generar soluciones completas de diseño de marca con un solo clic, abarcando áreas como logotipos, empaques y diseños de sitios web, reduciendo significativamente la barrera del diseño y recibiendo amplia atención de la comunidad de diseño y la industria de la tecnología a nivel mundial.

【Resumen de AiBase:】
🎨 AIDesigner de Genspark admite entradas multimodales, puede generar activos de diseño como iconos vectoriales, renderizados 3D y videos animados.
🌐 Esta herramienta completa tareas de diseño complejas mediante instrucciones de lenguaje natural, ofreciendo soluciones completas para logotipos de marcas, empaques y diseño de sitios web.
💡 AIDesigner redefine el proceso de diseño de marcas, proporcionando soluciones eficientes y económicas para creadores y empresas.
Enlace detallado: https://www.genspark.ai/ai_designer

10. Doutu presenta oficialmente el modo de protección para menores de edad

Doutu lanzó el modo de protección para menores de edad, con el objetivo de ayudar a los padres a gestionar el comportamiento de uso de sus hijos. Este modo desactiva algunas funciones, como videos recomendados y navegación en páginas web de terceros, pero mantiene funciones como traducción e investigación profunda.

【Resumen de AiBase:】
🔒 El modo de protección para menores de edad puede ser activado por los padres mediante una contraseña, limitando el acceso a ciertos contenidos.
📺 Las funciones de videos recomendados y navegación en páginas web de terceros están desactivadas por defecto en este modo.
🌐 Las funciones de traducción e investigación profunda aún se pueden usar normalmente, asegurando que el aprendizaje y la exploración no se vean afectados.

Tencent lanza la nueva versión de IMA 2.0: se presenta el modo de tareas, se añaden funciones como «Puntos de IA»

El 23 de octubre, Tencent presentó oficialmente la nueva versión actualizada de IMA 2.0 en el evento IMA Open Day. Como la primera biblioteca de conocimiento personal que integra capacidad de Agente en la industria, IMA 2.0 lanzó el «modo de tareas», convirtiendo a la biblioteca de conocimiento de una herramienta de búsqueda y preguntas simples en un compañero inteligente capaz de comprender tareas complejas, desglosar pasos por sí mismo, utilizar herramientas y completar todo el proceso.

La programación de Doubao se actualiza, lanza dos modos de creación y preguntas y respuestas

Recientemente, la programación de Doubao lanzó oficialmente dos modos de creación y preguntas y respuestas, ofreciendo a los usuarios una experiencia de programación más flexible y eficiente. Esta actualización no solo agregó funciones útiles, sino que también redujo aún más la barrera para programar, permitiendo que incluso los usuarios sin conocimientos previos puedan completar creaciones profesionales con facilidad. En el modo de creación, la programación de Doubao agregó las funciones de imagen de referencia y lienzo; los usuarios solo necesitan cargar una imagen de referencia o usar el lienzo para dibujar diagramas de flujo o diagramas de cuadros, y el modelo puede restablecer directamente el diseño, ayudando a los usuarios a lograr los resultados deseados del producto. Esta función facilita enormemente a los usuarios sin conocimientos de programación, permitiéndoles acceder a la creación profesional.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Diario de IA: El modelo Wan 2.2-S2V pronto se lanzará; ByteDance prueba internamente un generador de modelos 3D; Microsoft libera el modelo VibeVoice-1.5B

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

¡ChatGPT se convierte en un asistente de vida versátil! Conéctese con Spotify, Booking, Canva y otros ocho plataformas con un solo clic

Tencent lanza la nueva versión de IMA 2.0: se presenta el modo de tareas, se añaden funciones como «Puntos de IA»

La programación de Doubao se actualiza, lanza dos modos de creación y preguntas y respuestas

Huawei HarmonyOS 6 lanzado: la inteligencia artificial en el extremo se implementa completamente, Huawei acelera la batalla clave de la inteligencia artificial

Anthropic lanza la versión web de Claude Code, puede ejecutar tareas de programación en el navegador

Diario de IA: Visual China alcanza un acuerdo con varias empresas de modelos grandes; OpenAI suspende urgentemente la generación de figuras fallecidas en Sora; Google lanza una herramienta de integración de datos cartográficos Gemini

Strella recauda 14 millones de dólares en financiación para impulsar la innovación en la tecnología de entrevistas de inteligencia artificial y la investigación de clientes

El modelo de inteligencia artificial C2S-Scale 27B para vías de tratamiento del cáncer desarrollado por Google DeepMind y la Universidad de Yale

Claude se integra profundamente con Microsoft 365, mejorando aún más la eficiencia empresarial!

Toutiao lanza el modelo grande Douyin 1.6: el primer modelo nacional que admite profundidad de pensamiento ajustable

Noticias de IA relacionadas recomendadas

¡ChatGPT se convierte en un asistente de vida versátil! Conéctese con Spotify, Booking, Canva y otros ocho plataformas con un solo clic

Tencent lanza la nueva versión de IMA 2.0: se presenta el modo de tareas, se añaden funciones como «Puntos de IA»

La programación de Doubao se actualiza, lanza dos modos de creación y preguntas y respuestas

Huawei HarmonyOS 6 lanzado: la inteligencia artificial en el extremo se implementa completamente, Huawei acelera la batalla clave de la inteligencia artificial

Anthropic lanza la versión web de Claude Code, puede ejecutar tareas de programación en el navegador

Diario de IA: Visual China alcanza un acuerdo con varias empresas de modelos grandes; OpenAI suspende urgentemente la generación de figuras fallecidas en Sora; Google lanza una herramienta de integración de datos cartográficos Gemini

Strella recauda 14 millones de dólares en financiación para impulsar la innovación en la tecnología de entrevistas de inteligencia artificial y la investigación de clientes

El modelo de inteligencia artificial C2S-Scale 27B para vías de tratamiento del cáncer desarrollado por Google DeepMind y la Universidad de Yale

Claude se integra profundamente con Microsoft 365, mejorando aún más la eficiencia empresarial!

Toutiao lanza el modelo grande Douyin 1.6: el primer modelo nacional que admite profundidad de pensamiento ajustable

GEO Services