Bienvenido a la sección "Diario de IA"! Aquí es tu guía diaria para explorar el mundo de la inteligencia artificial. Cada día, te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándote a comprender las tendencias tecnológicas y conocer aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh

1. Xiaomi abre su primer modelo de voz de extremo a extremo nativo Xiaomi-MiMo-Audio

La empresa Xiaomi anunció el lanzamiento de su primer modelo de voz de extremo a extremo nativo, Xiaomi-MiMo-Audio, lo que marca un gran avance en el campo de la tecnología de voz. Este modelo se basa en una arquitectura de preentrenamiento innovadora y en datos de entrenamiento de cientos de millones de horas, mostrando una excelente capacidad de generalización con pocos ejemplos y superando a otros modelos propietarios en varios benchmarks de evaluación.

image.png

【Resumen de AiBase:】

🧠 Por primera vez, se logró la capacidad de generalización con pocos ejemplos en el ámbito de la voz basada en Aprendizaje en Contexto.

🚀 Superó a los modelos propietarios de Google y OpenAI en los benchmarks de MMAU y Big Bench Audio S2T.

🔧 Se abrió todo el esquema de preentrenamiento de voz, incluyendo Tokenizer, estructura del modelo, métodos de entrenamiento y sistemas de evaluación.

Enlace detallado: https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2. El modelo de generación de acciones Wan2.2-Animate de Tongyi Wanxiang se ha abierto oficialmente

El modelo de generación de acciones Wan2.2-Animate, lanzado por el equipo de Tongyi Wanxiang, muestra mejoras significativas en la coherencia de personajes y la calidad de generación. Soporta dos modos: imitación de acciones y representación de roles, y se aplica ampliamente en la creación de videos cortos y producción de animaciones.

image.png

【Resumen de AiBase:】

🎭 Al ingresar imágenes de personajes y videos de referencia, el modelo puede transferir las acciones del video al personaje de la imagen.

🎭 En el modo de representación de roles, el modelo puede reemplazar al personaje del video con el personaje de la imagen.

🖼️ El modelo diseñó un LoRA de fusión de iluminación independiente para garantizar una fusión perfecta del efecto de iluminación.

Enlace detallado: https://github.com/Wan-Video/Wan2.2

3. El modelo de música Suno v5 está a punto de llegar, trae una mejora "revolucionaria" en la creación musical con IA

El modelo de música Suno v5 está a punto de lanzarse, considerado un hito en la creación musical con IA, y se espera que elimine aún más la frontera entre la composición humana y la generada por máquinas.

image.png

【Resumen de AiBase:】

🎧 El modelo de música Suno v5 está a punto de salir, causando atención global.

💡 La v5 introducirá funciones más avanzadas de control semántico y entrada multimodal.

📈 Después del lanzamiento de la v4.5, la reproducción de obras creadas por usuarios superó miles de millones de veces.

4. Shengshu Technology obtiene financiación de miles de millones de yuanes, la generación de videos impulsa una nueva tendencia en la comercialización de IA

Shengshu Technology ha logrado avances notables en el campo de la IA multimodal, obteniendo con éxito financiación de miles de millones de yuanes y logrando un éxito comercial con el modelo de gran video Vidu. En el futuro, la tecnología de generación de videos tiene potencial para desarrollarse aún más y afectar a múltiples industrias, pero también debe enfrentar problemas como derechos de autor y falsas informaciones.

image.png

【Resumen de AiBase:】

🎥 Shengshu Technology completó una ronda de financiación de miles de millones de yuanes, marcando un nuevo avance en el campo de la IA multimodal.

💼 El modelo de gran video Vidu alcanzó ingresos anuales de 20 millones de dólares, con aplicaciones comerciales extensas.

🌐 La tecnología de generación de videos cambiará la forma en que se produce contenido digital a nivel mundial, enfrentando desafíos como la gestión de derechos de autor.

5. OpenAI corrige una vulnerabilidad en ChatGPT, evita que los datos de Gmail de los usuarios sean robados

El artículo señala que la empresa de ciberseguridad Radware descubrió una grave vulnerabilidad en la función "Investigación profunda" de ChatGPT, que podría ser utilizada por hackers para robar correos electrónicos de Gmail de los usuarios. Esta vulnerabilidad permitiría a los hackers inducir a ChatGPT a enviar información sensible a sitios maliciosos mediante correos electrónicos especializados. OpenAI corrigió rápidamente esta vulnerabilidad y destacó que la seguridad del modelo es su prioridad principal.

image.png

【Resumen de AiBase:】

📧 La vulnerabilidad de ChatGPT permite a los hackers robar datos de correo electrónico de Gmail de los usuarios mediante correos electrónicos especializados.

🔒 OpenAI corrigió rápidamente la vulnerabilidad y confirmó su compromiso con la seguridad de la información de los usuarios.

🛡️ Las protecciones de seguridad convencionales tienen dificultad para detectar este tipo de ataques; los usuarios deben mantenerse alerta.

6. Google introduce Gemini en el navegador Chrome, mejorando la experiencia de búsqueda inteligente

Google integró Gemini en el navegador Chrome para mejorar la experiencia del usuario y hacer frente a la competencia. Gemini admite trabajo entre pestañas y funciones de programación, y se integra profundamente con varias aplicaciones de Google. Los usuarios empresariales también beneficiarán de funciones de protección de datos y agentes.

image.png

【Resumen de AiBase:】

🌐 Google integró Gemini en Chrome, mejorando la experiencia de búsqueda inteligente del usuario.

📅 Gemini permite al usuario entender el contenido de páginas web, trabajar entre pestañas y organizar tareas.

🔒 Los usuarios empresariales también disfrutarán de las funciones de protección de datos y agente ofrecidas por Gemini.

7. Luma AI lanza Ray3: revoluciona la generación de videos con capacidad de "razonamiento", soporta 16 bits de profundidad de color

El modelo de generación de videos Ray3 de Luma AI, gracias a sus capacidades HDR y poderosas funciones de "razonamiento", trae cambios revolucionarios en la creación de videos, además de soportar control visual de alta precisión y integración con flujos de trabajo profesionales.

image.png

【Resumen de AiBase:】

🎥 Ray3 soporta la generación de videos con profundidad de color de 10, 12 e incluso 16 bits, y puede exportarse en formato EXR para su uso en flujos de trabajo profesionales.

🧠 Ray3 posee la capacidad de "razonamiento", capaz de comprender instrucciones complejas y evaluar automáticamente la calidad de la salida, logrando optimización iterativa de videos.

🖌️ Los usuarios pueden dibujar bocetos con imágenes para controlar el contenido del video, brindando una libertad creativa sin precedentes.

8. La empresa francesa de IA Mistral presenta oficialmente el modelo de razonamiento abierto Magistral Small 1.2

La empresa francesa Mistral AI lanzó su nuevo modelo de razonamiento abierto Magistral Small 1.2, que cuenta con 24B de parámetros y se publica bajo la licencia Apache2.0. La nueva versión soporta un procesamiento de contexto de hasta 128k, introduce el token especial [THINK], mejorando así la expresividad y flexibilidad del modelo. Además, Magistral Small 1.2 incluye un codificador visual, compatible con diversos marcos, brindando mayor comodidad a los desarrolladores.

image.png

【Resumen de AiBase:】

🧠 Magistral Small 1.2 es un modelo de razonamiento abierto con 24B de parámetros, liberado bajo la licencia Apache2.0.

🔍 La nueva versión introdujo el token especial [THINK], mejorando la expresividad y flexibilidad del modelo.

🖼️ Agregó un codificador visual, lo que le da ventaja en tareas combinadas de imágenes y texto.

9. Notion presenta oficialmente su primer agente de IA: genera automáticamente notas de reuniones, análisis de competidores, y procesa cientos de páginas en 20 minutos

Notion lanzó su primer agente de IA, que utiliza todas las páginas y bases de datos de Notion como contexto para generar automáticamente notas de reuniones, informes de análisis y evaluaciones de competidores. Esta función es poderosa, puede crear o actualizar páginas y bases de datos, y soporta la activación desde plataformas externas. La personalización es su característica distintiva, los usuarios pueden configurar una página de perfil para el agente, indicándole cómo citar fuentes, estilo de salida, etc.

image.png

【Resumen de AiBase:】

🧠 El agente de IA puede generar automáticamente notas de reuniones, informes de análisis y evaluaciones de competencia.

🔄 Soporta la activación del agente desde plataformas externas (como Slack, correos electrónicos y Google Drive).

📝 Los usuarios pueden personalizar la página de perfil del agente, guiando su comportamiento y estilo de salida.

10. Tencent Hunyuan 3D Studio llega con fuerza: la creación 3D pasa de días a minutos

El lanzamiento de Tencent Hunyuan 3D Studio marca un aumento revolucionario en la eficiencia de la creación 3D, ofreciendo una poderosa plataforma de trabajo de IA a diseñadores, desarrolladores de juegos y modeladores, reduciendo significativamente el ciclo de producción de activos 3D.

image.png

【Resumen de AiBase:】

🧠 El algoritmo original de segmentación 3D permite la división automática de componentes del modelo, admitiendo edición independiente de accesorios y ropa de personajes.

🎨 La tecnología de expansión UV semántica de IA genera mapas UV en 1-2 minutos, cumpliendo con los estándares artísticos y mejorando la eficiencia laboral.

🔧 La edición inteligente de materiales admite la generación de texturas de PBR de alta calidad mediante entrada de texto o imágenes, logrando un control preciso de los materiales.

Enlace detallado: https://3d.hunyuan.tencent.com/studio