Boletín diario de IA: Lanzamiento simultáneo de las versiones o1 y 4o de TianGong de Kunlun Wanwei; Luo Yonghao lanza el asistente de IA «J1 Assistant»; iQIYI demanda al modelo de IA de MiniMax por infracción de derechos de autor

¡Bienvenido a la sección de noticias diarias de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, con enfoque en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA haciendo clic aquí: https://top.aibase.com/

1. Lanzamiento oficial de las versiones 4.0o1 y 4o del modelo TianGong de Kunlun Wanwei

El 6 de enero de 2025, Kunlun Wanwei Group lanzó sus últimas versiones del "modelo TianGong 4.0", la 4.0o1 y la 4o, marcando un gran avance en el campo de la inteligencia artificial. La versión 4.0o1 es el primer modelo de China con capacidad de razonamiento lógico en chino, y tras las actualizaciones tecnológicas, puede gestionar diversos desafíos de razonamiento. La versión 4o es un modelo multimodal con capacidad de expresión emocional y multilingüística, ofreciendo a los usuarios una experiencia de conversación más natural.

【Resumen de AiBase:】
🧠 La versión 4.0o1 tiene capacidad de razonamiento lógico en chino y, tras las actualizaciones tecnológicas, puede gestionar desafíos de razonamiento matemático, de código y de otros tipos.
💬 La versión 4o es un modelo multimodal que ofrece expresión emocional y el asistente de voz en tiempo real Skyo, con respuestas rápidas.
🌐 El lanzamiento de ambos modelos impulsa el progreso tecnológico y la expansión de aplicaciones de Kunlun Wanwei en el campo de la IA.
Enlace de detalles: https://www.tiangong.cn/

2. Lanzamiento oficial del nuevo asistente de IA de Luo Yonghao, "J1Assistant", que lidera la nueva era inteligente mediante la interacción de voz

El proyecto de inteligencia artificial de Luo Yonghao, Jarvis, lanzó el software asistente de IA "J1Assistant", actualmente disponible solo en versión Android para el extranjero. Lo más destacado del software es su función de entrada de audio, que permite a los usuarios enviar mensajes, buscar información o interactuar con el modelo de IA fácilmente mediante voz. J1Assistant integra el propio modelo de IA de Jarvis y tiene una función de notas para ayudar a los usuarios a gestionar sus tareas diarias.

【Resumen de AiBase:】
🎤 J1Assistant presenta una función de entrada de audio que permite a los usuarios realizar operaciones mediante voz, mejorando la experiencia interactiva.
📅 Integra el modelo de IA propio de Jarvis, proporcionando respuestas útiles y una función de notas para ayudar a los usuarios a gestionar sus tareas.
🌍 Actualmente solo admite la versión Android; en el futuro, es probable que se lancen más funciones y plataformas para satisfacer las necesidades de los usuarios.

3. iQiyi demanda a MiniMax: el modelo de IA presuntamente infringe los derechos de autor, solicitando una indemnización de 100.000 yuanes

Según informes de los medios, iQiyi presentó una demanda ante el tribunal acusando a la empresa emergente de IA MiniMax de infringir sus derechos de autor durante el entrenamiento del modelo. Se acusa a MiniMax de utilizar material de iQiyi sin autorización para generar contenido infractor. iQiyi exige que MiniMax cese inmediatamente la infracción y pague una indemnización de 100.000 yuanes. MiniMax podría argumentar que el material es de acceso público o que proviene de la entrada del usuario para lograr la exención de responsabilidad legal. Todavía no hay respuesta pública de ambas partes, y la controversia legal sigue en desarrollo.

【Resumen de AiBase:】
⚖️ iQiyi ha demandado a MiniMax ante los tribunales por infracción de derechos de autor.
📜 Se acusa a MiniMax de utilizar material con derechos de autor de iQiyi sin autorización para entrenar el modelo.
💰 iQiyi exige que MiniMax cese la infracción y pague una indemnización de aproximadamente 100.000 yuanes.

4. ¡Desarrollado por el equipo de Alibaba! Tecnología de transferencia de maquillaje SHMT: solo necesita una imagen de referencia de maquillaje para maquillarse

El modelo SHMT, recientemente lanzado por el Instituto de Investigación de Alibaba DAMO, utiliza un modelo de difusión latente para lograr una transferencia precisa de los efectos de maquillaje, y ha sido aceptado por la conferencia académica internacional de primer nivel NeurIPS2024. Esta tecnología, mediante una sencilla imagen de referencia de maquillaje y una foto del personaje objetivo, puede generar rápidamente el efecto de maquillaje, impulsando enormemente el desarrollo de las aplicaciones de maquillaje y el campo del procesamiento de imágenes.

【Resumen de AiBase:】
🎓 El modelo SHMT utiliza un modelo de difusión latente para transferir los efectos de maquillaje y ha sido aceptado por NeurIPS2024.
🔧 El equipo proporciona código abierto completo y modelos preentrenados para facilitar su aplicación y mejora por parte de los investigadores.
📂 La preparación de los datos y el ajuste de los parámetros son cruciales; la investigación proporciona instrucciones detalladas sobre el procedimiento operativo y la estructura de los directorios.
Enlace de detalles: https://github.com/Snowfallingplum/SHMT

5. ByteDance lanza el nuevo modelo de IA de código abierto LatentSync para controlar con precisión la sincronización labial

LatentSync, lanzado por ByteDance, es una tecnología de sincronización labial de extremo a extremo avanzada que utiliza un modelo de difusión latente con condicionamiento de audio para lograr una coincidencia precisa entre los movimientos labiales de las personas en los videos y el audio. Esta tecnología, mediante la introducción de la tecnología TREPA, mejora la coherencia temporal y optimiza la convergencia de SyncNet, mejorando significativamente la precisión de la sincronización labial.

【Resumen de AiBase:】
🎤 Marco de extremo a extremo: LatentSync no necesita representación de movimiento intermedia, generando directamente los movimientos labiales a partir del audio.
🌟 Generación de alta calidad: utiliza Stable Diffusion para generar videos de habla dinámicos y realistas, mejorando el efecto visual.
⏱️ Coherencia temporal: mediante la tecnología TREPA, se mejora la coherencia temporal entre los fotogramas de video, garantizando la precisión de la sincronización labial.
Enlace de detalles: https://github.com/bytedance/LatentSync

6. Meta lanza una nueva tecnología de capa de memoria: supera las limitaciones de los parámetros y mejora significativamente la precisión de los datos de la IA

Meta ha lanzado recientemente una innovadora tecnología de capa de memoria destinada a mejorar la precisión de los datos de los modelos de lenguaje grandes y ampliar la escala de los parámetros. Esta tecnología, mediante un mecanismo de búsqueda de clave-valor entrenable, mejora significativamente la capacidad de almacenamiento y recuperación de información del modelo. Los resultados experimentales muestran que los modelos equipados con la capa de memoria presentan un rendimiento excelente en varias tareas, especialmente en tareas de datos, donde el rendimiento mejora significativamente.

【Resumen de AiBase:】
🧩 La tecnología de capa de memoria mejora la precisión de los datos mediante un mecanismo de activación dispersa, alcanzando una escala de 128.000 millones de parámetros.
🚀 Los experimentos muestran que los modelos equipados con la capa de memoria presentan un mejor rendimiento que los modelos densos tradicionales en tareas como las preguntas y respuestas basadas en datos.
🔧 Los investigadores han realizado varias optimizaciones en la capa de memoria, mejorando el rendimiento y la estabilidad, mostrando una gran escalabilidad.
Enlace de detalles: https://arxiv.org/pdf/2412.09764

7. Yukai lanza el robot de compañía "Mirumi": una textura suave que le ofrece una experiencia emocional como la de un bebé

Yukai Engineering, conocida por sus innovadores productos robóticos, lanzó recientemente Mirumi, una pequeña bola peluda que cabe en una cartera y que puede girar la cabeza espontáneamente para observar a las personas que la rodean. Este robot está diseñado para imitar la inocencia y la alegría de un bebé, ofreciendo una experiencia interactiva placentera. El diseño de Mirumi se inspira en los yokai japoneses y, combinado con la tecnología de detección de movimiento, expresa diversas emociones como la curiosidad y la timidez, lo que subraya aún más la posición única de Yukai en el campo de los robots peculiares.

【Resumen de AiBase:】
👶 Mirumi es una pequeña bola peluda que puede girar la cabeza espontáneamente para observar a su alrededor, ofreciendo una sensación de placer.
🤔 Este robot expresa emociones mediante la detección de movimiento, imitando la inocencia y la interacción de un bebé.
🎉 El diseño de Mirumi se inspira en los yokai japoneses y pretende reproducir la alegría de interactuar con un bebé.

8. OpenAI comienza a orientarse hacia la "superinteligencia"

Sam Altman, CEO de OpenAI, anunció en su blog que la empresa ha dominado la tecnología central para construir inteligencia artificial general (AGI) y que se orientará hacia la superinteligencia. Cree que la superinteligencia mejorará significativamente la velocidad de los descubrimientos científicos y la innovación, impulsando la prosperidad social. A pesar de las limitaciones actuales de la tecnología, como las "alucinaciones" y los altos costos operativos, Altman confía en el futuro y cree que el progreso tecnológico cambiará la línea de tiempo.

【Resumen de AiBase:】
🌟 Sam Altman, CEO de OpenAI, afirma que la empresa ha dominado la tecnología para construir AGI y que se orientará hacia la superinteligencia.
🔍 La AGI se define como un sistema altamente autónomo que supera económicamente a los humanos; OpenAI tiene un acuerdo claro con Microsoft al respecto.
🚀 A pesar de las limitaciones actuales de la tecnología, Altman confía en el desarrollo futuro y cree que la línea de tiempo cambiará con el progreso tecnológico.

9. El investigador chino de la Universidad de Harvard, Jeffrey Wang, se une a OpenAI para centrarse en el trabajo de preentrenamiento e inferencia de modelos

Jeffrey Wang, investigador chino de la Universidad de Harvard, se unió recientemente a OpenAI para centrarse en el trabajo de preentrenamiento e inferencia de modelos. Sus logros académicos y su experiencia en investigación han llamado la atención, especialmente sus contribuciones en el campo del aprendizaje automático y la privacidad. La incorporación de Jeffrey no solo es un paso importante en su carrera profesional, sino que también demuestra el poder de atracción de OpenAI para los mejores talentos y presagia un floreciente desarrollo futuro de la investigación en IA.

【Resumen de AiBase:】
🎓 Durante su tiempo en la Universidad de Harvard, Jeffrey Wang participó activamente en la investigación de aprendizaje automático y estadística, y enseñó cursos relacionados.
📄 Sus resultados de investigación se han publicado en varias conferencias internacionales, explorando temas como la privacidad de los modelos de lenguaje y la equidad de los modelos de difusión.
🌟 La incorporación de Jeffrey Wang demuestra la capacidad de OpenAI para atraer a los mejores talentos, impulsando el desarrollo del campo de la IA.

10. Microsoft planea invertir 80.000 millones de dólares en el año fiscal 2025 en la construcción de centros de datos de inteligencia artificial

Microsoft planea invertir 80.000 millones de dólares en el año fiscal 2025 en la construcción de centros de datos especializados en el procesamiento de cargas de trabajo de inteligencia artificial. Esta inversión tiene como objetivo acelerar el entrenamiento de modelos de IA y la implementación global de aplicaciones en la nube, mostrando la importancia de Estados Unidos en la nueva ola tecnológica. Con el rápido desarrollo de la tecnología de IA, la inversión de Microsoft no solo es una expansión de su propio negocio, sino que también refleja la urgente necesidad de infraestructura, proporcionando en el futuro un sólido apoyo a la transformación digital de más sectores.

【Resumen de AiBase:】
💰 Más de la mitad de los fondos se destinarán a la construcción en Estados Unidos, lo que demuestra su importancia en la tecnología de IA.
🌐 La relación competitiva entre Microsoft y OpenAI es cada vez más tensa, lo que podría afectar la configuración del sector en el futuro.
⚡ Con el aumento de la demanda de tecnología de IA, la demanda de energía también está aumentando drásticamente, y los centros de datos se enfrentan al riesgo de escasez de energía.

11. ¡Increíble capacidad! La IA puede "escuchar" las señales de que una batería de litio está a punto de incendiarse

Las baterías de iones de litio están omnipresentes en nuestra vida diaria, pero su sobrecalentamiento o daño pueden provocar incendios graves. En 2023, se produjeron numerosos incendios en la ciudad de Nueva York causados por baterías de bicicletas eléctricas, causando varias muertes. Para hacer frente a este riesgo, el equipo de investigación del NIST ha desarrollado una tecnología de alerta temprana de incendios basada en el sonido que puede utilizar algoritmos de IA para identificar el sonido de la rotura de la válvula de seguridad de la batería y emitir una alerta con aproximadamente dos minutos de antelación.

【Resumen de AiBase:】
🔥 El equipo de investigación del NIST ha desarrollado una tecnología de alerta temprana de incendios de baterías de litio basada en el sonido, utilizando IA para identificar el sonido de la rotura de la válvula de seguridad.
🔊 El algoritmo entrenado tiene una tasa de identificación de hasta el 94%, manteniendo una detección eficiente incluso con diversas interferencias de ruido.
⏳ Se espera que el nuevo detector de incendios proporcione una alerta temprana de aproximadamente dos minutos, ayudando a las personas a escapar a tiempo.

12. Musk anuncia el próximo lanzamiento de Grok3, ¡con una potencia diez veces superior!

En el campo de la inteligencia artificial, Elon Musk vuelve a ser el centro de atención. En las redes sociales, reveló que el esperado modelo Grok3 está a punto de lanzarse, con una capacidad de cálculo diez veces superior a la de Grok2. La serie Grok ha llamado mucho la atención desde su lanzamiento, y aunque el lanzamiento de Grok3 ha sufrido algunos retrasos, las últimas noticias de Musk sin duda entusiasman a los usuarios que lo esperan.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Boletín diario de IA: Lanzamiento simultáneo de las versiones o1 y 4o de TianGong de Kunlun Wanwei; Luo Yonghao lanza el asistente de IA «J1 Assistant»; iQIYI demanda al modelo de IA de MiniMax por infracción de derechos de autor

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

ByteDance lanza Vidi, un modelo multimodal que revoluciona la comprensión y edición de videos extensos

Shanghai AI Lab lanza la versión mejorada del modelo multimodal multifacético: Shu Sheng · Wan Xiang 3.0

ByteDance lanza el modelo multimodal Liquid de código abierto: una revolución en la generación unificada de imágenes y texto

Plataforma Nacional de Supercomputación lanza un nuevo modelo multimodal de gran tamaño para impulsar el desarrollo de agentes de IA

SenseTime lanza un nuevo modelo multimodal de gran tamaño, preparando el camino para una nueva era de interacción

Meta anuncia el lanzamiento de código abierto de Llama 4, un potente modelo multimodal

Boletín diario de IA: Taobao inicia la gestión de imágenes falsas con IA; OpenAI anuncia soporte para el protocolo MCP; Alibaba lanza el modelo multimodal Qwen2.5-Omni

Alibaba lanza su primer modelo multimodal completo, Qwen2.5-Omni, desafiando a los gigantes tecnológicos mundiales

Alibaba lanza el nuevo modelo multimodal Qwen2.5-VL-32B: combina lenguaje visual y razonamiento matemático

Boletín diario de IA: ¡Importante! Quark de Alibaba se actualiza a Súper Cuadro de IA; Google lanza el modelo multimodal Gemma-3 de código abierto; Luocheng Technology lanza Open-Sora 2.0, un modelo de video de código abierto