Bienvenido al programa "Diario de IA"! Esta es su guía diaria para explorar el mundo de la inteligencia artificial. Cada día, le presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores, para que pueda comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.
Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh
1. Anticipado por Tongyi Wanxiang de Alibaba: Modelo Wan 2.2-S2V, generación sincronizada de video y audio
El equipo de Tongyi Wanxiang de Alibaba publicó su nuevo modelo de IA Wan 2.2-S2V en la plataforma de redes sociales X. Este modelo puede generar video y audio simultáneamente, logrando una integración profunda entre video y audio. Esto marca un avance importante en la tecnología de generación multimpodal de IA, proporcionando a los creadores de contenido herramientas más eficientes y expresivas.
【Resumen de AiBase:】
🔥 El modelo Wan2.2-S2V tiene la capacidad de generar video y audio sincronizados, superando las limitaciones de los modelos tradicionales de generación de video.
🎵 El modelo puede generar videos de IA con audio de canto, mostrando la innovación de la tecnología de generación multimpodal de IA.
🚀 Este modelo podría redefinir los estándares del campo de generación de videos de IA, impulsando el desarrollo de contenido con mayor inmersión y realismo.
2. ByteDance prueba una nueva herramienta de generación de modelos 3D llamada “3D Model Generator”
El equipo Doutu de ByteDance está desarrollando una nueva herramienta de generación de modelos 3D llamada “3D Model Generator”, con el objetivo de proporcionar a los usuarios funciones de generación a gran escala controlables. Esta herramienta admite métodos de generación basados en imágenes y combinando imágenes con archivos de modelos, reduciendo la barrera de la modelización 3D, especialmente significativo en el ámbito del desarrollo de juegos.
【Resumen de AiBase:】
🖼️ Soporta la generación de modelos 3D basados en imágenes, reduciendo la barrera de la modelización 3D.
⚙️ Ofrece métodos de generación combinando imágenes y archivos de modelos, mejorando la flexibilidad de la creación.
🚀 Se espera que esté disponible públicamente, ampliando las funciones de Doutu y atendiendo mejor las necesidades de los usuarios.
3. ¡Incluso los teléfonos pueden ejecutarlo! MinitCPM-V4.5, lanzado con fuerza por Mianbi Intelligence: 410 millones de parámetros superan a GPT-4.1-mini
Mianbi Intelligence y el laboratorio de NLP de la Universidad de Ciencia y Tecnología de China lanzaron MinitCPM-V4.5, un modelo multimodal de extremo, con un rendimiento excelente y una implementación eficiente. Este modelo obtuvo excelentes resultados en múltiples pruebas estándar, soporta múltiples idiomas, videos y procesamiento de imágenes de alta resolución, se adapta a dispositivos periféricos y promueve la difusión de la tecnología de IA.
【Resumen de AiBase:】
🌟 MinitCPM-V4.5 con 410 millones de parámetros alcanza un alto rendimiento, superando modelos como GPT-4.1-mini.
🖼️ Soporta la comprensión de múltiples imágenes, videos y el procesamiento de imágenes de alta resolución, con una ventaja en OCR frente a los modelos principales.
📱 Implementación eficiente en dispositivos periféricos, adecuado para escenarios móviles y sin conexión, reduciendo la barrera de desarrollo.
Enlace detallado: https://huggingface.co/openbmb/MiniCPM-V-4_5
4. Apple lanza un nuevo método de entrenamiento de IA: Reemplazar la calificación humana con listas de tareas mejora significativamente el rendimiento del modelo
El equipo de investigación de Apple propuso un método innovador de entrenamiento llamado aprendizaje por refuerzo basado en listas de retroalimentación (RLCF), que sustituye el mecanismo tradicional de calificación humana mediante puntuaciones de "me gusta" por listas de tareas específicas, mejorando considerablemente la capacidad del modelo de lenguaje grande para ejecutar instrucciones complejas. Este método muestra un buen desempeño en varios benchmarks, especialmente en la ejecución de tareas complejas con múltiples pasos.
【Resumen de AiBase:】
🍎 El método RLCF sustituye la calificación humana por listas de tareas, mejorando la capacidad del modelo para ejecutar instrucciones complejas.
📊 En pruebas como FollowBench e InFoBench, el rendimiento mejora significativamente, alcanzando hasta un 8,2%.
⚙️ Utiliza modelos grandes para generar listas de verificación, guiando a modelos pequeños para optimizarlos, pero requiere recursos informáticos poderosos.
5. Microsoft abre el modelo VibeVoice-1.5B: Nueva ruptura en la síntesis de voz de 90 minutos
Microsoft abrió el modelo de audio VibeVoice-1.5B, que logró importantes avances en la tecnología de síntesis de voz, incluyendo la síntesis de voz de 90 minutos, soporte para cuatro oradores y una tasa de compresión de audio de 3200 veces. Además, su arquitectura de doble tokenizer resolvió efectivamente el problema de incompatibilidad entre tono de voz y semántica, brindando una nueva ruptura tecnológica en el campo de la síntesis de voz.
【Resumen de AiBase:】
🔊 El modelo VibeVoice-1.5B puede sintetizar un audio de 90 minutos de una vez, soportando hasta cuatro oradores.
💾 El modelo logra una tasa de compresión de audio de 3200 veces, manteniendo un sonido de alta fidelidad.
🤖 Utiliza una arquitectura de doble tokenizer para resolver el problema de incompatibilidad entre tono de voz y semántica.
Enlace detallado: https://huggingface.co/microsoft/VibeVoice-1.5B
6. Imagen 4 de Google ya está disponible en Gemini API y Google AI Studio
La empresa Google lanzó el nuevo modelo de generación de imágenes a partir de texto Imagen4, accesible a los usuarios a través de la plataforma Gemini API y Google AI Studio. Este modelo incluye tres versiones optimizadas para diferentes necesidades, mejorando la calidad, velocidad y eficiencia de costos de la generación de imágenes, proporcionando poderosas herramientas para industrias como el arte, el diseño publicitario, etc.
【Resumen de AiBase:】
🌟 La versión estándar de Imagen4 mejora la calidad general de la generación de imágenes, destacando especialmente en la precisión de la representación de texto.
⚡ La versión Imagen4Fast optimiza la generación rápida de imágenes y tareas de procesamiento masivo, mejorando significativamente la velocidad y reduciendo el costo a 0,02 dólares por generación.
🖼️ La versión Imagen4Ultra puede generar detalles más finos en imágenes y seguir más precisamente las instrucciones de texto de los usuarios, asegurando consistencia y precisión en los resultados generados.
7. Pérdida de talento clave en IA de ByteDance: El director de investigación visual Feng Jiasi deja oficialmente la empresa
Feng Jiasi, como principal responsable del equipo de investigación básica visual del modelo Seed de ByteDance, su salida tuvo cierto impacto en la estrategia de investigación de IA de la empresa. Tiene una sólida formación académica y experiencia en el campo de visión por computadora, y logró logros notables tras unirse a ByteDance.
【Resumen de AiBase:】
🔥 Feng Jiasi es el responsable del equipo de investigación básica visual del modelo Seed de ByteDance, su salida ha generado amplia atención.
💡 Feng Jiasi tiene formación en la Universidad de Ciencia y Tecnología de China, el Instituto de Automática de la Academia China de Ciencias y la Universidad Nacional de Singapur, con una sólida formación académica.
🚀 Durante su tiempo en ByteDance, lideró investigaciones sobre modelos básicos multimodales y modelos de generación, contribuyendo significativamente a la innovación tecnológica de la empresa.
8. NVIDIA lanza la plataforma de cómputo para robots Jetson Thor
NVIDIA lanzó una nueva plataforma de cómputo para robots llamada Jetson Thor, basada en la arquitectura GPU Blackwell, con una potencia de IA de 2070 TFLOPS, lo que representa un aumento de 7,5 veces en comparación con la generación anterior. Esta plataforma cuenta con 128 GB de memoria, admite la ejecución de múltiples modelos de IA y se integra con la plataforma de simulación NVIDIA Isaac, ofreciendo un entorno de desarrollo unificado para los desarrolladores.
【Resumen de AiBase:】
🚀 Jetson Thor utiliza la arquitectura GPU Blackwell, con una potencia de IA de 2070 TFLOPS, un aumento significativo en el rendimiento.
🧠 Viene equipado con 128 GB de memoria muy grande, admitiendo el procesamiento multitarea y la operación eficiente en escenarios complejos.
🌐 Se integra con la plataforma de simulación NVIDIA Isaac, proporcionando un entorno de desarrollo unificado desde la nube hasta los bordes.
9. Genspark lanza AIDesigner: Generación automática de todo el plan de marca, redefine el nuevo panorama del diseño con IA
AIDesigner de Genspark es una herramienta revolucionaria de diseño de IA que puede generar soluciones completas de diseño de marca con un solo clic, abarcando áreas como logotipos, empaques y diseños de sitios web, reduciendo significativamente la barrera del diseño y recibiendo amplia atención de la comunidad de diseño y la industria de la tecnología a nivel mundial.
【Resumen de AiBase:】
🎨 AIDesigner de Genspark admite entradas multimodales, puede generar activos de diseño como iconos vectoriales, renderizados 3D y videos animados.
🌐 Esta herramienta completa tareas de diseño complejas mediante instrucciones de lenguaje natural, ofreciendo soluciones completas para logotipos de marcas, empaques y diseño de sitios web.
💡 AIDesigner redefine el proceso de diseño de marcas, proporcionando soluciones eficientes y económicas para creadores y empresas.
Enlace detallado: https://www.genspark.ai/ai_designer
10. Doutu presenta oficialmente el modo de protección para menores de edad
Doutu lanzó el modo de protección para menores de edad, con el objetivo de ayudar a los padres a gestionar el comportamiento de uso de sus hijos. Este modo desactiva algunas funciones, como videos recomendados y navegación en páginas web de terceros, pero mantiene funciones como traducción e investigación profunda.
【Resumen de AiBase:】
🔒 El modo de protección para menores de edad puede ser activado por los padres mediante una contraseña, limitando el acceso a ciertos contenidos.
📺 Las funciones de videos recomendados y navegación en páginas web de terceros están desactivadas por defecto en este modo.
🌐 Las funciones de traducción e investigación profunda aún se pueden usar normalmente, asegurando que el aprendizaje y la exploración no se vean afectados.