Boletín diario de IA: Hedra ofrece gratis su herramienta de conversión de imágenes a videos parlantes; Deepmind lanza V2A, una excelente tecnología de doblaje automático de video; Se lanza oficialmente Meitu WHEE V2; Versión de código abierto de Sora puede generar videos HD de 720p con un solo clic

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Productos IA nuevos https://top.aibase.com/: Haga clic para obtener más información.

1. Hedra's Character-1 disponible para uso abierto

Hedra's Character-1 está disponible para uso abierto, ofreciendo a los creadores una herramienta asombrosa para generar videos de personas hablando o cantando a partir de texto e imágenes, lo que inicia una revolución creativa. No es solo una herramienta, sino una nueva plataforma de creación que permite a todos tener infinitas oportunidades para crear videos.

【Resumen de AiBase:】
⭐️ Generación de videos dinámicos: Suba fotos y agregue audio para que los personajes hablen o canten de forma realista.
⭐️ Compatibilidad multiplataforma: Los usuarios pueden utilizarlo fácilmente tanto en equipos de escritorio como en dispositivos móviles.
⭐️ Alta calidad garantizada: Las expresiones faciales, las posturas y la voz están sincronizadas, ofreciendo un resultado realista y satisfactorio.
Enlace de detalles: https://top.aibase.com/tool/hedra

2. Tecnología de conversión de video a audio V2A de Deepmind: Permite agregar música y voz en off a videos automáticamente

Google Deepmind ha lanzado la tecnología V2A, que utiliza píxeles de video y sugerencias de texto para generar pistas de audio ricas, logrando una sincronización perfecta entre audio y video. Los usuarios pueden guiar la salida de audio mediante descripciones de texto. El sistema utiliza métodos autoregresivos y de difusión para generar audio, asegurando la perfecta sincronización con el contenido del video. Durante el entrenamiento, se utilizan anotaciones generadas por IA para ayudar al modelo a comprender la relación entre los eventos de audio y las escenas visuales. Aunque existen desafíos en la sincronización de labios, la tecnología V2A se someterá a rigurosas pruebas de evaluación antes de su lanzamiento público.

【Resumen de AiBase:】
🔊 Agrega automáticamente música y voz en off a los videos.
🎶 Utiliza píxeles de video y sugerencias de texto para generar pistas de audio ricas.
🤖 Durante el entrenamiento, se utilizan anotaciones generadas por IA.
Enlace de detalles: https://top.aibase.com/tool/deepmind-v2a

3. Bilibili lanza el modelo de lenguaje IA ligero Index-1.9B de código abierto

El modelo Index-1.9B recientemente lanzado por Bilibili ha generado un gran interés. Este modelo incluye un modelo base, un grupo de control y un modelo de conversación, con 1.9 mil millones de parámetros no incrustados de palabras, y muestra un rendimiento líder en varios puntos de referencia de evaluación.

【Resumen de AiBase:】
🔍 Index-1.9B base: El modelo base tiene 1.9 mil millones de parámetros no incrustados de palabras, preentrenado en 2.8 T de datos de texto en chino e inglés, superando a los modelos del mismo nivel.
🔍 Index-1.9B pure: El grupo de control es idéntico al modelo base, pero se han filtrado los datos relacionados con las instrucciones para verificar la influencia en el benchmark.
🔍 Index-1.9B chat: Modelo de conversación alineado con el modelo base mediante SFT y DPO, que incorpora datos de comunidades en línea, lo que hace que las conversaciones sean más divertidas.
Enlace de detalles: https://top.aibase.com/tool/index-1-9b

4. Lanzamiento oficial de Meitu WHEE V2

Meitu ha lanzado la nueva versión de su editor de imágenes con IA WHEE V2, que integra varias funciones prácticas y tecnología de IA para ofrecer a los usuarios una experiencia integral eficiente y conveniente. Se han añadido funciones de pintura con IA y edición de imágenes con IA, lo que amplía las opciones de edición para los usuarios y admite la presentación creativa de materiales de varios tipos. Las funciones de selección inteligente y palabras clave facilitan la modificación natural para los usuarios, permitiendo personalizar el tamaño de la imagen, el contenido de las capas y la ampliación de la imagen de diversas formas. Cuenta con múltiples capas visualizables, reconocimiento semántico preciso, estilos versátiles y control de detalles, lo que permite un procesamiento de imágenes de alta calidad y personalizado.

【Resumen de AiBase:】
✨ Se han añadido funciones de pintura con IA y edición de imágenes con IA, ampliando las opciones de edición para los usuarios y permitiendo la presentación creativa de materiales de varios tipos.
💡 Las funciones de selección inteligente y palabras clave facilitan la modificación natural para los usuarios, permitiendo personalizar el tamaño de la imagen, el contenido de las capas y la ampliación de la imagen de diversas formas.
🎨 Cuenta con múltiples capas visualizables, reconocimiento semántico preciso, estilos versátiles y control de detalles, lo que permite un procesamiento de imágenes de alta calidad y personalizado.

5. El equipo de Lu Cheng Open-Sora logra un avance en la calidad de video HD de 720p y la duración de la generación

El equipo de Lu Cheng Open-Sora ha logrado un avance innovador en la calidad de video HD de 720p y la duración de la generación. El proyecto de código abierto ha simplificado la generación de videos y ha sido muy bien recibido por la comunidad. Lambda Labs, una empresa de IA con participación de Nvidia, también ha creado un universo de Lego digital basado en los pesos del modelo Open-Sora, abriendo nuevas posibilidades creativas. El informe técnico analiza en profundidad el núcleo y los puntos clave del entrenamiento del modelo, resolviendo los puntos débiles del entrenamiento de modelos de video y mejorando la calidad y la velocidad de generación.

【Resumen de AiBase:】
⚙️ El equipo de Open-Sora logra un avance en la calidad de video HD de 720p y la duración de la generación; el proyecto de código abierto simplifica el proceso de generación de video.
🌟 Lambda Labs crea un universo de Lego digital basado en los pesos del modelo Open-Sora, con infinitas posibilidades creativas.
🔬 El informe técnico revela detalles esenciales del entrenamiento del modelo, resolviendo los puntos débiles del entrenamiento de modelos de video y mejorando la calidad y la velocidad de generación.
Enlace de detalles: https://github.com/hpcaitech/Open-Sora

6. La plataforma de avatares digitales Xiling de Baidu se actualiza, admite la generación de avatares digitales 3D a partir de texto y la clonación de voz

La plataforma de avatares digitales Xiling de Baidu Smart Cloud está a punto de recibir una importante actualización, ofreciendo una generación eficiente y de bajo coste de avatares digitales 2D/3D, integrando completamente escenarios como transmisiones en directo, vídeos cortos y conversaciones, mejorando considerablemente la experiencia del usuario. La plataforma Xiling muestra una notable capacidad de generación de avatares digitales, generando avatares digitales realistas de forma rápida y precisa, ofreciendo nuevas posibilidades de creación de IP para empresas, turismo y entretenimiento.

【Resumen de AiBase:】
🌟 Generación de avatares digitales 2D/3D eficiente y de bajo coste, mejorando la experiencia del usuario.
🎨 Generación rápida y precisa de avatares digitales realistas, ofreciendo nuevas posibilidades de creación de IP para diversos sectores.
🔊 Ofrece una función de clonación de voz para generar voces personalizadas para la narración y la producción de contenido de los avatares digitales.

7. Meta lanza varios modelos: el modelo multimodal Chameleon, el modelo de generación de música a partir de texto JASCO y la tecnología de marca de agua de audio AudioSeal

Meta ha publicado recientemente varios resultados de investigación, incluyendo el modelo multimodal Chameleon, el modelo de generación de música a partir de texto JASCO y la tecnología de marca de agua de audio AudioSeal, aportando nuevas innovaciones tecnológicas y perspectivas de aplicación al campo de la IA. Estos resultados impulsarán el desarrollo y la aplicación de la tecnología de IA, lo que tiene una gran importancia.

【Resumen de AiBase:】
🌟 Meta ha lanzado el modelo multimodal Chameleon, que admite el procesamiento de entrada y salida mixtas de texto e imágenes, ofreciendo nuevas soluciones.
🎶 El nuevo método de entrenamiento de modelos de lenguaje Multi-Token Prediction ha mejorado la capacidad y la eficiencia del entrenamiento del modelo.
🔊 El modelo de generación de música a partir de texto JASCO puede aceptar diversas entradas condicionales, ofreciendo un mejor y más flexible control de la música.
Enlace de detalles: https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8. Google lanza GenType, un generador de alfabetos que se puede utilizar para crear fuentes artísticas para portadas

GenType es un producto experimental de Google, impulsado por el modelo Imagen2, que permite a los usuarios crear formas de letras personalizadas para escribir diversos contenidos, especialmente adecuado para la creación de títulos o arte de portada. La herramienta ofrece una interfaz sencilla e intuitiva que permite a los usuarios empezar rápidamente, despertando su creatividad e imaginación. Los usuarios pueden compartir y guardar las imágenes de los alfabetos generados y explorar las obras de otros usuarios en la galería en línea para obtener inspiración y nuevas ideas.

【Resumen de AiBase:】
🎨 Creación de alfabetos personalizados: Los usuarios pueden introducir cualquier sugerencia, y GenType la convierte en un alfabeto único, mostrando la creatividad individual.
🖌 Herramienta de creación artística: GenType no es solo un generador, sino también una herramienta de creación artística que permite a los usuarios crear un arte alfabético con infinitas posibilidades.
📷 Compartir y guardar: Ofrece opciones de compartir y guardar convenientes; los usuarios pueden guardar el alfabeto como una imagen PNG y compartirla en las redes sociales.
Enlace de detalles: https://top.aibase.com/tool/gentype

9. ¡Impresionante! Nvidia supera a Microsoft y se convierte en la empresa más valiosa del mundo

El precio de las acciones de Nvidia se ha disparado, superando a Microsoft, Apple y Google para convertirse en la empresa con mayor capitalización bursátil del mundo. La empresa planea lanzar una nueva arquitectura de GPU Blackwell; el director ejecutivo afirma que será el chip más potente del mundo y que lanzará nuevos chips de IA cada año. El precio de las acciones de Nvidia ha aumentado un 160% en 2024, alcanzando una capitalización bursátil de 3,335 billones de dólares.

【Resumen de AiBase:】
📈 Nvidia supera a Microsoft, Apple y Google para convertirse en la empresa con mayor capitalización bursátil del mundo.
💻 Nvidia planea lanzar la arquitectura de GPU Blackwell; el director ejecutivo afirma que será el chip más potente del mundo y que lanzará nuevos chips de IA cada año.
💰 El precio de las acciones de Nvidia ha aumentado un 160% en 2024, alcanzando una capitalización bursátil de 3,335 billones de dólares.

10. Después de anunciar nuevas funciones de inteligencia artificial, Apple lanza una "formación de IA" para desarrolladores

Apple ha anunciado el lanzamiento de un nuevo curso de formación en inteligencia artificial dirigido a estudiantes, tutores y antiguos alumnos de la Academia de Desarrolladores. Esto indica que la actitud abierta y la importancia que Apple da a la tecnología de IA están aumentando gradualmente.

【Resumen de AiBase:】
🍎 Apple lanza un nuevo curso de formación en inteligencia artificial centrado en desarrollar las habilidades de programación profesional de los estudiantes.
📚 El nuevo curso enseñará cómo construir, entrenar e implementar modelos de aprendizaje automático en dispositivos Apple.
💡 Las herramientas de IA de Apple se integrarán en varias plataformas, incluyendo Xcode, para ayudar a los desarrolladores a escribir código de forma más inteligente.

11. Se acusa a la obra generada por Dream Machine de Luma AI de plagio de la propiedad intelectual de Disney

La herramienta de generación de video Dream Machine de Luma ha generado dudas sobre la transparencia del modelo y el origen de los datos, especialmente por las acusaciones de plagio de obras de Disney. Esto ha puesto de manifiesto una de las mayores preocupaciones sobre este tipo de modelos: la falta de transparencia.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Speech-02 se lanza oficialmente: Colaboración con Hedra para crear contenido de alta calidad impulsado por voz

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Boletín diario de IA: Modelo SD 3.5 Medium de acceso abierto para uso comercial; Hedra lanza una nueva función de clonación de voz; WeChat prueba la función de preguntas y respuestas con IA; Nuevo asistente ComfyUI-Detail-Daemon para ComfyUI

Hedra lanza una nueva función de clonación de voz: los avatares de IA suenan más reales

Hedra, plataforma de creación de video con IA, recauda 10 millones de dólares y lanza el modelo de video con IA Character-1

Tutorial completo de Hedra: Cómo hacer que tus fotos hablen y muestren emociones

¡Nueva magia de generación de video con IA! Character-1 de Hedra puede hacer que tus fotos hablen y se muevan (con tutorial)

Character-1 de Hedra disponible para uso abierto: crea videos musicales con texto e imágenes