¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del ámbito de la IA, con enfoque en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. Este fin de semana del Primero de Mayo, Xiaohongshu fue conquistado por el "AI de arcilla" de Remini

Durante el fin de semana del Primero de Mayo, una nueva tendencia arrasó en la plataforma Xiaohongshu: el filtro "AI de arcilla". Rápidamente ocupó la página principal de Xiaohongshu, convirtiéndose en el centro de atención de los usuarios. La función de filtro de arcilla AI de Remini ha generado una nueva ola de popularidad a nivel mundial, demostrando el potencial de la tecnología de IA en el campo del procesamiento de imágenes.

image.png

【Resumen de AiBase:】

📸 Xiaohongshu conquistado por el "AI de arcilla", fotos con un estilo de arcilla único se vuelven virales.

🔥 La función de filtro de arcilla AI de Remini es muy popular, los usuarios solo necesitan subir una imagen para obtener una foto con estilo de arcilla.

🚀 El éxito de Remini demuestra el enorme potencial de los productos de IA de procesamiento de imágenes para satisfacer las necesidades de vida y entretenimiento de los usuarios.

Enlace de detalles: https://top.aibase.com/tool/remini-app

2. HeyGen lanza la herramienta de edición automática de vídeo Instant Highlights 1.0

HeyGen ha lanzado recientemente la herramienta de edición de vídeo automática Instant Highlights 1.0, ofreciendo a los usuarios una experiencia de edición de vídeo sencilla. Esta herramienta cuenta con una función de doblaje multilingüe, simplificando el trabajo de adaptación de contenido de vídeo para múltiples plataformas y mejorando la eficiencia de la difusión de contenido. Además, HeyGen también ha lanzado la tecnología Avatar in Motion 1.0, que permite la captura de movimiento y la clonación de voz de personajes virtuales, ampliando el potencial de aplicación de los personajes virtuales en diversos campos. Estas dos nuevas tecnologías demuestran la fortaleza e innovación de HeyGen en el campo de la IA.

image.png

【Resumen de AiBase:】

✨ Función de doblaje multilingüe, simplifica la adaptación de vídeo para múltiples plataformas y mejora la eficiencia de la difusión de contenido.

🌟 La tecnología Avatar in Motion 1.0 permite la captura de movimiento y la clonación de voz de personajes virtuales, ampliando su potencial de aplicación.

💡 HeyGen demuestra una sólida capacidad e innovación en el campo de la IA, ofreciendo a los usuarios una experiencia personalizada y enriquecedora.

Enlace de detalles: https://top.aibase.com/tool/heygen

3. StoryDiffusion: Mantiene la coherencia de los personajes, puede generar cómics de varias imágenes y vídeos largos

La herramienta StoryDiffusion, desarrollada por el equipo HVision de la Universidad Nankai, puede crear historias mágicas, manteniendo la coherencia de los personajes, generando cómics de varias imágenes y vídeos largos. Mediante la implementación de Consistent self-attention y Motion predictor, genera imágenes y vídeos coherentes, pudiendo utilizarse en diversas situaciones como la generación de cómics, la conversión de imágenes a vídeo, etc.

image.png

【Resumen de AiBase:】

🔮 Consistent self-attention permite la generación coherente de imágenes de personajes.

🎥 Motion predictor permite la generación de vídeos largos.

🎨 Admite varias funciones de generación de contenido, como la generación de cómics, la conversión de imágenes a vídeo y vídeos largos y cortos.

Enlace de detalles: https://top.aibase.com/tool/storydiffusion

4. La herramienta de música con IA Udio se actualiza, puede crear música de hasta 15 minutos

Estoy muy entusiasmado con las últimas actualizaciones de Udio. Estas actualizaciones ofrecen una experiencia de creación musical más larga y coherente, brindando a los creadores de música más libertad y posibilidades creativas.

image.png

【Resumen de AiBase:】

✨ Ventana de contexto expandida, considera el contenido de los dos minutos anteriores y posteriores, mejorando la coherencia de las obras musicales.

🎵 Admite la creación de pistas de audio de hasta 15 minutos, satisfaciendo las necesidades de duración de la creación musical.

🌳 Se introduce una innovadora forma de organizar el historial de pistas de audio, permitiendo a los usuarios rastrear claramente la evolución de las versiones de las pistas de audio.

Enlace de detalles: https://top.aibase.com/tool/udio

5. Adobe presenta Project Neo, una herramienta de iconos 3D que permite una rápida conversión de 2D a 3D

Project Neo, la última creación de Adobe, es una tecnología 3D revolucionaria que mejora los efectos visuales y la eficiencia de producción del diseño gráfico 2D tradicional mediante la integración de elementos y efectos 3D. Su función de creación de ilustraciones rápida y eficiente permite a los usuarios crear fácilmente formas 3D únicas, aumentando enormemente la productividad. Project Neo cuenta con potentes funciones de estilización y modelado, y su función mejorada de control del color permite a los usuarios ajustar con precisión los tonos intermedios y las sombras, añadiendo profundidad y geometría a sus diseños.

image.png

【Resumen de AiBase:】

✨ Revolución de la tecnología 3D, mejora la eficiencia del diseño 2D.

🎨 Creación rápida de ilustraciones, creación sencilla de formas únicas.

🖌️ Potente función de estilización, ajuste preciso del color y las sombras.

Enlace de detalles: https://top.aibase.com/tool/project-neo

6. Se revela el plan de IA de Apple: se acerca una Siri más inteligente

Apple está trabajando para mejorar Siri, utilizando modelos más pequeños y eficientes, y planea que en el futuro Siri pueda responder inteligentemente sin necesidad de una palabra de activación. La IA de Apple muestra diversas aplicaciones potenciales en áreas como la salud, la edición de imágenes y los Memojis, y la estrategia de IA de la compañía está cada vez más clara.

image.png

【Resumen de AiBase:】

⭐ Apple trabaja para mejorar Siri utilizando modelos más pequeños y eficientes.

⭐ El futuro de Siri podría ser responder inteligentemente sin necesidad de una palabra de activación.

⭐ La IA de Apple muestra diversas aplicaciones potenciales en áreas como la salud, la edición de imágenes y los Memojis.

7. VILA: un modelo multimodal que comprende vídeo, compatible con la implementación en portátiles

VILA es un modelo de lenguaje visual lanzado por NVIDIA que cuenta con funciones de comprensión de vídeo y de múltiples imágenes. La última versión, VILA-1.5, admite la selección de varios tamaños de modelo y se puede implementar de forma eficiente en diversas GPU NVIDIA mediante los backends TinyChat y TensorRT-LLM.

image.png

【Resumen de AiBase:】

💡 VILA es un modelo de lenguaje visual preentrenado en datos de texto e imagen entrelazados a gran escala.

💡 Se lanza VILA-1.5, con funciones de comprensión de vídeo y admite la selección de varios tamaños de modelo.

💡 VILA se implementa de forma eficiente en diversas GPU NVIDIA mediante los backends TinyChat y TensorRT-LLM.

Enlace de detalles: https://top.aibase.com/tool/vila

8. ChatRTX de NVIDIA incorpora varias funciones nuevas

La última actualización de ChatRTX de NVIDIA incorpora varias funciones nuevas, incluyendo soporte para más modelos de lenguaje de gran tamaño, entrenamiento previo de imágenes de lenguaje contrastivo, sistema de reconocimiento de voz Whisper, etc., mejorando significativamente las capacidades de las aplicaciones de chatbots. La actualización refleja la continua innovación de NVIDIA en el campo de la IA y la tecnología de aceleración RTX, ofreciendo a los usuarios una experiencia más inteligente e interactiva.

image.png

【Resumen de AiBase:】

✨ ChatRTX admite más modelos de lenguaje de gran tamaño, incluyendo Gemma de Google y ChatGLM3 bilingüe chino-inglés, ampliando su capacidad de procesamiento del lenguaje.

🔍 ChatRTX admite el entrenamiento previo de imágenes de lenguaje contrastivo (CLIP) de OpenAI, permitiendo a los usuarios interactuar con fotos e imágenes en sus dispositivos locales mediante texto.

🎙 ChatRTX admite el sistema de reconocimiento de voz Whisper, permitiendo a los usuarios interactuar con ChatRTX mediante voz, mejorando la experiencia del usuario.

Enlace de detalles: https://blogs.nvidia.com/blog/ai-decoded-chatrtx-update/

9. Brilliant Labs lanza Frame: unas gafas AR de código abierto integradas con IA

Brilliant Labs ha lanzado recientemente Frame, unas gafas AR de código abierto que combinan la inteligencia artificial (IA) y la realidad aumentada (AR) para ofrecer a los usuarios una experiencia interactiva sin precedentes. Las gafas Frame cuentan con una potente capacidad visual, recopilando y analizando en tiempo real los datos de imagen que el usuario ve, proporcionando respuestas detalladas a preguntas complejas mediante modelos de IA avanzados, y mejorando la comprensión e interacción del usuario con el entorno que le rodea. Admite la interacción multimodal, la función de traducción en tiempo real y, en combinación con el asistente de IA Noa en la nube, ofrece funciones de AR más potentes.

image.png

【Resumen de AiBase:】

👓 Las gafas Frame combinan la tecnología de IA y AR para ofrecer una experiencia interactiva sin precedentes.

🔍 Frame cuenta con una potente capacidad visual, analizando en tiempo real los datos de imagen que el usuario ve.

🗣️ Admite la interacción multimodal, la función de traducción en tiempo real y, en combinación con el asistente de IA Noa en la nube, ofrece funciones de AR más potentes.

Enlace de detalles: https://brilliant.xyz/

10. Rabbit R1 sigue siendo investigado: cambio repentino de rumbo en el auge de la IA, los usuarios que recargaron NFT lloran amargamente, el modelo de IA de gran envergadura también es una imitación

Este artículo revela el camino de transformación de Rabbit en el auge de la IA, y las dificultades que enfrentan los usuarios que recargaron NFT. El artículo señala que el modelo de IA de gran envergadura LAM, lanzado por la empresa, depende de la interfaz de OpenAI, pero se le acusa de imitar Android. Al mismo tiempo, la transformación de la empresa del metaverso a los terminales de IA ha generado dudas y atención por parte de los usuarios.

【Resumen de AiBase:】

🔍 Rabbit cambia repentinamente de rumbo en el auge de la IA, los usuarios que recargaron NFT se enfrentan a dificultades.

💥 El modelo de IA de gran envergadura LAM, que depende de la interfaz de OpenAI, es acusado de imitar Android.

🔄 La transformación de la empresa del metaverso a los terminales de IA ha generado dudas y atención por parte de los usuarios.

Enlace de detalles: https://twitter.com/EmilyLShepherd/status/1786037498507853852