¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Descubre nuevos productos de IA aquí

1. OpenAI anuncia una actualización de búsqueda para ChatGPT: admite mapas, voz avanzada y más funciones

En su última transmisión en vivo, OpenAI anunció una importante actualización tecnológica para la plataforma ChatGPT, lanzando una búsqueda en tiempo real y un modo de interacción de voz avanzada, lo que mejora considerablemente la experiencia del usuario. Gracias a la optimización del algoritmo de búsqueda, los usuarios pueden obtener información en tiempo real rápidamente y ver directamente los enlaces de origen, mejorando la comodidad de acceso a la información. Además, las nuevas funciones de reproducción de vídeo e integración de mapas ofrecen a los usuarios una experiencia de búsqueda más intuitiva y mejoran la eficiencia de búsqueda en dispositivos móviles.

微信截图_20241217081801.png

【Resumen de AiBase:】

📈 La versión actualizada de ChatGPT incluye una función de búsqueda en tiempo real, con un algoritmo de búsqueda optimizado para que los usuarios puedan acceder rápidamente a información en tiempo real, como acciones y noticias.

🗣️ El nuevo modo de interacción de voz avanzada permite a los usuarios realizar búsquedas de varias rondas mediante voz, ofreciendo una experiencia personalizada de asistente de voz.

🗺️ ChatGPT ahora admite la integración de mapas, permitiendo a los usuarios ver directamente la información de ubicación geográfica, planificar rutas y explorar lugares.

2. Google mejora el modelo de generación de vídeo con IA Veo2: resolución 4K, puntuación de preferencia humana superior a Sora

Google lanzó recientemente su modelo de generación de vídeo de nueva generación, Veo2, con el objetivo de competir con Sora de OpenAI. Veo2 muestra un mayor realismo y detalle en la generación de vídeo, y los usuarios pueden solicitar su uso a través de la plataforma VideoFX de Google Labs. Además, Google también actualizó el modelo de generación de imágenes Imagen3, mejorando aún más el realismo y la representación del color de las imágenes generadas.

image.png

【Resumen de AiBase:】

🎥 El modelo de generación de vídeo Veo2 supera en calidad a Sora de OpenAI, y los usuarios pueden solicitar su uso.

🚀 Los usuarios pueden elegir el estilo y los efectos del vídeo, generando vídeos con una resolución de hasta 4K.

🎨 El modelo de generación de imágenes Imagen3 actualizado presenta mejores estilos artísticos y una mejor experiencia de usuario.

Enlace de detalles: https://labs.google/fx/tools/video-fx

3. Midjourney lanza modelos personalizados y moodboards: ¡ya puedes entrenar modelos subiendo imágenes!

El 16 de diciembre de 2024, Midjourney lanzó la esperada función de "moodboards" (tableros de estado de ánimo), que permite a los usuarios subir conjuntos de imágenes inspiradoras para generar nuevas obras de arte. Junto con el nuevo modelo de IA, los usuarios pueden crear perfiles personalizados con mayor facilidad, simplificando el proceso de creación de modelos y reduciendo la barrera de entrada para los nuevos usuarios. Además, las funciones de organización mejoradas permiten a los usuarios gestionar mejor varios proyectos.

image.png

【Resumen de AiBase:】

🌟 Midjourney lanza la función de moodboards, permitiendo a los usuarios subir conjuntos de imágenes inspiradoras.

🚀 La creación de perfiles personalizados es más sencilla, los usuarios solo necesitan 40 puntuaciones para empezar.

🛠️ Se mejoran las funciones de organización, permitiendo a los usuarios nombrar perfiles y hacer un seguimiento de las imágenes relacionadas.

Enlace de detalles: https://www.midjourney.com/personalize

4. Google lanza la nueva herramienta de IA Whisk: sin necesidad de indicaciones, puede mezclar varias imágenes para generar imágenes de nuevo estilo

La herramienta de IA Whisk, recientemente lanzada por Google, cambia significativamente la forma tradicional de generar imágenes, permitiendo a los usuarios generar nuevas imágenes subiendo varias imágenes, sin depender de largas descripciones de texto. Whisk está diseñada para una exploración visual rápida, permitiendo a los usuarios fusionar fácilmente imágenes de diferentes estilos y temas para crear obras visuales únicas. Aunque el proceso de generación de imágenes puede tardar unos segundos y, a veces, los resultados son un poco extraños, la experiencia general es muy divertida.

image.png

【Resumen de AiBase:】

🎨 Whisk permite a los usuarios generar imágenes de nuevo estilo a partir de varias imágenes, cambiando la forma tradicional de indicaciones de texto.

✨ Los usuarios pueden subir imágenes de diferentes temas, fusionándolas automáticamente para generar efectos visuales interesantes.

🚀 Google también lanzó los modelos Imagen3 y Veo2, mejorando aún más la capacidad de generación de imágenes y vídeos.

Enlace de detalles: https://top.aibase.com/tool/whisk

5. Nueva función de YouTube: permite a los creadores autorizar a terceros a usar vídeos para entrenar IA

YouTube lanzó recientemente una nueva función que permite a los creadores elegir si autorizan a empresas de terceros a utilizar sus vídeos para entrenar modelos de inteligencia artificial. La configuración predeterminada está desactivada, por lo que los creadores que no deseen que terceros utilicen sus vídeos no necesitan hacer nada.

【Resumen de AiBase:】

🔒 La configuración predeterminada está desactivada; los creadores deben optar activamente por permitir que terceros utilicen sus vídeos para el entrenamiento de IA.

🤝 Las empresas de terceros permitidas incluyen empresas de IA conocidas, como OpenAI, Apple y Microsoft.

📈 Esta función tiene como objetivo ayudar a los creadores a lograr un nuevo valor para su contenido en la era de la IA.

6. TuSimple lanza el modelo de vídeo generado por imágenes "Ruyi" y publica el código fuente de Ruyi-Mini-7B

TuSimple, con sede en Pekín, lanzó el 17 de diciembre de 2024 su primer gran modelo de "vídeo generado por imágenes", "Ruyi", y publicó el código fuente de la versión Ruyi-Mini-7B para que los usuarios lo descarguen y utilicen en la plataforma Hugging Face. Este modelo está diseñado para tarjetas gráficas de consumo y tiene varias capacidades de generación, mostrando un excelente potencial narrativo visual, especialmente en los campos del anime y los videojuegos. A pesar de los avances tecnológicos, aún quedan algunos defectos por resolver.

微信截图_20241217140324.png

【Resumen de AiBase:】

🚀 El gran modelo Ruyi está diseñado para tarjetas gráficas de consumo, admite la generación de vídeos de varias resoluciones y duraciones, pudiendo procesar resoluciones de 384×384 a 1024×1024.

🎨 El modelo destaca por su consistencia entre fotogramas, fluidez de movimiento y representación del color, convirtiéndose en el compañero creativo ideal para los aficionados a los videojuegos y el anime.

🔧 A pesar de los avances tecnológicos, Ruyi aún presenta algunos defectos, como deformaciones en las manos y detalles faciales incorrectos, en los que TuSimple está trabajando para mejorar.

Enlace de detalles: https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

7. Zhipu.AI completa una ronda de financiación de 3.000 millones de yuanes para impulsar la investigación y comercialización de grandes modelos

Zhipu.AI completó recientemente una nueva ronda de financiación de 3.000 millones de yuanes, atrayendo a numerosos inversores estratégicos e instituciones de capital estatal. Estos fondos se destinarán a la investigación y mejora del gran modelo Zhipu Base, mejorando aún más su capacidad para resolver tareas complejas de razonamiento y multimodales. A pesar de los desafíos de la competencia en el mercado y la desaceleración del progreso tecnológico, Zhipu.AI mantiene una posición de liderazgo en la industria de la IA y ejerce una influencia significativa a nivel mundial. 【Resumen de AiBase:】

🚀 Zhipu.AI completa una ronda de financiación de 3.000 millones de yuanes, que se destinarán a la investigación y mejora del gran modelo base, impulsando la innovación en el sector.

📈 Este año, Zhipu.AI ha experimentado un crecimiento contra cíclico en el mercado B2B, con un aumento interanual de más de 30 veces en los ingresos por API y un aumento de 20 veces en el número de clientes de pago.

🌍 El producto para el consumidor final de Zhipu.AI, "Zhipu Qingyan", ha atraído a más de 25 millones de usuarios, y se espera que las funciones de pago generen ingresos de millones.

8. Meta lanza el modelo de prueba de ropa con IA de código abierto Leffa: conserva más detalles

Meta lanzó recientemente Leffa, un marco de prueba virtual de ropa con IA de código abierto, que tiene como objetivo mejorar la experiencia de compra de ropa mediante la generación de nuevas imágenes. Los usuarios solo necesitan subir una imagen de referencia, y el sistema puede generar nuevos efectos de atuendo, reduciendo las molestias de las devoluciones por tallas inadecuadas. Leffa destaca por conservar los detalles y reducir la distorsión de las imágenes, ofreciendo una experiencia de prueba virtual más natural.

image.png

【Resumen de AiBase:】

🌟 Leffa es un marco de prueba virtual de ropa de código abierto lanzado por Meta, que puede generar nuevas imágenes a partir de imágenes de referencia.

👗 Este marco reduce eficazmente la distorsión de las imágenes, conserva más detalles y mejora la experiencia de prueba virtual.

💻 Los usuarios pueden probar Leffa en la plataforma Hugging Face, y Meta proporciona el código completo del proyecto.

Enlace de detalles: https://github.com/franciszzj/Leffa

9. Diffusion-Vas: seguimiento de objetivos en vídeo, puede completar partes ocultas

En el campo del análisis de vídeo, la persistencia de los objetos es una pista importante para comprender la existencia de los objetos. El método Diffusion-Vas, propuesto por los investigadores, se basa en el conocimiento previo de difusión y tiene como objetivo mejorar el efecto de la segmentación y la compleción de contenido sin modalidad en vídeo. Este método se divide en dos etapas: primero, se genera una máscara sin modalidad y, a continuación, se utiliza un modelo de generación condicional para completar el contenido de las zonas ocultas. Tras varias pruebas de referencia, este método ha mostrado un rendimiento excelente en escenarios complejos, con una mejora de la precisión del 13 %.

image.png

【Resumen de AiBase:】

🌟 Se propone un nuevo método que utiliza el conocimiento previo de difusión para lograr la segmentación y la compleción de contenido sin modalidad en vídeo.

🖼️ El método se divide en dos etapas: primero, se genera una máscara sin modalidad y, a continuación, se completa el contenido de las zonas ocultas.

📊 En varias pruebas de referencia, este método ha mejorado significativamente la precisión de la segmentación sin modalidad, especialmente en escenarios complejos.

Enlace de detalles: https://diffusion-vas.github.io/

10. Actualización de las gafas inteligentes Ray-Ban Meta de Meta: funciones de vídeo e interpretación en tiempo real con IA

Meta ha realizado una importante actualización de sus gafas inteligentes Ray-Ban Meta, lanzando varias funciones nuevas basadas en inteligencia artificial, como la conversación en tiempo real y la traducción de idiomas. Estas funciones permiten a los usuarios interactuar con el asistente de IA de forma más natural, sin necesidad de activarlo con frecuencia, y también admiten la traducción instantánea de varios idiomas, mejorando considerablemente la comodidad de comunicación de los usuarios. Además, las gafas también incluyen la función Shazam, que permite a los usuarios identificar música mediante reconocimiento de voz.

image.png

【Resumen de AiBase:】

🌟 Las gafas inteligentes Ray-Ban Meta incluyen funciones de vídeo e interpretación en tiempo real con IA, permitiendo a los usuarios conversar con el asistente de IA en cualquier momento.

🌍 La nueva función de interpretación en tiempo real admite la interpretación instantánea entre varios idiomas, mejorando la comodidad de comunicación de los usuarios.

🎵 Las gafas también admiten la función Shazam, permitiendo a los usuarios identificar la música que se está reproduciendo mediante reconocimiento de voz.

11. El CEO de Broadcom predice una gran explosión en el mercado de la IA: la capitalización bursátil de la empresa supera el billón de dólares

Hock Tan, director ejecutivo de Broadcom, expresó un panorama optimista para el mercado de chips de IA en la reciente conferencia telefónica sobre resultados financieros, y prevé un crecimiento significativo de los ingresos de Broadcom en este campo hasta 2027, con un mercado direccionable estimado entre 60.000 y 90.000 millones de dólares. La capitalización bursátil de la empresa superó por primera vez el billón de dólares debido al aumento de la demanda de chips de IA.

【Resumen de AiBase:】

🌟 Broadcom prevé que el mercado direccionable de la IA alcanzará entre 60.000 y 90.000 millones de dólares para 2027.

📈 La capitalización bursátil de Broadcom superó por primera vez el billón de dólares debido al aumento de la demanda de chips de IA.

💰 Gracias a la adquisición de VMware, los ingresos totales de Broadcom aumentaron un 51 %, y los costes operativos se redujeron considerablemente.

12. Kingsoft Office: WPS AI desbloqueará gratuitamente cuatro funciones de generación de presentaciones de IA y más

Kingsoft Office anunció que WPS AI ofrecerá a los usuarios cuatro funciones gratuitas durante el periodo de fin de año, con el objetivo de mejorar la eficiencia y la creatividad en el trabajo. Los usuarios pueden utilizar funciones como la generación de presentaciones de IA, la clonación de estilos, los filtros, etc., para crear rápidamente presentaciones profesionales de fin de año. Además, WPS también ofrece una variedad de plantillas de presentaciones para satisfacer las necesidades de diferentes usuarios.

image.png

【Resumen de AiBase:】

🎉 WPS AI desbloqueará gratuitamente las funciones de generación de presentaciones de IA, clonación de estilos, filtros y plantillas, mejorando la eficiencia del trabajo de los usuarios.