¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del ámbito de la IA, con enfoque en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Descubre nuevos productos de IA aquí:

1. Kuaishou lanza la aplicación independiente "Keling AI" para reforzar su presencia en la creación de IA para dispositivos móviles

Kuaishou ha lanzado recientemente la aplicación independiente "Keling AI", dedicada a expandir el campo de la creación de IA en dispositivos móviles. Esta aplicación, basada en los modelos de lenguaje propios de Kuaishou, Keling y Ketu, ofrece la capacidad de generar y editar vídeos e imágenes. Aunque sus funciones son menos completas que la versión web, ya ha atraído a 3,6 millones de usuarios, que han creado más de 37 millones de vídeos y 100 millones de imágenes. Compite directamente con la aplicación "Jimeng AI" de Douyin.

image.png

【Resumen de AiBase:】

🚀 Kuaishou lanza la aplicación independiente "Keling AI" para expandir su presencia en la creación de IA para dispositivos móviles.

💡 La aplicación "Keling AI" se basa en modelos de lenguaje propios y ofrece la capacidad de generar y editar vídeos e imágenes.

💪 Ha atraído a 3,6 millones de usuarios, que han creado más de 37 millones de vídeos y 100 millones de imágenes. Compite con "Jimeng AI" de Douyin.

2. Zhipu AI publica en código abierto la última versión de su modelo de vídeo CogVideoX v1.5

El equipo de tecnología de Zhipu ha publicado la última versión de su modelo de generación de vídeo, CogVideoX v1.5, y lo ha puesto a disposición del público en código abierto. Esta versión presenta una mejora significativa en la capacidad de generación de vídeo, con soporte para vídeos de 5/10 segundos, resolución de 768P y capacidad de generación de 16 fotogramas. Se ha lanzado la nueva plataforma Qingying, que, combinada con el modelo de efectos de sonido CogSound, ofrece la generación de vídeo en ultra alta definición 4K. El procesamiento de datos y la innovación en algoritmos garantizan la calidad y la coherencia del vídeo.

image.png

【Resumen de AiBase:】

🚀 CogVideoX v1.5 de código abierto, admite vídeos de 5/10 segundos, resolución de 768P y generación de 16 fotogramas.

🎬 Se lanza la nueva plataforma Qingying, que, combinada con el modelo de efectos de sonido CogSound, ofrece generación de vídeo en ultra alta definición 4K.

🔬 El procesamiento de datos y la innovación en algoritmos garantizan la calidad y la coherencia del vídeo generado.

Enlace de detalles: https://github.com/thudm/cogvideo

3. Según informes, Baidu lanzará unas gafas inteligentes con un asistente de IA integrado, basado en el modelo Wenxin

Baidu planea lanzar unas gafas inteligentes con el asistente de IA Xiaodu integrado, que se presentarán en la Conferencia Mundial de Baidu 2024. Estas gafas cuentan con funciones innovadoras que ofrecen una nueva experiencia inteligente.

【Resumen de AiBase:】

🌟 Las gafas incluirán una cámara para tomar fotos y vídeos.

📷 Las gafas admitirán la interacción de voz basada en el modelo Ernie, mejorando la experiencia del usuario.

🗣️ Las gafas inteligentes de Baidu ofrecerán soluciones más personalizadas y adaptadas a las necesidades de los usuarios chinos.

4. ¡Los jugadores ávidos se alegran! Krea AI lanza la función de entrenamiento Lora

Krea AI ha lanzado la función de entrenamiento Lora, que ofrece a los usuarios servicios de entrenamiento personalizados para personajes, estilos y productos. Los usuarios solo necesitan subir varias imágenes para comenzar el entrenamiento. La interfaz es sencilla e intuitiva. La configuración de los parámetros de entrenamiento es simple y los resultados son excelentes, lo que la hace ideal para usuarios principiantes. El precio para miembros es de 10 dólares al mes y admite uso comercial.

【Resumen de AiBase:】

🔥 Krea AI lanza la función de entrenamiento Lora, que permite a los usuarios personalizar el entrenamiento de personajes, estilos y productos.

💡 Interfaz sencilla, solo hay que subir imágenes y configurar los parámetros básicos. El proceso de entrenamiento es simple e intuitivo.

💰 Precio de suscripción mensual de 10 dólares, permite generar 720 imágenes FLux y 36000 imágenes en tiempo real, con uso comercial.

Enlace de detalles: https://www.krea.ai/train

5. Keling presenta la función de modelos personalizados para superar el desafío de la consistencia de los personajes en la generación de vídeos con IA

La nueva función de modelos personalizados de Keling supone un gran avance en el campo de la generación de vídeos con IA, resolviendo el problema técnico de la consistencia de los personajes. Esta función permite a los creadores subir varios fragmentos de vídeo para el entrenamiento, incluyendo vídeos de IA generados por Keling, ofreciendo mayor flexibilidad. Tras el entrenamiento, el sistema puede generar contenido de vídeo manteniendo la consistencia del personaje, mostrando un abanico de posibilidades creativas.

image.png

【Resumen de AiBase:】

🔑 Los creadores pueden subir varios fragmentos de vídeo para entrenar el modelo, incluyendo vídeos de IA generados por Keling, ofreciendo mayor flexibilidad.

🚀 Tras el entrenamiento, el sistema puede generar contenido de vídeo manteniendo la consistencia del personaje, mostrando una rotación de 360 grados y características de apariencia estables en escenas complejas.

💡 La versión KLING 1.5 admite la salida de vídeo HD de 1080p, ofreciendo varias opciones de formato para satisfacer las necesidades de contenido de diferentes plataformas. La herramienta de pincel de movimiento mejora la precisión y la flexibilidad de la creación de vídeo.

6. ¡Pequeño pero potente! El modelo de IA visual de bolsillo moondream2, que funciona en teléfonos móviles

Moondream ha lanzado moondream2, un modelo de lenguaje visual compacto y de alto rendimiento con solo 1600 millones de parámetros, que puede ejecutarse en dispositivos pequeños como teléfonos inteligentes. Este modelo cuenta con una potente capacidad de procesamiento de texto e imágenes, y ha obtenido excelentes resultados en diversas pruebas de referencia. El equipo de Moondream actualiza continuamente el rendimiento del modelo, habiendo recaudado con éxito 4,5 millones de dólares. Su CEO cuenta con una amplia experiencia.

image.png

【Resumen de AiBase:】

🌟 Moondream lanza moondream2, con solo 160 millones de parámetros, que puede ejecutarse en dispositivos pequeños como teléfonos inteligentes.

💰 Moondream ha recaudado con éxito 4,5 millones de dólares, su CEO trabajó en Amazon y el equipo actualiza continuamente el rendimiento del modelo.

📈 moondream2 cuenta con una potente capacidad de procesamiento de texto e imágenes, puede responder preguntas, realizar OCR, contar y clasificar objetos, y ha obtenido excelentes resultados en las pruebas de referencia.

Enlace de detalles: https://huggingface.co/vikhyatk/moondream2

7. Xiaomi anuncia la actualización del modelo de lenguaje Xiaoi: la función de "Preguntas y respuestas musicales" ahora es compatible con múltiples dispositivos

Xiaomi ha anunciado oficialmente la actualización de las capacidades musicales del modelo de lenguaje Xiaoi, añadiendo la función de "Preguntas y respuestas musicales", que los usuarios pueden disfrutar en múltiples dispositivos. Esta función, basada en la mejora de las capacidades de inteligencia artificial, ayuda a los usuarios a consultar información sobre canciones y responder preguntas sobre conocimientos musicales profesionales. Xiaoi ha experimentado una importante actualización de versión en julio de este año, mejorando significativamente las funciones de preguntas y respuestas naturales y de asistente inteligente, mejorando la experiencia del usuario.

image.png

【Resumen de AiBase:】

🎵 El asistente Xiaoi de Xiaomi añade la función de "Preguntas y respuestas musicales", que permite consultar información sobre canciones y responder preguntas sobre conocimientos musicales profesionales.

📱 La función es compatible con múltiples dispositivos. Los usuarios deben actualizar Xiaoi a la última versión.

🚗 En las actualizaciones anteriores, Xiaoi ha mejorado significativamente varias funciones de preguntas y respuestas naturales y de asistente inteligente, mejorando la experiencia del usuario.

8. Mistral AI lanza una API de moderación de contenido multilingüe, desafiando a OpenAI

Mistral AI ha lanzado una nueva API de moderación de contenido, con el objetivo de competir con los líderes del sector y abordar los problemas de seguridad de la IA y el filtrado de contenido. Esta API, basada en el modelo Ministral8B, puede detectar varios tipos de contenido dañino, admite varios idiomas y ya se utiliza en la plataforma Le Chat. La colaboración de Mistral con varias empresas demuestra su tecnología madura y su perspectiva europea.

image.png

【Resumen de AiBase:】

🌍 Soporte multilingüe: La API cubre 11 idiomas y detecta contenido dañino como pornografía y discurso de odio.

🔗 Colaboraciones empresariales: Se utiliza en la plataforma Le Chat y colabora con empresas como Microsoft Azure y Qualcomm.

🔒 Ventajas tecnológicas: Basándose en el contexto de la conversación, mejora la capacidad de detección de contenido potencialmente dañino.

Enlace de detalles: https://docs.mistral.ai/capabilities/guardrailing/

9. ¡Llega la "lengua electrónica" de IA! Puede saborear la comida y detectar fácilmente la frescura de los alimentos

Los científicos han desarrollado con éxito un nuevo dispositivo llamado "lengua electrónica", que utiliza la tecnología de inteligencia artificial para distinguir con precisión diferentes mezclas de café, detectar la frescura de alimentos y bebidas, y proporcionar nuevas soluciones para la inspección y el control de calidad de los alimentos. La lengua electrónica imita la tecnología del gusto humano, mejorando la precisión y la eficiencia del trabajo, acelerando el desarrollo de sabores y asegurando la calidad del producto. Cuenta con una función de monitorización de la frescura de los alimentos para proteger la salud de los consumidores y el control de calidad de los comerciantes. Tiene un amplio futuro potencial de aplicación, que puede extenderse a campos como la medicina y el monitoreo ambiental.

image.png

【Resumen de AiBase:】

🌟 La lengua electrónica utiliza tecnología de inteligencia artificial para distinguir con precisión diferentes mezclas de café.

🍽️ Detecta la frescura de alimentos y bebidas, previniendo el deterioro.

🔬 En el futuro, la lengua electrónica podría utilizarse en campos como la medicina y el monitoreo ambiental.

Enlace de detalles: https://www.nature.com/articles/s41586-024-08003-w

10. La tecnología de vanguardia de Google ReCapture: genera con un solo clic vídeos de "múltiples cámaras"

ReCapture, una tecnología innovadora del Instituto de Investigación de Google, permite a los usuarios experimentar el contenido de vídeo original desde una nueva perspectiva mediante la regeneración de vídeos con trayectorias de cámara personalizadas. El principio subyacente a esta tecnología no es complejo: mediante un modelo de difusión multiperspectiva y una técnica de ajuste fino de vídeo enmascarado, se transforma un vídeo tosco en un vídeo claro, coherente y dinámico. Los investigadores de Google afirman que ReCapture no necesita una gran cantidad de datos de entrenamiento, es aplicable a diversos vídeos y conversiones de perspectiva, y permite a los usuarios comunes crear fácilmente vídeos de "múltiples cámaras" de nivel profesional.

image.png

【Resumen de AiBase:】

🔍 La tecnología ReCapture permite a los usuarios revivir vídeos, generando nuevas versiones con trayectorias de cámara personalizadas.

🛠️ Utiliza un modelo de difusión multiperspectiva y una técnica de ajuste fino de vídeo enmascarado para transformar un vídeo tosco en uno claro, coherente y dinámico.

🎥 ReCapture no necesita una gran cantidad de datos de entrenamiento, es aplicable a diversos vídeos y conversiones de perspectiva, permitiendo a los usuarios comunes crear vídeos de "múltiples cámaras" de nivel profesional.

Enlace de detalles: https://generative-video-camera-controls.github.io/

11. OpenAI gana un juicio por infracción de derechos de autor. ¿La extracción de datos de IA se está legalizando?

Recientemente, el Tribunal de Distrito del Sur de Nueva York desestimó la demanda por infracción de derechos de autor presentada por Raw Story Media, Inc. y AlterNet Media, Inc. contra OpenAI, argumentando que la demanda carecía de fundamento. Esta decisión representa una importante victoria para OpenAI en la controversia legal entre la IA y los derechos de autor, y sirve de referencia para el tratamiento de casos similares en el futuro. El tribunal desestimó la demanda, destacando la naturaleza sintética del contenido de la IA generativa, lo que reduce la posibilidad de copia literal, ofreciendo una referencia legal e ideas para el tratamiento de futuras disputas entre la IA y los derechos de autor.

【Resumen de AiBase:】

📜 Los demandantes no pudieron demostrar que sufrieron daños reales debido a las acciones de OpenAI, por lo que el tribunal desestimó la demanda.

🔍 El juez destacó la naturaleza sintética del contenido de la IA generativa, lo que reduce la posibilidad de copia literal.

⚖️ Esta decisión sirve de referencia legal e ideas para el tratamiento de futuras disputas entre la IA y los derechos de autor.

12. Microsoft Outlook presenta temas dinámicos personalizados basados en IA, que se actualizan dinámicamente según el clima y la ubicación