¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del ámbito de la IA, con enfoque en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.
Nuevos productos de IA ¡Infórmese aquí!
1、Keling AI lanza la versión 1.5: Vídeos más estables y de mayor calidad, ¡hasta los vuelos se ven perfectos!
La última versión 1.5 de Keling AI presenta nuevas funciones y mejoras impresionantes, que mejoran significativamente la cantidad y la calidad de la generación de vídeos, ampliando los límites de la IA en el campo de los medios creativos. Se ha mejorado notablemente la calidad de imagen, admitiendo vídeos HD de 10 segundos a 1080p; se ha mejorado la capacidad de respuesta al texto, la estética y la coherencia de los personajes y objetos.
【Resumen de AiBase:】
🚀La versión 1.5 ha mejorado considerablemente la capacidad de generación de vídeo, permitiendo generar hasta 4 vídeos simultáneamente. La función de generación de vídeo a partir de imágenes admite la creación de vídeos HD de 10 segundos a 1080p.
🎨La versión 1.0 añadió la función de "pincel de movimiento", que ofrece un control más preciso del movimiento y una representación más dinámica, ampliando el espacio creativo para los creadores de vídeo.
💡La capacidad de comprensión de texto ha mejorado significativamente. La versión 1.5 ha mejorado notablemente la calidad de imagen, la representación dinámica y la conformidad con las instrucciones de texto, con una mejora general del 95%.
Enlace de detalles:https://top.aibase.com/tool/keling-ai
2、ByteDance lanza Seed-Music, una herramienta de generación de música que admite diversas entradas y un control preciso.
Recientemente, ByteDance lanzó Seed-Music, una nueva herramienta de creación musical que permite a los usuarios generar música a través de varios métodos, como descripciones de texto, referencias de audio, partituras e incluso indicaciones de voz. Este modelo mágico combina modelos de lenguaje autorregresivo y modelos de difusión para generar obras musicales de alta calidad, ofreciendo al mismo tiempo un control preciso. Los usuarios pueden añadir música a letras, modificar melodías o incluso subir fragmentos de voz para convertirlos en canciones; es una herramienta potente y eficiente.
【Resumen de AiBase:】
🎵Seed-Music combina modelos de lenguaje autorregresivo y modelos de difusión para generar obras musicales de alta calidad, permitiendo a los usuarios controlar con precisión los detalles de la música.
🎶Las funciones incluyen la generación de voz e instrumentos, la síntesis de voz, la conversión de voz y la edición musical, satisfaciendo las necesidades de diferentes usuarios.
🎼La arquitectura de Seed-Music se divide en módulos de aprendizaje de representación, generación y renderizado, generando música de alta calidad a partir de entradas multimodales.
Enlace de detalles:https://team.doubao.com/en/special/seed-music
3、Alibaba Tongyi Qianwen lanza la serie de modelos de código abierto Qwen2.5: Qwen2-VL-72B es comparable a GPT-4
El equipo de Tongyi Qianwen anunció el lanzamiento de código abierto de la serie de modelos Qwen2.5, que incluye el modelo de lenguaje general Qwen2.5, Qwen2.5-Coder y Qwen2.5-Math. Preentrenados en un conjunto de datos de 18T tokens, mejoran la adquisición de conocimientos, la programación y las capacidades matemáticas. Admite el procesamiento de textos largos, generando hasta 8000 tokens de contenido, manteniendo la compatibilidad con más de 29 idiomas. Se ofrecen versiones de diferentes tamaños, bajo la licencia Apache2.0. El rendimiento del modelo Qwen2-VL-72B es comparable al de GPT-4, con mejoras significativas en la ejecución de instrucciones, la generación de textos largos, la comprensión de datos y la salida estructurada.
【Resumen de AiBase:】
🚀Se lanza la serie de modelos Qwen2.5 de código abierto, incluyendo modelos de lenguaje generales y modelos de áreas profesionales, mejorando la adquisición de conocimientos, la programación y las capacidades matemáticas.
💡El modelo admite el procesamiento de textos largos, generando hasta 8000 tokens de contenido y ofreciendo compatibilidad con más de 29 idiomas.
💻El modelo Qwen2-VL-72B presenta mejoras significativas, mostrando un rendimiento excelente en la ejecución de instrucciones, la generación de textos largos, la comprensión de datos y la salida estructurada.
Enlace de detalles:https://modelscope.cn/studios/qwen/Qwen2.5
4、Alibaba Tongyi Wanxiang lanza oficialmente la función "Generación de vídeo con IA" del modelo de generación de vídeo
El modelo de generación de vídeo con IA de Tongyi Wanxiang, de Alibaba, se ha lanzado oficialmente, con una potente capacidad de generación dinámica de imágenes visuales, admitiendo la generación de contenido de vídeo con diversos estilos artísticos y calidad cinematográfica. Este modelo ha optimizado la representación de elementos chinos, admite la entrada en varios idiomas y la generación de resoluciones variables, tiene amplias aplicaciones, ofrece un servicio gratuito e incluye una función de generación de audio, simplificando el proceso de producción de vídeo.
【Resumen de AiBase:】
⚙️El modelo de generación de vídeo con IA de Tongyi Wanxiang tiene una potente capacidad de generación dinámica de imágenes visuales, admitiendo diversos estilos artísticos y la generación de contenido de vídeo con calidad cinematográfica.
🌟Ha optimizado la representación de elementos chinos, presentando una ventaja única en la generación de contenido de estilo nacional, admite la entrada en varios idiomas y la generación de resoluciones variables, satisfaciendo las necesidades de diferentes usuarios.
🎬Ofrece un servicio gratuito, admite la generación de audio para contenido de vídeo, simplifica el proceso de producción de vídeo, permite la sincronización de audio e imagen y aumenta la eficiencia creativa.
Enlace de detalles:https://tongyi.aliyun.com/wanxiang/wanxvideo
5、¡腾讯 presenta EzAudio AI, un modelo de audio con IA que convierte texto en voz realista en segundos!
Recientemente, el modelo EzAudio, desarrollado conjuntamente por la Universidad Johns Hopkins y el laboratorio de IA de Tencent, representa un gran avance en la tecnología de audio. Este modelo genera muestras de audio de alta calidad mediante una arquitectura y tecnología innovadoras, con un amplio potencial de aplicación. Con el desarrollo de la tecnología, las cuestiones éticas y de uso responsable se han vuelto cada vez más importantes; el código de investigación abierto de EzAudio ofrece una amplia oportunidad para evaluar los riesgos y beneficios futuros.
【Resumen de AiBase:】
🌟EzAudio es un nuevo modelo de generación de audio a partir de texto desarrollado conjuntamente por la Universidad Johns Hopkins y Tencent, que representa un gran avance en la tecnología de audio.
🎧Este modelo, mediante una arquitectura y tecnología innovadoras, genera muestras de audio de una calidad superior a la de los modelos de código abierto existentes, con un amplio potencial de aplicación.
⚖️Con el desarrollo de la tecnología, las cuestiones éticas y de uso responsable se han vuelto cada vez más importantes; el código de investigación abierto de EzAudio ofrece una amplia oportunidad para evaluar los riesgos y beneficios futuros.
Enlace de detalles:https://huggingface.co/spaces/OpenSound/EzAudio
6、Giant Network lanza sus propios modelos de lenguaje de gran tamaño para personajes, GiantGPT, y de voz, BaiLing-TTS.
Giant Network presentó en la ceremonia de inauguración de la Conferencia Yunqi 2024 sus últimos logros en el campo de "Juegos + IA", incluyendo aplicaciones de modelos de lenguaje de gran tamaño como GiantGPT y BaiLing-TTS, así como nuevas tecnologías como el personaje digital con IA y la plataforma de pintura con IA Giant Mojing. La empresa presentó modelos de lenguaje de gran tamaño altamente optimizados para negocios de juegos y modelos de lenguaje de gran tamaño de voz que admiten varios dialectos, y lanzó un nuevo logotipo de marca, abriendo la solicitud de prueba interna de la plataforma de pintura con IA. Giant Network también presentó tecnología de personajes digitales interactivos en tiempo real de alta precisión, expresando su determinación de seguir cultivando el campo de "Juegos + IA".
【Resumen de AiBase:】
🎮GiantGPT es un modelo de lenguaje de gran tamaño vertical centrado en los negocios de juegos, entrenado con datos propios y datos públicos de Internet, optimizando profundamente las capacidades básicas.
🗣BaiLing-TTS es un modelo de lenguaje de gran tamaño de voz que admite la mezcla de varios dialectos del mandarín, pudiendo generar voz en varios dialectos.
🖌Giant Mojing, la plataforma de pintura con IA, es una plataforma en la nube integral que admite la colaboración en equipo y el procesamiento por lotes de contenido artístico.
7、El modo de voz avanzado de ChatGPT podría lanzarse completamente el 24 de septiembre.
El modo de voz avanzado de ChatGPT está a punto de lanzarse completamente el 24 de septiembre, ofreciendo a los usuarios una experiencia de interacción sin precedentes. Esta función genera respuestas de audio realistas, mejorando la naturalidad y la inmersión de la interacción humano-máquina. La fiabilidad de la información de la actualización está confirmada; algunos usuarios de dispositivos móviles podrían experimentar el modo de voz mejorado el 24 de septiembre. La interfaz de la aplicación ChatGPT para macOS ha cambiado, con una interfaz de modo de voz más completa y nuevos botones de fácil acceso. Algunos usuarios pueden compartir más información contextual con ChatGPT, logrando una experiencia de conversación más fluida y personalizada.
【Resumen de AiBase:】
⚙️El modo de voz avanzado se lanzará completamente el 24 de septiembre, mejorando la experiencia de interacción.
🔊Genera respuestas de audio realistas, mejorando la naturalidad y la inmersión de la interacción humano-máquina.
🌌La interfaz de la aplicación ChatGPT para macOS ha cambiado, añadiendo nuevos botones de fácil acceso y ofreciendo una experiencia visual más completa.
8、YouTube incorpora el modelo DeepMind Veo para dar alas a la imaginación de los creadores.
YouTube anunció oficialmente la integración del modelo Veo de Google DeepMind en su plataforma de vídeos cortos YouTube Shorts, inaugurando una nueva era de creación de vídeos cortos impulsada por la IA. Esta iniciativa no solo ofrece a los creadores herramientas creativas sin precedentes, sino que también transforma radicalmente la forma en que los usuarios interactúan con la plataforma.
【Resumen de AiBase:】
✨La función Dream Screen combina los modelos Imagen3 y Veo para crear un entorno de creación inteligente para los creadores.
🌟YouTube utiliza la tecnología SynthID para garantizar la transparencia y la fiabilidad del contenido generado por IA.
💡El programa Made on YouTube 2024 lanza herramientas de creación impulsadas por IA, como asistentes de inspiración y herramientas de doblaje automático inteligente, para apoyar a los creadores de contenido de forma integral.
9、Informe semestral de 2024 sobre las aplicaciones de agentes inteligentes con IA: más de 66 millones de usuarios activos mensuales de aplicaciones de IA.
El informe semestral de 2024 sobre las aplicaciones de agentes inteligentes con IA muestra que el número de usuarios activos mensuales de aplicaciones de IA supera los 66 millones, lo que demuestra el rápido desarrollo y la popularización de la tecnología de IA en el ámbito de las aplicaciones. El informe señala que las aplicaciones de IA ya han formado ocho categorías de métodos de juego y que se ha iniciado la vía de comercialización. Los servicios de agentes inteligentes resuelven las necesidades de los usuarios, siendo el ecosistema de WeChat un canal importante; se están explorando los modelos de negocio de los agentes inteligentes. Los agentes inteligentes están maduros en los escenarios de aprendizaje educativo, y la popularidad de los agentes inteligentes líderes es alta. Las aplicaciones de agentes inteligentes con IA se han convertido en una rama importante de Internet móvil, ofreciendo a los usuarios una experiencia rica y cómoda, y proporcionando una nueva fuerza impulsora y dirección para el desarrollo del sector. Se espera que las aplicaciones de agentes inteligentes con IA desempeñen un papel más importante en el futuro.
【Resumen de AiBase:】
📊El número de usuarios activos mensuales de aplicaciones de IA supera los 66 millones, mostrando el rápido desarrollo y la popularización de la tecnología de IA.
🎮Las aplicaciones de IA han formado ocho categorías de métodos de juego, y se ha iniciado la vía de comercialización.
📈Los servicios de agentes inteligentes resuelven las necesidades de los usuarios, siendo el ecosistema de WeChat un canal importante; se están explorando los modelos de negocio.
10、LinkedIn utiliza discretamente los datos de los usuarios para entrenar la IA, requiriendo una doble opción de exclusión.
Recientemente, se ha revelado que LinkedIn ha comenzado a utilizar los datos de los usuarios para entrenar modelos de inteligencia artificial generativa sin previo aviso. Los usuarios deben desactivar las opciones correspondientes en la configuración de su cuenta para optar por la exclusión, pero esto solo afecta al uso futuro de los datos. LinkedIn también menciona que otras herramientas de aprendizaje automático requieren la cumplimentación de un formulario adicional para la exclusión completa del uso de datos.
【Resumen de AiBase:】
🔒LinkedIn utiliza los datos de los usuarios para entrenar modelos de IA de forma predeterminada; los usuarios deben optar por la exclusión activamente.
✋Los usuarios deben desactivar las opciones en la configuración de su cuenta, lo que solo afecta al uso futuro de los datos.
📄Además de la IA generativa, LinkedIn cuenta con otras herramientas de aprendizaje automático que requieren la cumplimentación de un formulario adicional para la exclusión completa del uso de datos.