¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del campo de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.
Productos de IA nuevos ¡Infórmese aquí!:https://top.aibase.com/
1、ByteDance lanza la plataforma comunitaria de modelos de IA: Lumi, similar a Liblib y Civitai
La nueva plataforma comunitaria de intercambio de modelos de IA, Lumi, lanzada por ByteDance, muestra su estrategia integral en el campo de la IA. La plataforma ofrece funciones de carga y compartición de modelos, creación de flujos de trabajo y entrenamiento LoRA. Actualmente, solo está disponible para usuarios con acceso mediante lista blanca. Similar a LiblibAI, Lumi se convertirá en un componente importante de la estrategia de ByteDance en el ámbito de la IA.
【Resumen de AiBase:】
🚀 Lumi es la nueva plataforma comunitaria de intercambio de modelos de IA lanzada por ByteDance, que ofrece funciones de carga y compartición de modelos, así como de entrenamiento.
💡 Con una función similar a LiblibAI, Lumi demuestra la estrategia integral de ByteDance en el campo de la IA.
💥 ByteDance ya cuenta con una amplia presencia en el campo de la IA, incluyendo grandes modelos lingüísticos, ChatBots, redes sociales con IA y acompañamiento virtual con IA, entre otros.
Acceso al producto: https://top.aibase.com/tool/lumilumi
2、Se revela la identidad del misterioso modelo de IA "Panda Rojo": Recraft V3, el nuevo modelo de generación de imágenes de una empresa británica de IA
He comentado sobre el nuevo modelo de generación de imágenes Recraft V3 de la empresa británica de IA. Este modelo, que llamó la atención con el nombre de red_panda, posee una potente capacidad de generación de imágenes a partir de textos largos. Sus destacadas funciones de control de diseño y estilo de texto permiten a los usuarios crear con precisión efectos visuales de calidad profesional.
【Resumen de AiBase:】
🔍 Recraft V3 es el nuevo modelo de generación de imágenes lanzado por la startup británica de IA Recraft AI, que llamó la atención bajo el nombre de red_panda.
💡 Recraft V3 lidera la clasificación de Artificial Analysis con una puntuación ELO de 1172, obteniendo más de 100.000 votos.
🚀 Recraft V3 cuenta con una potente capacidad de generación de imágenes a partir de textos largos, con funciones mejoradas de control de diseño y estilo de texto, especialmente útil para la promoción de marcas, marketing y diseño gráfico complejo.
Enlace de detalles: https://www.recraft.ai/
3、OpenAI anuncia la llegada del modo de voz avanzado de ChatGPT a Windows y Mac
OpenAI anunció hoy que el modo de voz avanzado (AVM) de ChatGPT llega oficialmente a Windows y Mac. Desarrollado con el modelo GPT-4o, ofrece una experiencia de interacción conversacional en tiempo real más natural. Los usuarios han ofrecido buenas valoraciones, aunque en algunas regiones aún no está disponible. El sistema incluye cinco nuevas opciones de voz, admite interrupciones y pausas, satisfaciendo la necesidad de los usuarios de una interacción más cercana a la comunicación humana. La precisión de las respuestas de la IA es alta, con un índice de satisfacción del usuario del 96%. ChatGPT también ha lanzado una función de búsqueda del historial de chat en la versión web, continuando con los avances en el campo de la interacción por voz. El efecto de la promoción en el mercado está aún por ver.
【Resumen de AiBase:】
🔊 El modo de voz avanzado (AVM) de ChatGPT llega oficialmente a Windows y Mac, ofreciendo una experiencia de interacción conversacional en tiempo real más natural.
🌐 El sistema incluye cinco nuevas opciones de voz, admite interrupciones y pausas, satisfaciendo la necesidad de los usuarios de una interacción más cercana a la comunicación humana.
💬 Los usuarios han ofrecido buenas valoraciones, con una alta precisión de las respuestas de la IA y un índice de satisfacción del 96%. ChatGPT también ha lanzado una función de búsqueda del historial de chat en la versión web, continuando con los avances en el campo de la interacción por voz.
4、¡Creado para la IA de Apple! Apple anuncia el lanzamiento del chip M4 Max
Los nuevos chips M4 Pro y M4 Max de Apple aportan una mejora significativa en el rendimiento y funciones avanzadas a los ordenadores Mac. Estos chips utilizan un proceso de fabricación líder en la industria, optimizando el rendimiento y la eficiencia energética para ofrecer un rendimiento excepcional en tareas profesionales y de IA.
【Resumen de AiBase:】
🚀 Los chips de la serie M4 utilizan un proceso de fabricación de 3 nanómetros de segunda generación, mejorando el rendimiento y la eficiencia energética.
💻 Los chips M4 Pro y M4 Max admiten Thunderbolt 5 y una mayor velocidad de ancho de banda de memoria unificada, aportando mayor potencia y velocidad a los Mac.
🧠 Los chips M4, M4 Pro y M4 Max incorporan un motor neuronal y un acelerador de aprendizaje automático, ofreciendo a los usuarios una nueva experiencia inteligente.
5、OpenAI realiza una importante actualización de la API en tiempo real: además de una reducción de precio superior al 50%, también presenta cinco nuevas voces
OpenAI ha actualizado recientemente su API en tiempo real, lanzando cinco nuevas opciones de voz, reduciendo los costes de almacenamiento en caché y ofreciendo una experiencia de desarrollo más económica. Las nuevas voces incluyen Ash y Verse, vívidas y ajustables, y Ballad, con estilo británico, ofreciendo una experiencia de comunicación más natural. Sin embargo, la API en tiempo real aún se encuentra en fase de prueba, no proporciona autenticación de cliente y la fiabilidad del procesamiento de audio se ve afectada por las condiciones de la red. Los desarrolladores pueden atraer a más usuarios mediante la reducción de precios y las funciones de almacenamiento en caché.
【Resumen de AiBase:】
🌟 Se añaden cinco voces naturales, mejorando la experiencia de las aplicaciones de voz.
💰 La API en tiempo real reduce los costes de entrada mediante el almacenamiento en caché, resultando más rentable para los desarrolladores.
⚡ El procesamiento de audio en tiempo real se ve afectado por las condiciones de la red, por lo que es necesario prestar atención a la fiabilidad.
6、¡Tecnología de vanguardia de Hollywood! Wonder Dynamics lanza la función de conversión de vídeo a 3D
Wonder Dynamics ha lanzado la versión de prueba de su revolucionaria herramienta de IA Wonder Animation, que utiliza la inteligencia artificial para redefinir el flujo de trabajo de la producción cinematográfica. Esta tecnología permite a los creadores convertir fácilmente el material en escenas de animación 3D con personajes CGI, permitiendo la edición completa de escenas virtuales.
【Resumen de AiBase:】
✨ Los creadores pueden utilizar cualquier cámara y grabar en cualquier lugar, convirtiendo el material en escenas de animación 3D mediante IA.
🎬 Potente capacidad de reconstrucción de escenas, que reproduce con precisión la posición y la trayectoria de la cámara, los personajes y el entorno.
🚀 Permite a los artistas mantener el control creativo, facilitando la producción de películas de animación completa.
Enlace de detalles: https://top.aibase.com/tool/wonder-dynamics
7、Google realiza una importante actualización de su tecnología de voz con IA: 2 minutos de conversación generados en 3 segundos, lo que cambiará por completo la forma en que interactuamos con las máquinas
La nueva tecnología de generación de voz lanzada por Google vuelve a superar los estándares del sector. Esta tecnología innovadora puede generar en 3 segundos una conversación natural de hasta 2 minutos de duración, garantizando la coherencia y la calidad del sonido entre varios interlocutores. Esta tecnología ya se utiliza en varios productos de Google y está cambiando la forma en que las personas interactúan con los asistentes digitales y las herramientas de IA en todo el mundo.
【Resumen de AiBase:】
✨ Codificador-decodificador de voz eficiente, que comprime el audio con una baja tasa de bits de 600 bits por segundo, manteniendo una salida de alta calidad.
🔍 Arquitectura Transformer específica, que procesa la estructura jerárquica de la información, preentrenada y ajustada en conjuntos de datos de conversaciones de alta calidad.
🌐 Integración de la tecnología SynthID, que añade una marca de agua al contenido de audio generado por IA, garantizando el uso responsable de la tecnología.
Enlace de detalles: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
8、Mianbi Intelligence y Baidu Smart Cloud llegan a un acuerdo de colaboración
Mianbi Intelligence y Baidu Smart Cloud han anunciado una colaboración estratégica para desarrollar conjuntamente soluciones de colaboración entre la nube y los dispositivos para grandes modelos lingüísticos. Esta colaboración mejorará el rendimiento de los grandes modelos lingüísticos en aplicaciones como dispositivos inteligentes y computación perimetral, reduciendo los costes de inferencia, mejorando la velocidad de respuesta y optimizando la experiencia del usuario y la eficiencia empresarial. Mianbi Intelligence ha lanzado MiniCPM3.0 y MiniCPM-V2.6, superando a la serie GPT, lo que ha generado una gran atención a nivel nacional e internacional.
【Resumen de AiBase:】
🤝 Colaboración para desarrollar conjuntamente soluciones de colaboración entre la nube y los dispositivos para grandes modelos lingüísticos, mejorando el rendimiento del modelo, reduciendo los costes y aumentando la velocidad de respuesta.
🚀 Lanzamiento de MiniCPM3.0, un modelo con 4B de parámetros que supera a GPT-3.5, destacando en múltiples campos.
💡 Lanzamiento de MiniCPM-V2.6, que se compara directamente con GPT-4V, logrando la comprensión en tiempo real de vídeo y la comprensión conjunta de múltiples imágenes, generando atención nacional e internacional.
9、¡Se acaba la racha de 19 años de pérdidas! El CEO de Reddit agradece a la IA por ayudar al sitio web a obtener beneficios por primera vez
Después de 19 años de pérdidas, Reddit finalmente obtuvo beneficios tras su salida a bolsa. Los ingresos netos del tercer trimestre ascendieron a 29,9 millones de dólares, con unos ingresos de 34.840 millones de dólares, un aumento interanual del 68%. El CEO, Huffman, afirmó que la inteligencia artificial es la clave para lograr los beneficios. El plan futuro es acelerar el mapa de ruta del producto y mejorar la experiencia de búsqueda del usuario.
【Resumen de AiBase:】
🌟 Reddit obtiene beneficios por primera vez, con unos ingresos netos de 29,9 millones de dólares en el tercer trimestre.
📈 Crecimiento significativo de usuarios, con 97 millones de usuarios activos diarios, superando en varias ocasiones los 100 millones.
🤖 La inteligencia artificial ayuda a ampliar la función de traducción, que se prevé que cubra 30 países en 2025.
10、El nuevo robot Atlas de Boston Dynamics: totalmente eléctrico, totalmente autónomo y capaz de realizar tareas complejas
Boston Dynamics ha publicado un impresionante vídeo del Atlas, su robot humanoide de nueva generación, que muestra su capacidad para realizar tareas de clasificación de forma independiente en un entorno de fábrica simulado. El vídeo destaca la capacidad de Atlas para utilizar el aprendizaje automático y sensores mejorados para obtener y ajustar la respuesta en tiempo real al entorno, mostrando su capacidad de trabajo totalmente autónoma.
【Resumen de AiBase:】
🤖 Boston Dynamics muestra el robot Atlas totalmente eléctrico, capaz de realizar tareas de clasificación complejas de forma independiente.
🔧 Atlas utiliza el aprendizaje automático y sensores mejorados para obtener y ajustar la respuesta en tiempo real al entorno.
💡 El vídeo muestra una marca de agua que indica "totalmente autónomo", destacando su capacidad de trabajo con una mínima intervención humana.
11、La Universidad Tsinghua lanza la innovadora plataforma de simulación de fuentes de sonido SonicSim
El equipo de investigación de la Universidad Tsinghua ha lanzado SonicSim, una plataforma de simulación de fuentes de sonido móvil que resuelve el problema de la falta de datos en escenarios con fuentes de sonido móviles en el campo del procesamiento de voz. Esta plataforma simula entornos acústicos reales, proporcionando soporte de datos de alta calidad para modelos de separación y mejora de voz. SonicSim resuelve eficazmente el problema de que los conjuntos de datos existentes no satisfacen las necesidades de los escenarios con fuentes de sonido móviles.
【Resumen de AiBase:】
🔊 La plataforma SonicSim se basa en Habitat-sim y simula entornos acústicos reales.
🎙 El conjunto de datos SonicSet utiliza datos de fuentes de sonido móviles en múltiples escenarios, garantizando la autenticidad y la diversidad de los datos.
🚀 Los modelos entrenados en el conjunto de datos SonicSet obtienen un rendimiento superior, lo que demuestra que SonicSim simula eficazmente los entornos acústicos reales.
Enlace de detalles: https://arxiv.org/pdf/2410.01481
12、Baichuan Intelligence lanza una solución integral para ayudar a las empresas a implementar modelos de forma privada con el menor coste posible
Baichuan Intelligence Technology ha lanzado una solución integral para ayudar a las empresas a implementar grandes modelos lingüísticos de forma privada con un coste reducido y una mayor eficiencia. Esta solución incluye datos de entrenamiento universales de alta calidad para toda la cadena, dos modelos, Baichuan4-Turbo y Baichuan4-Air, y una cadena de herramientas de mejora de dominio completa, que puede satisfacer las necesidades de las empresas en diferentes escenarios.
【Resumen de AiBase:】
🔑 Tasa de disponibilidad en múltiples escenarios de hasta el 96%, líder en el sector.