¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Haga clic para conocer los nuevos productos de IA: https://top.aibase.com/

1. Google Gemini lanzará cinco nuevas funciones: Imagen3, GPT personalizado, etc.

Google está a punto de lanzar nuevas funciones para su serie de productos Gemini, incluyendo Imagen3 y Gemini GPT personalizado, generando gran expectación. Estas nuevas funciones ofrecerán a los usuarios una experiencia más personalizada y cómoda, demostrando la continua innovación y el desarrollo de Google en el campo de la inteligencia artificial.

image.png

【Resumen de AiBase:】

🔍 Google Gemini lanzará nuevas funciones, incluyendo Imagen3 y Gemini GPT personalizado, para ofrecer a los usuarios una experiencia más personalizada y cómoda.

🔍 Se espera que Gemini también incluya funciones como respuestas personalizadas, indicaciones programadas, grabación e integración con Google Fotos, enriqueciendo aún más la experiencia del usuario.

🔍 Google está acelerando el reclutamiento de beta testers para la versión iOS de Gemini. La actualización de iOS podría lanzarse pronto, mostrando el impulso continuo del desarrollo de Gemini.

2. Baidu lanza la aplicación social de personajes digitales de IA, Wen Xiaoyan

Baidu lanzó recientemente la aplicación social de personajes digitales de IA llamada "Wen Xiaoyan". Utilizando la avanzada tecnología del modelo de lenguaje grande Wenxin, los usuarios pueden comunicarse e interactuar en tiempo real con personajes digitales realistas, estableciendo conexiones emocionales y ofreciendo una experiencia de interacción más auténtica y natural. Los usuarios pueden encontrar en la aplicación personajes digitales con los que les guste charlar, conocer su información e interactuar de diversas maneras.

image.png

【Resumen de AiBase:】

🤖 Los usuarios pueden comunicarse e interactuar en tiempo real con personajes virtuales de IA, estableciendo conexiones emocionales y mejorando la experiencia de interacción.

📱 Cada personaje digital de IA ofrece un servicio de chat único, pudiendo ser una enciclopedia para el usuario, un asistente personal o incluso un mentor.

💬 Los personajes digitales muestran respuestas de voz y texto, y utilizan el lenguaje corporal para aumentar el realismo.

3. Proyecto Strawberry de OpenAI revelado: ¡Gran avance en la capacidad de razonamiento Q*, el futuro está a nuestro alcance!

Estoy emocionado y curioso sobre el proyecto Strawberry de OpenAI. Este proyecto, que reaparece bajo la identidad de "Strawberry", supuestamente permitirá a la IA planificar tareas con antelación, recopilar información de forma autónoma en internet e incluso realizar investigaciones profundas. El concepto de diseño del modelo Strawberry es bastante innovador, dotando a la IA de una capacidad de razonamiento sin precedentes. El proceso de desarrollo secreto y el alto nivel de confidencialidad de OpenAI generan aún más expectación por los resultados futuros.

image.png

【Resumen de AiBase:】

🍓 El proyecto Strawberry permitirá a la IA planificar tareas con antelación, recopilar información de forma autónoma en internet y realizar investigaciones profundas.

🔍 La tecnología STaR, mediante el uso iterativo de pocos ejemplos de razonamiento y una gran cantidad de datos sin razonamiento, permite a la IA mejorarse a sí misma.

🚀 OpenAI espera que Strawberry pueda ejecutar tareas a largo plazo, mejorando la capacidad de razonamiento del modelo de IA.

Enlace al artículo:https://arxiv.org/pdf/2203.14465

4. Magic Insert: Arrastre y suelte para integrar personajes perfectamente en nuevos fondos con un solo clic

En el mágico mundo de la creación digital, la tecnología Magic Insert destaca por su capacidad de integrar fácilmente un sujeto de una imagen en otra imagen de fondo con un estilo diferente, logrando una fusión perfecta. Esta tecnología combina la personalización con percepción de estilo y la inserción de objetos, mostrando flexibilidad y diversidad, y planteando nuevos retos en el campo de la generación de imágenes.

【Resumen de AiBase:】

🔮 La tecnología Magic Insert combina la personalización con percepción de estilo y la inserción de objetos, logrando una fusión perfecta del sujeto en diferentes fondos.

🌟 Los puntos fuertes de la tecnología incluyen el uso de LoRA y el ajuste fino del modelo con etiquetas de texto, la tecnología Bootstrapped Domain Adaptation para la inserción de objetos reales, y la flexibilidad para elegir el grado de estilización y la fidelidad de los detalles del sujeto.

💡 Los investigadores muestran los resultados experimentales de Magic Insert en varios temas y fondos de estilo, demostrando su eficacia y la preferencia del usuario.

Enlace de detalles:https://magicinsert.github.io/demo.html

5. Kuaikan Comics: Está entrenando un modelo vertical de gran tamaño en el campo del anime

Kuaikan Comics se dedica a explorar el ajuste fino de modelos de gran tamaño de código abierto para entrenar modelos verticales de gran tamaño en el campo del anime, con el fin de mejorar la tasa de conversión y la vitalidad de la búsqueda de obras, e impulsar la innovación del sector del cómic. Mediante la aplicación de modelos de lenguaje grandes (LLM) y la tecnología de generación mejorada por recuperación (RAG), Kuaikan Comics ha construido una base de conocimientos interna, utilizando una estrategia de ajuste fino de modelos de gran tamaño + RAG para mejorar la velocidad de respuesta y los indicadores de clasificación de la búsqueda.

【Resumen de AiBase:】

🔍 Utilizar modelos de gran tamaño para el ajuste fino, mejorando la tasa de conversión y la vitalidad de la búsqueda de obras.

🤖 Aplicar modelos de lenguaje grandes (LLM) y la tecnología de generación mejorada por recuperación (RAG) para construir una base de conocimientos interna.

🎨 Impulsar la innovación en el sector del cómic, mejorando la experiencia del usuario y la capacidad de producción de contenido.

6. ¡Mejora de los servicios personalizados! Amazon lanza silenciosamente el asistente de compras Rufus AI

El nuevo asistente de compras Rufus AI de Amazon ofrece a los usuarios una experiencia de compra personalizada. Mediante un servicio inteligente de preguntas y respuestas, ayuda a los usuarios a ahorrar tiempo y a tomar decisiones inteligentes, mostrando una excelente capacidad para resolver problemas de compra.

image.png

【Resumen de AiBase:】

🛒 Se lanza el asistente de compras Rufus AI, ofreciendo una experiencia de compra personalizada y ahorrando tiempo a los usuarios.

🤖 Servicio inteligente de preguntas y respuestas, respondiendo exhaustivamente a las preguntas de los usuarios sobre los productos, incluyendo recomendaciones, comparaciones y seguimiento de pedidos.

🌟 Rufus muestra potencial, y podría convertirse en un as en el campo de las compras inteligentes de Amazon, liderando la innovación en el comercio minorista.

7. El modelo de IA Eureka de Google se filtra anticipadamente: Su excepcional capacidad de escritura de texto atrae la atención

Google está a punto de lanzar un nuevo modelo de IA llamado "Eureka", generando gran expectación. Eureka destaca en la generación de lenguaje natural y se considera un gran avance de Google en el campo de la IA. Se espera un anuncio preliminar el 15 de julio y un lanzamiento oficial el 18 de julio. Además de Eureka, Google está desarrollando otras nuevas herramientas, como Google Gemini, despertando un gran interés en el sector.

【Resumen de AiBase:】

✨ El modelo Eureka destaca en la generación de lenguaje natural, superando a otros modelos.

🔑 Eureka muestra una capacidad mejorada para seguir instrucciones, con un cumplimiento excepcional de los parámetros definidos por el usuario.

💡 Eureka tiene el potencial de mejorar el rendimiento en una amplia gama de tareas impulsadas por IA.

8. Tecnología de reconstrucción visual 3D DUSt3R: Generación sencilla de modelos 3D a partir de imágenes 2D

DUSt3R es una tecnología innovadora que permite crear modelos 3D sin información de la cámara, simplificando enormemente el proceso de conversión de imágenes 2D a modelos 3D. Emplea un método de procesamiento inteligente, ofreciendo un procesamiento eficiente de las tareas de reconstrucción, con un rendimiento excelente y logrando los mejores resultados en diversas tareas visuales.

image.png

【Resumen de AiBase:】

🌟 Tecnología innovadora: DUSt3R puede crear modelos 3D sin información de la cámara, simplificando las complejas necesidades de parámetros de la cámara.

📷 Procesamiento eficiente: DUSt3R procesa de forma unificada las tareas de reconstrucción de múltiples imágenes, de forma inteligente y eficiente.

🚀 Rendimiento excelente: DUSt3R destaca en diversas tareas visuales, logrando los mejores resultados.

Enlace de detalles:https://top.aibase.com/tool/dust3r

9. OpenDiLoCo: Solución de código abierto para el entrenamiento distribuido de IA, bajo coste de comunicación, ¡cobertura global!

En la era de la explosión de la IA, el framework de código abierto OpenDiLoCo implementa el método de entrenamiento DiLoCo, logrando un entrenamiento distribuido global con bajo coste de comunicación y manteniendo una alta utilización de la capacidad de cálculo.

image.png

【Resumen de AiBase:】

🌐 Entrenamiento distribuido global: OpenDiLoCo permite el entrenamiento de modelos a escala global, abarcando dos continentes y tres países, manteniendo una alta utilización de la capacidad de cálculo.

⚙️ Gestión dinámica de recursos: Los recursos de cálculo se pueden ajustar dinámicamente durante el entrenamiento, y los nuevos dispositivos pueden unirse o abandonar el entrenamiento en cualquier momento.

🔗 Tolerancia a fallos y comunicación punto a punto: Se utiliza la biblioteca Hivemind para lograr un entrenamiento tolerante a fallos, y la comunicación punto a punto para el entrenamiento, mejorando la eficiencia y la estabilidad.

Enlace de detalles:https://arxiv.org/pdf/2407.07852

10. Microsoft y MIT inician una nueva era en el razonamiento: Modelo de 67 millones de parámetros, compitiendo con GPT-4

En este artículo, los investigadores presentan una estrategia innovadora de entrenamiento de aprendizaje automático. Mediante la mejora de la capacidad de razonamiento lógico y la utilización de relaciones causales para construir conjuntos de entrenamiento, han entrenado con éxito un modelo Transformer de pequeño tamaño que se compara con GPT-4. Esta investigación abre nuevas posibilidades para el aprendizaje del razonamiento causal por parte de la IA, permitiendo que la IA comprenda y explique mejor el mundo.

image.png

【Resumen de AiBase:】

🔍 Método de entrenamiento único: Se utiliza un método de entrenamiento novedoso para mejorar la capacidad de razonamiento lógico de los modelos de gran tamaño.

🧠 Mejora del razonamiento lógico: Se mejora significativamente la capacidad de razonamiento lógico del modelo, resolviendo desafíos previos.

🔗 Utilización de relaciones causales para construir conjuntos de entrenamiento: Se utilizan modelos de relaciones causales para construir conjuntos de datos de entrenamiento, ayudando al modelo a comprender la lógica causal subyacente a los datos.

Enlace de detalles:https://arxiv.org/pdf/2407.07612v1

11. Los reguladores financieros estadounidenses instan a investigar los problemas de los acuerdos de confidencialidad de OpenAI

Este artículo informa sobre un grupo de denunciantes que han denunciado problemas en los acuerdos de confidencialidad de OpenAI, solicitando una investigación por parte de los reguladores financieros estadounidenses. Los denunciantes afirman que OpenAI podría estar limitando los derechos de denuncia de sus empleados, generando preocupación pública. Grassley afirma que las políticas de OpenAI limitan los derechos de los denunciantes y pide a la SEC que investigue sus malas prácticas.

【Resumen de AiBase:】

⭐️ Los denunciantes denuncian problemas en los acuerdos de confidencialidad de OpenAI, solicitando una investigación por parte de la SEC.

⭐️ OpenAI está acusada de violar las normas de la SEC, privando a los empleados de sus derechos de denuncia.

⭐️ Según la carta de denuncia, se exige a OpenAI que produzca todos los acuerdos de confidencialidad para evitar la violación de los derechos de los empleados, y los denunciantes piden a la SEC que investigue las malas prácticas de OpenAI.