¡Bienvenido a la sección de 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. SenseTime lanza el gran modelo de generación de video Vimi; la aplicación para clientes Vimi Camera inicia su prueba beta

SenseTime presentó en la Conferencia Mundial de Inteligencia Artificial 2024 (WAIC) su gran modelo de generación de video Vimi, que ofrece a los usuarios un control preciso de las expresiones faciales y los movimientos corporales, admite múltiples modos de control, destaca por su estabilidad y genera contenido de video de alta coherencia. Vimi Camera, como su primera aplicación para clientes, satisface las necesidades de creación y entretenimiento de un gran número de usuarias, admitiendo diversos estilos de generación y creación personalizada.

image.png

【Resumen de AiBase:】

👩‍💻 El modelo Vimi utiliza la avanzada tecnología de modelos grandes de SenseTime para generar videos de personajes que coinciden con los movimientos deseados, con una capacidad de seguimiento facial y control preciso fruto de años de experiencia.

🎥 Vimi puede generar videos de personajes de un solo plano con una duración superior a 1 minuto, sin que la calidad de la imagen se deteriore con el tiempo; admite el ajuste de escenas ambientales y la simulación de efectos visuales realistas.

📸 Vimi Camera permite a los usuarios subir imágenes de alta resolución de personas para generar avatares digitales y videos de retratos, ofreciendo una variedad de estilos de generación y divertidos emoticonos de personajes.

2. ¡Gratis por tiempo limitado! Tencent Zhiying lanza la función de «Video con IA» en su miniaplicación

La miniaplicación Zhiying ha lanzado una nueva función llamada «Video con IA», que permite a los usuarios convertir videos normales en videos con estilos artísticos, especialmente en estilo anime, para aumentar su atractivo. Esta función es gratuita por tiempo limitado y tiene como objetivo ayudar a los usuarios a mejorar la estética y la diversión de sus videos.

image.png

【Resumen de AiBase:】

🎥 Operación con un solo clic: fácil de usar, incluso los principiantes pueden crear videos con estilos profesionales.

🎨 Variedad de plantillas de estilo: ofrece plantillas diversas para mejorar la estética y la narrativa del video.

🚀 Mejora la difusión del video: los videos con estilos artísticos son fáciles de compartir y atraen la atención de más espectadores.

3. UltraPixel: herramienta de generación de imágenes de súper alta resolución

UltraPixel es una tecnología de vanguardia capaz de generar imágenes de súper alta resolución, una bendición para diseñadores y creadores. Mediante el entrenamiento y ajuste fino de Stable cascade, admite la generación directa de imágenes con resoluciones de 1K a 6K. Sus métodos técnicos incluyen la representación neuronal implícita y las capas de normalización sensibles a la escala, manteniendo un alto nivel de detalle y realismo. Al mismo tiempo, procesa de manera eficiente en el espacio mínimo, con una tasa de utilización de parámetros del 97%, lo que mejora la eficiencia del entrenamiento y la inferencia.

QQ截图20240709110659.jpg

【Resumen de AiBase:】

🔍 UltraPixel admite la generación directa de imágenes con resoluciones de 1K a 6K, con detalles tan finos como los poros de la piel, nítidos hasta el más mínimo detalle.

🚀 Basado en el entrenamiento y ajuste fino de Stable cascade, pronto será de código abierto, permitiendo que más personas experimenten el encanto de esta tecnología.

💡 Utiliza la rica información semántica de las imágenes de baja resolución para guiar la generación de imágenes de alta resolución, reduciendo la complejidad y manteniendo un alto nivel de detalle y realismo.

Enlace de detalles: https://top.aibase.com/tool/ultrapixel

4. Groq lanza un motor LLM ultrarrápido que atrae a 280.000 desarrolladores en solo cuatro meses

Groq ha lanzado recientemente un motor LLM ultrarrápido que ha llamado mucho la atención. Este motor procesa 1256,54 tokens por segundo, superando con creces la velocidad de las GPU, mostrando la velocidad y flexibilidad de los chatbots LLM. Groq ofrece un servicio gratuito de carga de trabajo LLM, que ya ha sido utilizado por más de 280.000 desarrolladores. El CEO Ross prevé que para el próximo año, la mitad de los cálculos de inferencia a nivel mundial se ejecutarán en los chips de Groq.

image.png

【Resumen de AiBase:】

🚀 El motor LLM de Groq procesa 1256,54 tokens por segundo, una velocidad muy superior a la de las GPU.

🤖 El motor de Groq muestra la velocidad y flexibilidad de los chatbots LLM, atrayendo la atención de desarrolladores y no desarrolladores.

💻 Groq ofrece un servicio gratuito de carga de trabajo LLM, que ya ha sido utilizado por más de 280.000 desarrolladores, y se prevé que la mitad de los cálculos de inferencia a nivel mundial se ejecutarán en sus chips.

5. Un equipo de vehículos autónomos lanza Odyssey, efectos visuales de IA con calidad cinematográfica

Un equipo de vehículos autónomos incursiona en Hollywood y lanza Odyssey, un revolucionario efecto visual de IA con calidad cinematográfica que revolucionará la forma de producir películas, programas de televisión y videojuegos. Odyssey puede generar tomas narrativas de nivel hollywoodense, superando las barreras de la IA de video y logrando un control total de la capa central de la narración visual. Inspirado en Pixar, su objetivo es utilizar la IA para producir obras audiovisuales y resolver el problema de la controlabilidad de la IA.

【Resumen de AiBase:】

🎬 Odyssey permite un control total de la capa central de la narración visual, generando elementos y aspectos de escenas de alta calidad.

🌟 Presenta un modelo generativo más potente, entrenando cuatro modelos para lograr una configuración precisa de los detalles de la escena.

🚗 El equipo está estrechamente relacionado con los vehículos autónomos; su fundador tiene una amplia experiencia en el campo de la conducción autónoma.

Enlace de detalles: https://top.aibase.com/tool/odyssey

6. Informes indican que un foro interno de OpenAI sufrió una intrusión de hackers y se robó información confidencial

Recientemente, el foro interno de la conocida empresa de inteligencia artificial OpenAI sufrió un ataque de hackers, lo que provocó problemas de seguridad y generó preocupación entre los empleados por la posibilidad de que se aprovechen las vulnerabilidades de seguridad. La empresa ha publicado una actualización para cifrar los registros de chat y mejorar la seguridad de los datos, y ha creado un comité de seguridad para reforzar las medidas de seguridad. La colaboración mundial para abordar los desafíos planteados por la IA se vuelve aún más importante.

【Resumen de AiBase:】

💡 El foro interno de OpenAI sufrió un ataque de hackers, lo que puso en duda la seguridad de la empresa y generó preocupación entre los empleados por la posibilidad de que se aprovechen las vulnerabilidades de seguridad.

💡 Se detectó una vulnerabilidad de seguridad en la aplicación ChatGPT para macOS; la empresa ha publicado una actualización para cifrar los registros de chat y mejorar la seguridad de los datos.

💡 OpenAI logró bloquear varias acciones de influencia secreta procedentes de Rusia e Israel, y creó un comité de seguridad para reforzar las medidas de seguridad.

7. Meta AI desarrolla MobileLLM, un modelo de lenguaje compacto para dispositivos móviles

El equipo de investigación de Meta AI ha presentado MobileLLM, un nuevo método para diseñar modelos de lenguaje eficientes para teléfonos inteligentes y otros dispositivos con recursos limitados. Esta investigación desafía las suposiciones sobre el tamaño de los modelos de IA efectivos, logrando una mejora del rendimiento del 2,7% al 4,3%. El desarrollo de MobileLLM responde a la demanda de modelos de IA más eficientes; aún no está disponible para el público, pero el código de preentrenamiento ya es de código abierto.

image.png

【Resumen de AiBase:】

🔑 MobileLLM es un modelo de lenguaje eficiente diseñado para dispositivos con recursos limitados, desafiando la necesidad de modelos de gran tamaño.

🚀 Las innovaciones de MobileLLM incluyen priorizar la profundidad del modelo, utilizar el intercambio de incrustaciones y la atención de consulta agrupada, y adoptar la técnica de intercambio de pesos de bloque directo.

💡 MobileLLM presenta un rendimiento excelente en tareas de evaluación comparativa; la versión de 350 millones de parámetros es comparable a los modelos de 7000 millones de parámetros en algunas tareas.

8. La plataforma social Poe lanza la función Previews

La plataforma social Poe ha lanzado una innovadora función llamada Previews, que ofrece a los usuarios una experiencia de interacción sin precedentes, marcando el comienzo de una nueva era en la interacción social con IA. La función Previews es intuitiva y fácil de usar, permitiendo a los usuarios ver y manipular aplicaciones web generadas por IA en tiempo real en la interfaz de chat, mejorando la calidad de la interacción entre los usuarios y la IA.

image.png

【Resumen de AiBase:】

🚀 La interacción social con IA entra en una nueva era; la función Previews permite a los usuarios manipular de forma intuitiva las aplicaciones web generadas por IA.

💡 La función Previews es fácil e intuitiva de usar, lo que permite a los usuarios interactuar con la IA de forma sencilla y natural.

💻 Es compatible con modelos de lenguaje grandes y ofrece a los usuarios comunes la oportunidad de acceder a aplicaciones de programación de IA avanzadas, aumentando el atractivo de la plataforma Poe.

9. Xinsir lanza el modelo de código abierto Controlnet++, que admite más de diez tipos de control condicional como Openpose y Canny

El modelo de código abierto Controlnet++ recién lanzado por Xinsir cuenta con múltiples condiciones de control y puede generar imágenes de alta calidad, especialmente adecuado para diseñadores que necesitan ediciones precisas. Este modelo se basa en la arquitectura ControlNet y agrega un nuevo módulo que admite más de diez tipos de control diferentes, proporcionando ejemplos de generación de imágenes bajo múltiples condiciones de control. Aunque actualmente no se puede utilizar en Web UI y Comfyui, su multifuncionalidad y la alta calidad de su salida lo convierten en un gran avance en el campo de la generación de imágenes a partir de texto.

image.png

【Resumen de AiBase:】

🔧 Controlnet++ admite entradas como Openpose y Canny, evitando cambios frecuentes de modelo.

🧩 Las características de diseño del modelo permiten múltiples controles, utilizando los mismos parámetros de red para lograr la generación de imágenes bajo diferentes condiciones.

🚀 Controlnet++ presenta un rendimiento excelente en los experimentos de SDXL, proporcionando ejemplos de generación de imágenes bajo múltiples condiciones de control.

Enlace de detalles: https://top.aibase.com/tool/controlnet-

10. El gran modelo de IA médica de Alipay hace su aparición; supera a GPT-4 en exámenes de chino e inglés

El gran modelo de IA médica de Alipay ha superado a GPT-4 en exámenes de chino e inglés, y ya se ha implementado en hospitales de primera línea de las provincias de Jiangsu, Zhejiang y Shanghai. Este modelo tiene capacidades multimodales, una precisión superior al 90% y puede proporcionar servicios como respuestas inteligentes, estructuración de historiales médicos y búsqueda.

【Resumen de AiBase:】

🏥 El gran modelo de IA médica de Alipay supera a GPT-4 en exámenes de chino e inglés, y ya se ha implementado en hospitales de primera línea.

💡 El modelo tiene capacidades multimodales, una precisión superior al 90% y puede proporcionar respuestas inteligentes, estructuración de historiales médicos y servicios de búsqueda.

🔒 Alipay ha adoptado múltiples medidas para garantizar la fiabilidad tecnológica y la seguridad de la privacidad de los datos, impulsando la implementación a gran escala de la inteligencia artificial.