¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del ámbito de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.
¡Descubre nuevos productos de IA haciendo clic aquí!:https://top.aibase.com/
1、El modelo Claude3.5Sonnet añade la función de procesamiento de archivos PDF
El modelo Claude3.5Sonnet, recientemente lanzado por Anthropic, ha añadido la función de procesamiento de archivos PDF. Los usuarios pueden utilizar este modelo para analizar el texto y los elementos visuales de los documentos PDF, incluyendo imágenes, gráficos y tablas, siendo aplicable a diversas situaciones.
【Resumen de AiBase:】
📄 El modelo Claude3.5Sonnet incorpora una nueva función de procesamiento de archivos PDF, compatible con el análisis de texto e imágenes.
🖼️ El proceso de procesamiento incluye tres pasos: extracción de texto, conversión de páginas a imágenes y análisis integral.
💰 El coste del procesamiento varía según la longitud y la densidad del contenido del documento. Los usuarios deben respetar las limitaciones de tamaño y número de páginas de los archivos.
2、Se revela la versión completa del modelo o1 de OpenAI: capacidades superiores, procesamiento de 200.000 tokens
He comentado sobre la reciente revelación del modelo o1 de OpenAI. Este modelo se considera el más potente de OpenAI, con la capacidad de procesar grandes cantidades de texto y analizar imágenes, siendo especialmente adecuado para tareas de razonamiento avanzado y creativas. Se espera que la versión completa se lance a finales de este año, lo que ha generado un gran interés en el campo de la inteligencia artificial. Los usuarios esperan con entusiasmo la experiencia con el modelo o1.
【Resumen de AiBase:】
🌟 El modelo o1 estuvo disponible brevemente, pudiendo procesar aproximadamente 200.000 palabras y analizar imágenes.
🚀 OpenAI lo describe como su "modelo más potente", ideal para tareas de razonamiento avanzado y creativas.
📅 La versión completa aún no se ha lanzado, pero se espera que lo haga a finales de este año.
3、¡Adiós a la generación aleatoria! Runway lanza un control de cámara avanzado: domina la cámara como un director
La nueva función de control de cámara avanzado de Runway permite a los usuarios controlar los movimientos de cámara en escenas virtuales como si fueran directores, ofreciendo una flexibilidad y control sin precedentes en la creación de videos con IA. Los usuarios pueden lograr diversos efectos como movimientos horizontales, tomas panorámicas, exploración de ubicaciones, tomas en bucle, etc., ampliando enormemente el potencial creativo. Esta función ha revolucionado la forma en que los usuarios perciben el trabajo con cámaras digitales, permitiendo transiciones fluidas y mejorando la composición de las escenas.
【Resumen de AiBase:】
🎥 Los usuarios pueden controlar con precisión los movimientos de cámara en escenas virtuales como un director, logrando diversos efectos, incluyendo movimientos horizontales y tomas panorámicas.
🔍 Gracias a la función de grabación en bucle con cambios de velocidad, los usuarios pueden generar bucles visuales o transiciones llamativas, ampliando enormemente su potencial creativo.
📽️ El control avanzado de cámara permite a los usuarios controlar con precisión la presentación de la escena y el tema, transportando a los espectadores a un mundo vívido y aparentemente 3D.
Enlace de detalles:https://top.aibase.com/tool/runway
4、Solo 60+ usuarios de pago, ¡pero ingresos mensuales de 30.000! Se revela el modelo de negocio de la herramienta de chat de IA de código abierto LobeChat
El equipo de LobeChat ha logrado resultados iniciales prometedores en la prueba pública de su servicio en la nube para la herramienta de chat de IA de código abierto LobeChat, con ingresos mensuales que superan los 30.000 yuanes chinos, pero enfrenta el desafío de una baja tasa de conversión de pago. El equipo planea abordar este problema mediante funciones diferenciadas y ajustes en el modelo de suscripción, comprometiéndose a resolver los problemas de diseño del producto. El margen de beneficio es limitado, por lo que se centrarán en el indicador MRR para garantizar un desarrollo sostenible.
【Resumen de AiBase:】
📈 El servicio en la nube de LobeChat ha superado los 30.000 yuanes chinos en ingresos mensuales, con más de 60 usuarios de pago, mostrando un potencial de comercialización.
🔍 La baja tasa de conversión de pago, inferior al 1%, podría deberse a la intensa competencia del mercado y a las diferencias funcionales.
💡 El equipo de LobeChat planea introducir funciones diferenciadas y ajustar los modelos de suscripción, centrándose en el indicador MRR para garantizar un desarrollo sostenible.
Enlace de detalles:https://lobechat.com/welcome
5、¿Los modelos de difusión también pueden "aprender de un ejemplo"? IC-LoRA de Alibaba añade capacidad de memoria de trama a los modelos de generación de imágenes
La última investigación del laboratorio Tongyi de Alibaba demuestra que los modelos de difusión Transformer de texto a imagen existentes ya tienen la capacidad de generar varias imágenes con relaciones específicas. Gracias a IC-LoRA, el modelo se vuelve más inteligente y solo necesita una pequeña cantidad de ejemplos para aprender nuevas habilidades. Los investigadores han diseñado un proceso simple y eficiente para despertar la capacidad de "aprendizaje contextual" de los modelos de difusión, reduciendo significativamente los costes de entrenamiento de los modelos de IA y permitiendo que más personas participen en la creación de IA. La aparición de IC-LoRA supone un avance trascendental en el campo de la generación de imágenes con IA, permitiendo que todo el mundo pueda convertirse en artista.
【Resumen de AiBase:】
🔍 Los modelos de difusión Transformer de texto a imagen existentes ya tienen la capacidad de generar varias imágenes con relaciones específicas.
🧠 IC-LoRA hace que el modelo sea más inteligente, necesitando solo unos pocos ejemplos para aprender nuevas habilidades.
💡 Se ha diseñado un proceso simple y eficiente para despertar la capacidad de "aprendizaje contextual" de los modelos de difusión.
Enlace de detalles:https://ali-vilab.github.io/In-Context-LoRA-Page/
6、¡Revolucionando la edición de video! La herramienta de código abierto ComfyUI-MochiEdit admite la conversión de video a video y la edición parcial
Siempre he imaginado editar videos como si editara texto, y ahora esa idea se ha hecho realidad. ComfyUI-MochiEdit es una herramienta de edición de video de código abierto basada en ComfyUI y Genmo Mochi, que ofrece una nueva forma de editar videos: convertir el video en ruido y luego volver a muestrear el ruido mediante indicaciones de destino para generar un nuevo video. Este método permite la edición parcial y la conversión de video a video, lo que facilita a los usuarios modificar partes del video sin tener que procesar todo el video.
【Resumen de AiBase:】
⚙️ Conversión de video a ruido y remuestreo, permitiendo la edición parcial y la conversión de video a video.
🎨 Permite convertir videos de entrada en nuevos videos con un estilo o contenido específico.
🔧 Los usuarios pueden controlar el efecto del video final ajustando los parámetros de los nodos.
Enlace de detalles:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler
7、¡Impulsado por la fiebre de la IA! Python supera a JavaScript, convirtiéndose en el lenguaje de programación más popular en GitHub
Python ha superado a JavaScript en la plataforma para desarrolladores GitHub, principalmente debido a la creciente popularidad de la inteligencia artificial generativa. GitHub señala que la IA no ha disminuido la calidad del código de los proyectos de código abierto, sino que ha impulsado el crecimiento de las contribuciones a los proyectos de IA. Los desarrolladores están integrando cada vez más modelos de IA en sus cadenas de herramientas, centrándose en modelos pequeños y eficientes y en la automatización mediante agentes de IA. El proyecto de IA de código abierto más destacado de 2024 es "ollama/ollama", lo que demuestra el rápido desarrollo del campo de la IA.
【Resumen de AiBase:】
🌟 Python ha superado a JavaScript como el lenguaje de programación más popular en GitHub, gracias al auge de la inteligencia artificial generativa.
📈 Las contribuciones a los proyectos de IA generativa han aumentado un 59%, con un aumento total del 98%, impulsando el desarrollo del campo de la IA.
🤖 GitHub afirma que la IA no ha disminuido la calidad del código de los proyectos de código abierto, y los desarrolladores muestran un gran interés en los modelos pequeños y eficientes y en la automatización mediante agentes de IA.
8、La última tecnología de Meta: Sparsh dota a los robots de un sentido del tacto "de nivel humano", ¡la manipulación hábil ya no es un sueño!
El laboratorio Meta FAIR ha publicado recientemente una tecnología de percepción táctil multimodal para las yemas de los dedos llamada "Sparsh", que proporciona a los robots una capacidad de percepción táctil casi humana, lo que revolucionará el campo de la manipulación robótica. Esta tecnología utiliza el aprendizaje autosupervisado, entrenándose previamente con más de 460.000 imágenes táctiles, y es compatible con varios sensores visuales y táctiles, mejorando significativamente el rendimiento de los robots en tareas de percepción táctil. La publicación del modelo Sparsh representa un gran avance en el campo de la percepción táctil de la IA, y en el futuro podría cambiar la forma en que los robots interactúan con el mundo físico.
【Resumen de AiBase:】
🤖 El modelo Sparsh utiliza aprendizaje autosupervisado, entrenándose previamente con más de 460.000 imágenes táctiles sin necesidad de datos etiquetados manualmente, aprendiendo representaciones táctiles generales.
👆 El modelo Sparsh es compatible con varios sensores visuales y táctiles, como DIGIT, GelSight2017 y GelSight Mini, mejorando el rendimiento de los robots en tareas de percepción táctil.
🌟 El modelo Sparsh ha obtenido excelentes resultados en la plataforma de pruebas de referencia TacBench, logrando resultados satisfactorios en tareas como la estimación de fuerza y la detección de deslizamiento incluso con solo el 1% de los datos etiquetados.
Enlace de detalles:
https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4
9、Nuevo modelo de audio de código abierto Hertz-Dev: latencia ultrabaja, permitiendo conversaciones de IA en tiempo real
En la ola de la tecnología actual, la inteligencia artificial (IA) conversacional se ha convertido en una parte esencial de nuestras vidas. El modelo de audio de código abierto Hertz-Dev, desarrollado por Standard Intelligence Lab, ha logrado conversaciones de IA en tiempo real con una latencia ultrabaja, ofreciendo nuevas esperanzas para la interacción entre humanos y máquinas.
【Resumen de AiBase:】
🌟 Hertz-Dev es un modelo de audio de código abierto con 850 millones de parámetros, con una latencia teórica de solo 80 milisegundos y una latencia real de 120 milisegundos, mejorando enormemente la experiencia de conversación en tiempo real.
💡 Los desarrolladores y los investigadores independientes pueden utilizar fácilmente la tecnología avanzada de IA conversacional en tiempo real sin necesidad de un hardware potente, reduciendo la barrera de entrada.
🚀 La amplia aplicación de Hertz-Dev impulsará el desarrollo de la inteligencia artificial en áreas como la atención al cliente y el hogar inteligente, haciendo que la interacción entre humanos y máquinas sea más natural.
Enlace de detalles:https://github.com/Standard-Intelligence/hertz-dev
10、¡Ex ejecutivo de XPeng funda una empresa de robots de compañía con IA y logra una financiación de millones de yuanes!