Claude3.5: ¡Actualización masiva! Sonnet supera a o1 en codificación, Haiku ofrece la mejor relación calidad-precio ¡y hasta usa el ordenador!

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Oct 23, 2024

484

Anthropic lanza con entusiasmo las versiones mejoradas Claude 3.5 Sonnet y el nuevo modelo Claude 3.5 Haiku. Ambos modelos muestran avances significativos en razonamiento, codificación y procesamiento visual. Claude 3.5 Sonnet ha sido completamente actualizado, con una capacidad de codificación líder en la industria y un rendimiento excepcional en varias pruebas de referencia del sector.

Cabe destacar su puntuación del 49,0% en la prueba SWE-bench Verified, superando a todos los modelos públicos, incluyendo modelos de razonamiento como OpenAI o1-preview y sistemas diseñados específicamente para la codificación de agentes.

Además, obtuvo una puntuación del 69,2% en el sector minorista de la prueba TAU-bench para tareas de uso de herramientas de agentes, y del 46,0% en el sector aeronáutico, más desafiante.

Lo más destacable es que Claude 3.5 Sonnet es el primero en introducir en su versión beta pública la función de "uso del ordenador", que permite a los desarrolladores utilizar el ordenador como una persona. Esto significa que Claude puede ver la pantalla, mover el cursor, hacer clic en botones e introducir texto, abriendo nuevas posibilidades para la automatización de procesos, la creación y prueba de software, y tareas abiertas.

Claude 3.5 Haiku es el modelo más rápido de Anthropic, con un rendimiento similar a Claude 3 Opus, pero a un coste menor y mayor velocidad. Destaca especialmente en tareas de codificación, obteniendo una puntuación del 40,6% en la prueba SWE-bench Verified, superando a muchos agentes que utilizan modelos de vanguardia pública, incluyendo el Claude 3.5 Sonnet original y GPT-4o.

Claude 3.5 Haiku es ideal para productos orientados al usuario, tareas de agentes especializados y la generación de experiencias personalizadas a partir de grandes cantidades de datos, como historiales de compras, precios o inventarios.

Para lograr estas habilidades generales, Anthropic ha creado una API que permite a Claude percibir e interactuar con la interfaz del ordenador. Los desarrolladores pueden integrar esta API para que Claude pueda convertir instrucciones (por ejemplo, "utiliza mi ordenador y los datos online para rellenar este formulario") en comandos de ordenador (como consultar hojas de cálculo; mover el cursor para abrir un navegador web; navegar a las páginas web relevantes; rellenar el formulario con los datos de esas páginas web, etc.).

En la prueba OSWorld, que evalúa la capacidad de los modelos de IA para usar un ordenador como una persona, Claude 3.5 Sonnet obtuvo una puntuación del 14,9% en la categoría de solo capturas de pantalla, superando significativamente el 7,8% del segundo sistema de IA. Cuando se requieren más pasos para completar la tarea, la puntuación de Claude alcanza el 22,0%.

Anthropic destaca que, aunque se espera una rápida mejora de esta función en los próximos meses, la capacidad actual de Claude para usar un ordenador no es perfecta. Algunas acciones que los humanos realizan fácilmente (como desplazarse, arrastrar y ampliar) siguen siendo un desafío para Claude, y Anthropic anima a los desarrolladores a comenzar explorando tareas de bajo riesgo.

Dado que el uso del ordenador puede ofrecer nuevas vías para amenazas comunes como correo basura, información falsa o fraude, Anthropic está adoptando un enfoque proactivo para promover su despliegue seguro. Han desarrollado nuevos clasificadores que pueden identificar cuándo se está utilizando un ordenador y si se está produciendo algún daño.

Actualmente, Claude 3.5 Sonnet está disponible para todos los usuarios. A partir de hoy, los desarrolladores pueden construir con la versión beta de "uso del ordenador" en la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud. El nuevo Claude 3.5 Haiku se lanzará a finales de este mes.

El artículo de DeepSeek-R1 aparece en la portada de Nature, destacando un nuevo avance en la inferencia de inteligencia artificial

Recientemente, el artículo de portada de la última edición de la revista Nature ha llamado la atención general, siendo el tema de estudio DeepSeek-R1. Este estudio fue liderado por el equipo del profesor Liang Wenfeng, y se enfocó en cómo mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM) mediante el aprendizaje por refuerzo. Desde enero de este año, el estudio ya había sido publicado en arXiv, recibiendo una alta valoración de la comunidad académica. En la introducción de la portada, Nature señala que si los modelos grandes pueden planificar los pasos para resolver problemas, suelen obtener mejores soluciones. Esta

Huawei presenta una nueva tecnología para optimizar la inferencia de modelos grandes: la tecnología UCM reduce la dependencia de HBM

El 12 de agosto, Huawei lanzará en el foro 'Aplicación y desarrollo de la inteligencia artificial en finanzas 2025' una innovadora tecnología de inferencia de IA llamada UCM (Administrador de memoria de datos de inferencia). Esta tecnología tiene como objetivo reducir la dependencia de China en HBM (memoria de ancho de banda alto) para la inferencia de IA y mejorar significativamente el rendimiento de los modelos grandes en el país. UCM se basa en KV Cache, integrando herramientas de algoritmos de aceleración de múltiples tipos de caché, gestionando jerárquicamente los datos de memoria generados durante la inferencia, ampliando la ventana de contexto y logrando una alta capacidad de procesamiento con baja latencia.

AliTongyi lanza el modelo de generación de video a partir de imágenes Wan2.2-I2V-Flash, con un aumento significativo en la velocidad de inferencia

AliTongyi anunció hoy su nuevo modelo de generación de video a partir de imágenes Wan2.2-I2V-Flash. La puesta en marcha de este modelo ofrecerá a los usuarios una experiencia de generación de videos más rápida, más profesional y más estable. Wan2.2-I2V-Flash mantiene una representación visual cinematográfica mientras mejora significativamente la velocidad de generación y la relación calidad-precio. El modelo Wan2.2-I2V-Flash lanzado esta vez mejora en 12 veces la velocidad de inferencia en comparación con su anterior versión Wan2.1, mejorando así considerablemente la eficiencia creativa. El nuevo modelo tiene instrucciones

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Claude3.5: ¡Actualización masiva! Sonnet supera a o1 en codificación, Haiku ofrece la mejor relación calidad-precio ¡y hasta usa el ordenador!

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El artículo de DeepSeek-R1 aparece en la portada de Nature, destacando un nuevo avance en la inferencia de inteligencia artificial

El equipo de Ant Forest Ling-flash-2.0 logra un nuevo récord en velocidad de inferencia

Baseten recibe 1.500 millones de dólares en financiación de serie D y acelera el desarrollo de su plataforma de inferencia de inteligencia artificial

Mejora asombrosa del 87% en la velocidad de inferencia de PyTorch con el núcleo Metal optimizado por IA

Meituan lanza el conjunto de evaluación Meeseeks ¡o3-mini lidera la clasificación! DeepSeek-R1 sorprendentemente en último lugar desencadena una discusión

xAI presenta oficialmente Grok Code Fast1: un modelo de codificación eficiente, rápido y económico

Wenxin Kuaima presenta nuevas funciones, capacidad de codificación en terminal Zulu-CLI

Huawei presenta una nueva tecnología para optimizar la inferencia de modelos grandes: la tecnología UCM reduce la dependencia de HBM

Intel lanza LLM-Scaler1.0 para mejorar el rendimiento de la inferencia de IA

AliTongyi lanza el modelo de generación de video a partir de imágenes Wan2.2-I2V-Flash, con un aumento significativo en la velocidad de inferencia

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Claude3.5: ¡Actualización masiva! Sonnet supera a o1 en codificación, Haiku ofrece la mejor relación calidad-precio ¡y hasta usa el ordenador!

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El artículo de DeepSeek-R1 aparece en la portada de Nature, destacando un nuevo avance en la inferencia de inteligencia artificial

El equipo de Ant Forest Ling-flash-2.0 logra un nuevo récord en velocidad de inferencia

​Baseten recibe 1.500 millones de dólares en financiación de serie D y acelera el desarrollo de su plataforma de inferencia de inteligencia artificial

Mejora asombrosa del 87% en la velocidad de inferencia de PyTorch con el núcleo Metal optimizado por IA

Meituan lanza el conjunto de evaluación Meeseeks ¡o3-mini lidera la clasificación! DeepSeek-R1 sorprendentemente en último lugar desencadena una discusión

xAI presenta oficialmente Grok Code Fast1: un modelo de codificación eficiente, rápido y económico

Wenxin Kuaima presenta nuevas funciones, capacidad de codificación en terminal Zulu-CLI

Huawei presenta una nueva tecnología para optimizar la inferencia de modelos grandes: la tecnología UCM reduce la dependencia de HBM

Intel lanza LLM-Scaler1.0 para mejorar el rendimiento de la inferencia de IA

AliTongyi lanza el modelo de generación de video a partir de imágenes Wan2.2-I2V-Flash, con un aumento significativo en la velocidad de inferencia

GEO Services

Baseten recibe 1.500 millones de dólares en financiación de serie D y acelera el desarrollo de su plataforma de inferencia de inteligencia artificial