Anthropic lanza con entusiasmo las versiones mejoradas Claude 3.5 Sonnet y el nuevo modelo Claude 3.5 Haiku. Ambos modelos muestran avances significativos en razonamiento, codificación y procesamiento visual. Claude 3.5 Sonnet ha sido completamente actualizado, con una capacidad de codificación líder en la industria y un rendimiento excepcional en varias pruebas de referencia del sector.
Cabe destacar su puntuación del 49,0% en la prueba SWE-bench Verified, superando a todos los modelos públicos, incluyendo modelos de razonamiento como OpenAI o1-preview y sistemas diseñados específicamente para la codificación de agentes.
Además, obtuvo una puntuación del 69,2% en el sector minorista de la prueba TAU-bench para tareas de uso de herramientas de agentes, y del 46,0% en el sector aeronáutico, más desafiante.
Lo más destacable es que Claude 3.5 Sonnet es el primero en introducir en su versión beta pública la función de "uso del ordenador", que permite a los desarrolladores utilizar el ordenador como una persona. Esto significa que Claude puede ver la pantalla, mover el cursor, hacer clic en botones e introducir texto, abriendo nuevas posibilidades para la automatización de procesos, la creación y prueba de software, y tareas abiertas.
Claude 3.5 Haiku es el modelo más rápido de Anthropic, con un rendimiento similar a Claude 3 Opus, pero a un coste menor y mayor velocidad. Destaca especialmente en tareas de codificación, obteniendo una puntuación del 40,6% en la prueba SWE-bench Verified, superando a muchos agentes que utilizan modelos de vanguardia pública, incluyendo el Claude 3.5 Sonnet original y GPT-4o.
Claude 3.5 Haiku es ideal para productos orientados al usuario, tareas de agentes especializados y la generación de experiencias personalizadas a partir de grandes cantidades de datos, como historiales de compras, precios o inventarios.
Para lograr estas habilidades generales, Anthropic ha creado una API que permite a Claude percibir e interactuar con la interfaz del ordenador. Los desarrolladores pueden integrar esta API para que Claude pueda convertir instrucciones (por ejemplo, "utiliza mi ordenador y los datos online para rellenar este formulario") en comandos de ordenador (como consultar hojas de cálculo; mover el cursor para abrir un navegador web; navegar a las páginas web relevantes; rellenar el formulario con los datos de esas páginas web, etc.).
En la prueba OSWorld, que evalúa la capacidad de los modelos de IA para usar un ordenador como una persona, Claude 3.5 Sonnet obtuvo una puntuación del 14,9% en la categoría de solo capturas de pantalla, superando significativamente el 7,8% del segundo sistema de IA. Cuando se requieren más pasos para completar la tarea, la puntuación de Claude alcanza el 22,0%.
Anthropic destaca que, aunque se espera una rápida mejora de esta función en los próximos meses, la capacidad actual de Claude para usar un ordenador no es perfecta. Algunas acciones que los humanos realizan fácilmente (como desplazarse, arrastrar y ampliar) siguen siendo un desafío para Claude, y Anthropic anima a los desarrolladores a comenzar explorando tareas de bajo riesgo.
Dado que el uso del ordenador puede ofrecer nuevas vías para amenazas comunes como correo basura, información falsa o fraude, Anthropic está adoptando un enfoque proactivo para promover su despliegue seguro. Han desarrollado nuevos clasificadores que pueden identificar cuándo se está utilizando un ordenador y si se está produciendo algún daño.
Actualmente, Claude 3.5 Sonnet está disponible para todos los usuarios. A partir de hoy, los desarrolladores pueden construir con la versión beta de "uso del ordenador" en la API de Anthropic, Amazon Bedrock y Vertex AI de Google Cloud. El nuevo Claude 3.5 Haiku se lanzará a finales de este mes.