Anthropic社は、推論、コーディング、ビジュアル処理において著しい進歩を遂げた、アップグレード版Claude3.5Sonnetと全く新しいモデルClaude3.5Haikuを発表しました。Claude3.5Sonnetは全面的にアップグレードされ、そのコーディング能力は業界をリードし、多くの業界ベンチマークテストで優れた成績を収めています。

特に注目すべきは、SWE-bench Verifiedテストで49.0%というスコアを達成し、OpenAI o1-previewなどの推論モデルや、代理コーディング用に設計されたシステムを含む、公開されているすべてのモデルを上回ったことです。

さらに、代理ツール使用タスクTAU-benchの小売分野では69.2%、より困難な航空分野では46.0%というスコアを達成しました。

image.png

最も注目すべきは、Claude3.5Sonnetが公開テスト版で「コンピューター使用」機能を初めて導入したことでしょう。この機能により、開発者は人間のようにコンピューターを使用できるようになります。つまり、Claudeは画面を見て、カーソルを移動し、ボタンをクリックし、テキストを入力することができ、自動化プロセス、ソフトウェアの構築とテスト、そしてオープンなタスクに新たな可能性を切り開きます。

Claude3.5Haikuは、Anthropic社が開発した最速のモデルで、Claude3Opusと同等の性能を持ちながら、コストを抑え、速度が向上しています。コーディングタスク、特にSWE-bench Verifiedテストでは40.6%というスコアを達成し、初期のClaude3.5SonnetやGPT-4oを含む、公開されている最先端モデルを使用した多くの代理を上回っています。

Claude3.5Haikuは、ユーザー向け製品、専門的なサブエージェントタスク、大量のデータ(購入履歴、価格、在庫記録など)からのパーソナライズされたエクスペリエンスの生成に最適です。

これらの汎用的なスキルを実現するために、Anthropic社は、Claudeがコンピューターインターフェースを認識して操作できるAPIを構築しました。開発者はこのAPIを統合することで、Claudeが「私のコンピューターとオンラインデータを使用してこのフォームに入力してください」などの指示を、「スプレッドシートを確認する」「カーソルを移動してWebブラウザを開く」「関連するWebページに移動する」「これらのWebページのデータを使用してフォームに入力する」などのコンピューターコマンドに変換できるようにします。

image.png

image.png

image.png

AIモデルが人間のようにコンピューターを使用する能力を評価するOSWorldテストでは、Claude3.5Sonnetはスクリーンショットのみのカテゴリで14.9%というスコアを達成し、2位となったAIシステムの7.8%を大幅に上回りました。タスクを完了するためにより多くのステップが必要な場合、Claudeのスコアは22.0%に達しました。

Anthropic社は、この機能は今後数ヶ月で急速に改善されると予想されるものの、現在のClaudeのコンピューター使用能力はまだ完璧ではないと強調しています。スクロール、ドラッグ、ズームなど、人間が簡単に実行できる操作の中には、Claudeにとってまだ困難なものもあります。Anthropic社は、開発者に対して、リスクの低いタスクから始めることを推奨しています。

image.png

コンピューターの使用は、スパム、虚偽情報、詐欺などのより一般的な脅威への新たな経路を提供する可能性があるため、Anthropic社は安全な展開を促進するために積極的なアプローチを取っています。コンピューターがいつ使用され、有害な行為が行われているかどうかを識別できる新しい分類器を開発しました。

現在、Claude3.5Sonnetはすべてのユーザーに公開されています。本日より、開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIで「コンピューター使用」テスト版を使用して構築できます。新しいClaude3.5Haikuは今月末にリリース予定です。