AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

Claude3.5大幅アップデート：Sonnetのコーディング能力がo1を凌駕、Haikuはコストパフォーマンス抜群、さらにPCも操作可能！

AIbase基地

公開日AIニュース · 1 分で読めます · Oct 23, 2024

495

Anthropic社は、推論、コーディング、ビジュアル処理において著しい進歩を遂げた、アップグレード版Claude3.5Sonnetと全く新しいモデルClaude3.5Haikuを発表しました。Claude3.5Sonnetは全面的にアップグレードされ、そのコーディング能力は業界をリードし、多くの業界ベンチマークテストで優れた成績を収めています。

特に注目すべきは、SWE-bench Verifiedテストで49.0％というスコアを達成し、OpenAI o1-previewなどの推論モデルや、代理コーディング用に設計されたシステムを含む、公開されているすべてのモデルを上回ったことです。

さらに、代理ツール使用タスクTAU-benchの小売分野では69.2％、より困難な航空分野では46.0％というスコアを達成しました。

最も注目すべきは、Claude3.5Sonnetが公開テスト版で「コンピューター使用」機能を初めて導入したことでしょう。この機能により、開発者は人間のようにコンピューターを使用できるようになります。つまり、Claudeは画面を見て、カーソルを移動し、ボタンをクリックし、テキストを入力することができ、自動化プロセス、ソフトウェアの構築とテスト、そしてオープンなタスクに新たな可能性を切り開きます。

Claude3.5Haikuは、Anthropic社が開発した最速のモデルで、Claude3Opusと同等の性能を持ちながら、コストを抑え、速度が向上しています。コーディングタスク、特にSWE-bench Verifiedテストでは40.6％というスコアを達成し、初期のClaude3.5SonnetやGPT-4oを含む、公開されている最先端モデルを使用した多くの代理を上回っています。

Claude3.5Haikuは、ユーザー向け製品、専門的なサブエージェントタスク、大量のデータ（購入履歴、価格、在庫記録など）からのパーソナライズされたエクスペリエンスの生成に最適です。

これらの汎用的なスキルを実現するために、Anthropic社は、Claudeがコンピューターインターフェースを認識して操作できるAPIを構築しました。開発者はこのAPIを統合することで、Claudeが「私のコンピューターとオンラインデータを使用してこのフォームに入力してください」などの指示を、「スプレッドシートを確認する」「カーソルを移動してWebブラウザを開く」「関連するWebページに移動する」「これらのWebページのデータを使用してフォームに入力する」などのコンピューターコマンドに変換できるようにします。

AIモデルが人間のようにコンピューターを使用する能力を評価するOSWorldテストでは、Claude3.5Sonnetはスクリーンショットのみのカテゴリで14.9％というスコアを達成し、2位となったAIシステムの7.8％を大幅に上回りました。タスクを完了するためにより多くのステップが必要な場合、Claudeのスコアは22.0％に達しました。

Anthropic社は、この機能は今後数ヶ月で急速に改善されると予想されるものの、現在のClaudeのコンピューター使用能力はまだ完璧ではないと強調しています。スクロール、ドラッグ、ズームなど、人間が簡単に実行できる操作の中には、Claudeにとってまだ困難なものもあります。Anthropic社は、開発者に対して、リスクの低いタスクから始めることを推奨しています。

コンピューターの使用は、スパム、虚偽情報、詐欺などのより一般的な脅威への新たな経路を提供する可能性があるため、Anthropic社は安全な展開を促進するために積極的なアプローチを取っています。コンピューターがいつ使用され、有害な行為が行われているかどうかを識別できる新しい分類器を開発しました。

現在、Claude3.5Sonnetはすべてのユーザーに公開されています。本日より、開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIで「コンピューター使用」テスト版を使用して構築できます。新しいClaude3.5Haikuは今月末にリリース予定です。

Claude3.5Sonnet Claude3.5Haiku 推論コーディング

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

研究者が大規模モデルが本当に推論していないことを示す：ただの関係性を探しているだけ

May 30, 2025

Memvid: 革新的AIメモリーツール軽量級のテキストコーディングビデオによる高速な意味論検索

May 30, 2025

DeepSeek R1 リリース: コード生成と複雑な推論パフォーマンスが大幅に向上 - 推論能力はOpenAI o1と同等

DeepSeek社は先ごろ、高性能推論AIモデルのDeepSeek-R1を大幅にアップデートしました。コードの生成や複雑な推論タスクにおける性能が大きく向上し、人工知能分野で注目を集めています。以下の公開情報および最新動向に基づき、今回のアップデートの主要ポイントを全面的に分析します。 R1モデルのアップデート: コード能力が大幅に向上テストによると、最新版のR1モデルではコード生成能力において顕著な進化が見られました。複雑なコードタスクの処理能力が大幅に改善されています。

May 29, 2025

OperaがAIアシスタントブラウザNeonを発表：ユーザーの代わりに買い物やコーディングを約束するが、有料サブスクリプションが必要

May 29, 2025

マルチモーダル大規模モデルの視覚推論能力評価:o3 は 25.8% のスコアしか獲得できなかった

このほど、清華大学、テンセント・ハウン、スタンフォード大学およびキャロライナ州立大学の研究チームによって、多模態大規模モデルの視覚推論能力をテストする新しい評価基準「RBench-V」が発表されました。この基準の登場により、現在の評価システムにおけるモデルの視覚出力能力に関する空白を埋め、既存モデルの性能をより包括的に理解できるようになります。「RBench-V」の基準テストには、幾何学とグラフ理論、力学と電磁気学、マルチターゲット認識と経路計画など、複数の分野から803問の問題が含まれています。

May 28, 2025

レッドハットがグーグルやNVIDIAと提携し、llm-dのオープンソースプロジェクトを開始——大規模AI推論のコストと遅延という二重の課題を解決

世界中のオープンソリューションのリーダーであるレッドハット社は、最近、生成型AIの大規模な推論に対する緊急の需要に応えるため、革命的なオープンソースプロジェクト llm-d を開始しました。このプロジェクトは、CoreWeave、Google Cloud、IBM Research、およびNVIDIAなどの業界を代表する主要な貢献者によって構成され、最高度の一貫性のある生産サービス級の目標を達成するために、革新技術を通じて大規模な言語モデルの推論クラウドを開発します。推論時代は到来しており、その挑戦はますます厳しさを増しています。Gartnerの最新データ予測では、202...

May 27, 2025

アリババがQwenLong-L1-32Bをリリース：ロングコンテキスト推論モデルのパフォーマンスがClaude-3.7に迫る

May 27, 2025

阿里が画期的な発表：QwenLong-L1-32B、初の強化学習による長文推論モデルクラウド3.7と同等のパフォーマンス

アリババは本日、QwenLong-L1-32Bの正式発表を行いました。これは、長い文脈推論を専門とする大規模言語モデルで、AIの長期テキスト処理能力に大きなブレークスルーをもたらします。このモデルは、o3-miniやQwen3-235B-A22Bを上回るパフォーマンスを発揮し、Claude-3.7-Sonnet-Thinkingと同等のレベルに達しています。技術的革新のポイントとして、QwenLong-L1-32Bが世界で初めて強化学習を用いて訓練された点が挙げられます。

May 27, 2025

AIデイリーニュース: Anthropicが最も強力なコーディングAIモデルのClaude4を発表; AppleがAIインテリジェントグラスの投入を計画; 字節跳動と清華大学が共同でマルチモーダル大規模モデルのChatTSを発表

May 23, 2025

AnthropicがClaude4を発表——世界最高級のコーディングAI、コード自動生成を7時間で新記録達成

May 23, 2025

100

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

Claude3.5大幅アップデート：Sonnetのコーディング能力がo1を凌駕、Haikuはコストパフォーマンス抜群、さらにPCも操作可能！

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

研究者が大規模モデルが本当に推論していないことを示す：ただの関係性を探しているだけ

Memvid: 革新的AIメモリーツール 軽量級のテキストコーディングビデオによる高速な意味論検索

DeepSeek R1 リリース: コード生成と複雑な推論パフォーマンスが大幅に向上 - 推論能力はOpenAI o1と同等

OperaがAIアシスタントブラウザNeonを発表：ユーザーの代わりに買い物やコーディングを約束するが、有料サブスクリプションが必要

マルチモーダル大規模モデルの視覚推論能力評価:o3 は 25.8% のスコアしか獲得できなかった

レッドハットがグーグルやNVIDIAと提携し、llm-dのオープンソースプロジェクトを開始——大規模AI推論のコストと遅延という二重の課題を解決

アリババがQwenLong-L1-32Bをリリース：ロングコンテキスト推論モデルのパフォーマンスがClaude-3.7に迫る

阿里が画期的な発表：QwenLong-L1-32B、初の強化学習による長文推論モデル クラウド3.7と同等のパフォーマンス

AIデイリーニュース: Anthropicが最も強力なコーディングAIモデルのClaude4を発表; AppleがAIインテリジェントグラスの投入を計画; 字節跳動と清華大学が共同でマルチモーダル大規模モデルのChatTSを発表

AnthropicがClaude4を発表——世界最高級のコーディングAI、コード自動生成を7時間で新記録達成

Memvid: 革新的AIメモリーツール軽量級のテキストコーディングビデオによる高速な意味論検索

阿里が画期的な発表：QwenLong-L1-32B、初の強化学習による長文推論モデルクラウド3.7と同等のパフォーマンス