AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

OpenAIのo3モデル、テスト結果に疑問の声　実際の性能は宣伝よりはるかに低い

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 21, 2025

最近、OpenAIが発表したo3人工知能モデルのベンチマークテストの結果が、広く議論を呼んでいます。OpenAIは昨年12月にo3を初めて発表した際、非常に難しいFrontierMath数学問題集で4分の1以上の問題に正答できると自信満々に発表しましたが、最近の独立したテスト結果とは大きく対照的です。

Epoch研究所がo3モデルについて独立したテストを実施した結果、実際の得点はわずか10％で、OpenAIが以前発表した25％をはるかに下回りました。OpenAIの最高研究責任者であるMark Chen氏は公開デモで、o3モデルの内部テスト結果は非常に優れており、競合他社を大きく上回っていると述べ、競合他社は同じ問題集で2％未満の正解率しか達成していないとしました。しかし、この理想的な高得点は、先週正式にリリースされたバージョンではなく、より強力な計算資源を使用したo3バージョンによって達成された可能性があります。

OpenAI、ChatGPT、人工知能、AI

Epochはレポートの中で、テスト結果の相違は、OpenAIがより高度な計算フレームワークと異なるテスト条件を使用したなど、複数の要因による可能性があると指摘しています。同時に、同機関は、彼らの評価は更新版のFrontierMathに基づいており、それが結果の違いにつながった可能性があると述べています。

さらに、ARC Prize基金会も声明を発表し、公開されたo3モデルは、以前テストされたプレリリース版とは大きく異なっており、公開版はチャットや製品使用に合わせて調整されており、計算レベルは一般的に小さいと述べています。通常、計算レベルが高いほど、ベンチマークテストのスコアは高くなります。

o3モデルはOpenAIのテスト基準を完全に満たすことができませんでした。しかし、OpenAIが最近発表したo3-mini-highとo4-miniモデルはFrontierMathでより優れた成績を収めているため、市場でのパフォーマンスには影響しないようです。さらに期待されるのは、OpenAIが近いうちにより強力なo3バージョンであるo3-proを発表することです。

今回の出来事は、特に製品発表のプレッシャーのある企業からのAIベンチマークテストの結果は、完全に信頼すべきではないことを改めて世間に警告するものです。競争の激しいAI業界では、各メーカーは市場シェア獲得のため、新しいモデルを急いで発表することが多く、そのためベンチマークテストの議論が増えています。

o3人工知能モデル OpenAI FrontierMath Epoch研究所

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

モトローラの新Razr携帯電話、複数のAI技術を搭載　OpenAIの不在が注目を集める

Apr 28, 2025

マスクのxAIホールディングス、200億ドルの資金調達を計画　目標企業価値は1200億ドル超え

Apr 28, 2025

AIの新機能がネットユーザーを驚愕：写真の撮影場所を簡単に特定

Apr 28, 2025

OpenAI、ChatGPTの新バージョンを発表：よりスマートで直感的なGPT-4o

Apr 27, 2025

150

AI日報：百度の大型発表！文心大模型X1TurboとAIオープン計画を発表；OpenAIが軽量版Deep Researchを無料公開；即夢ビデオ3.0内測開始

百度が文心大模型X1TurboとAIオープン計画を発表、OpenAIが軽量版Deep Researchを無料公開、そして即夢ビデオ3.0の内測開始など、最新のAIニュースをお届けします。

Apr 25, 2025

OpenAI、著作権侵害で提訴される　合理的使用に従っていると反論

Apr 25, 2025

Adobeの新しいFireflyプラットフォーム、OpenAIとGoogleのAIモデルを採用し、クリエイティブツールをアップグレード

Apr 25, 2025

OpenAI、軽量版Deep Research o4-miniを無料で提供開始

OpenAIは、強力なAI研究ツールDeep Researchの軽量版を無料ユーザー向けに公開すると発表しました。これは、AI技術の普及における重要な進歩を示しています。複雑な研究タスクを自律的に実行できるAIエージェントであるDeep Researchの無料公開により、学生、研究者、そして幅広いユーザーがより簡単に知識を入手できるようになります。Deep Researchの機能ハイライト：スマートな研究体験、Deep ResearchはOpenAIが2...

Apr 25, 2025

OpenAI、軽量版ChatGPTの深層研究ツールを発表無料ユーザーも利用可能

Apr 25, 2025

AIデイリーニュース：OpenAIがgpt-image-1画像生成APIを発表、Nano AIがMCP万能ツールボックスをリリース、中国が世界のAI特許の60％を占める

OpenAIが新しい画像生成APIであるgpt-image-1を発表しました。Nano AIはMCP万能ツールボックスをリリースし、中国は世界のAI特許の60％を保有しています。これらの最新のAIニュースをまとめてお届けします。

Apr 24, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

OpenAIのo3モデル、テスト結果に疑問の声 実際の性能は宣伝よりはるかに低い

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

モトローラの新Razr携帯電話、複数のAI技術を搭載 OpenAIの不在が注目を集める

マスクのxAIホールディングス、200億ドルの資金調達を計画 目標企業価値は1200億ドル超え

AIの新機能がネットユーザーを驚愕：写真の撮影場所を簡単に特定

OpenAI、ChatGPTの新バージョンを発表：よりスマートで直感的なGPT-4o

AI日報：百度の大型発表！文心大模型X1TurboとAIオープン計画を発表；OpenAIが軽量版Deep Researchを無料公開；即夢ビデオ3.0内測開始

OpenAI、著作権侵害で提訴される 合理的使用に従っていると反論

Adobeの新しいFireflyプラットフォーム、OpenAIとGoogleのAIモデルを採用し、クリエイティブツールをアップグレード

OpenAI、軽量版Deep Research o4-miniを無料で提供開始

OpenAI、軽量版ChatGPTの深層研究ツールを発表 無料ユーザーも利用可能

AIデイリーニュース：OpenAIがgpt-image-1画像生成APIを発表、Nano AIがMCP万能ツールボックスをリリース、中国が世界のAI特許の60％を占める

OpenAIのo3モデル、テスト結果に疑問の声　実際の性能は宣伝よりはるかに低い

モトローラの新Razr携帯電話、複数のAI技術を搭載　OpenAIの不在が注目を集める

マスクのxAIホールディングス、200億ドルの資金調達を計画　目標企業価値は1200億ドル超え

OpenAI、著作権侵害で提訴される　合理的使用に従っていると反論

OpenAI、軽量版ChatGPTの深層研究ツールを発表無料ユーザーも利用可能