AIの巨頭たちが激しくパラメータを増やし、スコア競争に熱中する中、マスクが率いるxAIは異彩を放ち、AI業界で最も悩ましい「真面目な間違い」の問題に取り組もうとしている。今日、xAIは正式にGrok4.20Betaをリリースした。絶対的な知能スコアではまだトップクラスのモデルと差があるものの、「誠実さ」という重要な指標においては業界記録を更新した。

Artificial Analysisによる最新評価によると、Grok4.20の推論モードでの知能指数は48点だったが、
最低の幻覚率: AA Omniscienceテストにおいて、Grok4.20は78%の「幻覚なし率」を達成し、歴史的な新記録を樹立した。
知ることは知る: このモデルは答えられない質問に直面したとき、以前のように架空の事実を捏造する傾向が少なくなり、より正確に「分からない」と認めることができるようになった。この「誠実さ」は厳格なオフィスや研究環境において非常に重要である。
技術構造:三位一体のAPIマトリクス
異なるニーズに対応するために、xAIは今回のリリースで3種類のAPIバリアントを提供している:
推論モード(Reasoning): 速度を犠牲にして深く論理的思考を行う。これは幻覚記録を破った主要な要因である。
標準モード(Non-reasoning): 速い応答と通常のインタラクションを重視する。
マルチエージェントモード(Multi-agent): 複雑なタスクを複数のAIインスタンスが協力して処理できる。
市場戦略:量を増やして値段を上げない
Grok4.20は性能だけでなく、ビジネス上のロジックにも攻撃性がある:
膨大なコンテキスト: 最大で200万トークンのコンテキストウィンドウをサポートしており、一括りに本や大量のコードベースを読み込むことができる。
価格の優位性: 100万トークンあたり2~6ドルの価格設定となっており、前世代のGrok4よりも安価であり、現在の西洋主要モデルの中でも非常に競争力がある。
Grok4.20のリリースは、xAIの戦略の転換を示している。AGIへの道で総合スコアを追求するのではなく、「企業向けの信頼性」という痛所に焦点を当てている。評価機関が述べたように、他のモデルが「全能の預言者」になることを目指す一方で、Grok4.20は「嘘をつかないアシスタント」になることを目指している。
データの正確性に高い要求を持つユーザーにとって、Grok4.20はOpenAIやグーグルに次ぐ第三の重鎮的な選択肢となる可能性がある。



