最高のJudge AIツールモデル_厳選Judge情報

AIニュース

カリフォルニアの judge が法律事務所による虚偽の AI リサーチの使用に厳重な批判

説明はありません

大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

上海人工知能研究所司南OpenCompassチームと魔搭ModelScopeが共同で発表した大規模言語モデル評価プラットフォームCompassArena（大規模言語モデル競技場）が最近アップグレードされました。ユーザーにより科学的で包括的なモデル評価体験を提供することを目指しています。公開以来、このプラットフォームは多くのコミュニティユーザーが参加し、データを提供してきました。これらのデータに基づいて、CompassArenaは継続的に最適化されており、今回のアップグレードには新しいJudge Copilot機能とランキングアルゴリズムの改善が含まれています。

9.8k 6 日前

智源研究院、JudgeLM 裁判モデルをオープンソース化：様々な大規模言語モデルを評価しスコアを出力

智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90％以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90％を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。

10k おととい