人工知能が急速に発展する今日、金融業界はデータの正確性とセキュリティに対してより高い要件を求めるようになっている。テクノロジー企業であるテンセントは最近、金融シーンにおける大規模モデルの応用を専門に設計した評価ツール「finLLM-Eval」をオープンソース化することを発表した。このツールは業界で初めて、グランドトゥース(真実値)がない状態での金融データの正確性評価方法を導入し、現在の市場において大規模モデルの金融分野に関する評価の空白を埋め、AI技術が高リスク・高要求の金融分野で安全に導入されるための支援を目的としている。
finLLM-Evalの核心的な能力には複数のモジュールが含まれており、特に論理的一貫性と事実の正確性を評価するモジュールが注目されている。このモジュールは完全なエンジニアリングコードや例示的な評価セットを提供するだけでなく、ユーザーがカスタムの評価セットを作成することも可能であり、モデルのパフォーマンスに関する詳細な情報を自動的に出力できる。ユーザーは総合点、誤りの分布、千文字あたりの幻覚率などの評価レポートを取得し、モデルの実際のパフォーマンスを深く理解することができる。
さらに、finLLM-Evalはエンドツーエンドの金融データの正確性比較モジュールも備えている。この技術的解決策の最大の特徴は、グランドトゥースがなくても、リアルなユーザーの質問と回答に基づいて金融事実の3要素(対象 × 時間 × 指標)を自動的に抽出し、内部の金融データベースで検証することである。これにより、手動でラベル付けを行う煩雑さを省ける。
さらに進んで、finLLM-Evalは「AgentAsJudger」という自動評価メカニズムを導入している。この評価プロセスでは人為的な介入が一切必要なく、AIエージェントが自動的に事実ポイントと論理の連鎖を抽出し、関連するコンテンツや金融データベースと照合することで、正確率は96%以上となる。このイノベーションは評価効率を向上させるとともに、評価結果の信頼性を確保する。
今後の展望について、プロジェクトチームはfinLLM-Evalの継続的な改善を目指しており、将来的には非金融指標のデータ検証および結果の原因分析といった機能をサポートする予定である。これにより、金融テクノロジーのさらなる発展と完善が促進される。



