智譜AI、CritiqueLLM評価モデルを発表―テキスト生成モデルの性能評価が可能に
智譜AIが、高品質で低コストな評価モデルCritiqueLLMを発表しました。従来のBLEUやROUGEなどの評価指標は、全体的な意味を捉えることが苦手でしたが、CritiqueLLMは解釈可能で拡張性の高いテキスト品質評価モデルです。8種類の一般的なタスクにおいて、CritiqueLLMは他のモデルを上回りました。CritiqueLLMは、ユーザーからの質問拡張、参照テキストを含む評価データ収集、参照テキストのない評価データの書き換え、そしてモデルのトレーニングによって実現しました。