Google DeepMindが大規模言語モデル(LLM)の「事実性」と「根拠」を評価する新たなベンチマークを公開した。AAI開発コミュニティーにツールの活用と評価を呼び掛けている。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Google DeepMindは2024年12月17日(現地時間)、Google Reserachと共同で開発した大規模言語モデル(LLM)の事実性を評価する新ベンチマーク「FACTS Grounding」(FACTS)を発表した。
生成AIにおけるGrounding(グラウンディング)とは、AIの出力を検証可能な情報源にひも付ける仕組みを指す。このベンチマークは公開データセットを含む1719例を基盤に設計されており、LLMの「根拠に基づく長文回答生成能力」を測定するものだ。
Google DeepMindはFACTSについて「与えられた入力に関して事実として正確であるだけでなく、ユーザーのクエリに対して満足のいく回答を提供できるほど詳細な応答を生成する LLM の能力を評価するための包括的なベンチマーク」だと説明している。
FACTSは、1719の詳細な評価例から構成されるデータセットを基盤とし、LLMが与えられた資料に基づいて長文の回答を生成する能力を測定する。公開(860例)と非公開(859例)のデータセットを使って、LLMの事実性と根拠に基づく回答生成能力を正確に評価するように設計されている。公開データセットは誰でも利用できるように公開されている(参考「FACTS Grounding 1.0 Public Examples」)。
このベンチマークでは多様な入力を保証するため、金融、テクノロジー、小売、医療、法律といった幅広い分野を対象に多様な文書が活用されている。文書の長さは最大3万2000トークン(約2万語)におよび、ユーザーからのリクエストには要約、質疑応答、リライトタスクなどが含まれている。一方で創造性や数学などの複雑な推論を必要とする例は除外されている。
FACTSの評価プロセスには「Gemini 1.5 Pro」「GPT-4o」「Claude 3.5 Sonnet」と3つのLLMが使われており、特定モデルへの潜在的なバイアスを緩和するために審査に複数のLLMを組み合わせてモデルの応答を評価する仕組みだ。
応答は2段階で評価され、ユーザーの要求に適切に応じているかどうかをまず確認した後、回答が提供された文書に完全に基づいているかがチェックされる。最終的に複数の審査員モデルにより応答の適格性や精度が個別に評価され、その結果を集計して成否が判定される。最終スコアは全審査モデルのスコアの平均値で示す。
Google DeepMindはFACTSを継続的に発展させる意向を示しており、AI開発コミュニティーサイト「Kaggle」で主要なLLMのベンチマーク結果を公表し、随時更新する予定だ。
Google DeepMindでは引き続き事実性とグラウンディングに関する標準の向上を目指すとしており、AIコミュニティーに対してFACTSを活用した評価や研究への参加を呼びかけている。
Copyright © ITmedia, Inc. All Rights Reserved.