“ RAGとLLM評価の概要検索拡張生成(RAG)システムにおける大規模言語モデル(LLM)の評価は、精度と信頼性を確保するために不可欠です。RAGシステムは、関連文書を取得する検索コンポーネントを統合することでLLMを強化し、文脈的に適切な応答を生成できるようにします。この記事では、RAGにおけるLLMのパフォーマンスを評価するための包括的なガイドを提供し、重要な次元、メトリクス、ベンチマークを網羅しています。経験豊富な実務家であっても、RAGの初心者であっても、このガイドは、RAGシステムが堅牢で正確であることを保証するための知識を提供します。RAGシステムは外部情報を動的に組み込むため、事前学習済みの知識のみに依存する従来のLLMと比較して、より汎用性が高くなります。たとえば、RAGシステムは医療クエリに対して最新の研究論文を検索し、応答が利用可能な最新情報に基づいていることを保証できます。特定のタスクに事前学習済みモデルを適応させるファインチューニングとは異なり、RAGシステムはリアルタイムで外部データベースを活用し、広範なファインチューニングの必要性を軽減し、古い応答のリスクを低減します。
“ RAGシステムで評価すべき次元RAGにおけるLLMを評価する際には、包括的な評価のためにいくつかの次元を考慮する必要があります:
* **指示またはチャット:** モデルが指示目的または会話型インタラクション向けに設計されているかどうかを判断します。指示モデルは直接的なクエリに基づいた情報提供に焦点を当て、会話型モデルは複数ターンの対話を処理し、コンテキストを維持します。
* **コンテキスト長:** さまざまなコンテキスト長を処理するモデルの能力を評価します。短いコンテキストには十分な情報が含まれていない可能性があり、長いコンテキストはメモリと処理の課題をもたらします。たとえば、法律文書では数千トークンの処理が必要になる場合があります。
* **ドメイン:** 法的または医療的など、それぞれ独自の要件と専門用語を持つさまざまなドメインにおけるモデルのパフォーマンスを評価します。一般的な知識でトレーニングされたモデルは、適切な適応なしでは専門分野でうまく機能しない可能性があります。
* **表形式データQA:** 金融やヘルスケアなどのタスクに不可欠な、表形式データを理解し推論するモデルの能力を評価します。これには、フィルタリング、ソート、数値計算が含まれます。
* **ノイズに対する堅牢性:** 特にノイズの多いデータセットにおいて、関連性のない情報をフィルタリングし、関連性の高い詳細に焦点を当てるモデルの能力を測定します。
* **反事実的堅牢性:** 取得された文書内の不正確または誤解を招く情報を特定し、処理するモデルの能力を評価します。
* **ネガティブ拒否:** モデルが情報不足を認識し、適切に回答を拒否できるかどうかを評価します。
* **情報統合:** 包括的な回答を提供するために、複数の文書からの情報を合成するモデルの能力を測定します。
* **情報更新:** モデルが古くなった情報を処理し、最新かつ正確な応答を保証する能力を評価します。
“ RAG評価における課題RAGシステムにおけるLLMの評価は、主観的なバイアス、高コスト、技術的な制限など、いくつかの課題を提示します。「バイブチェック」アプローチは、主観的な人間の判断に依存しており、費用と時間がかかります。人間の選好スコアの使用における限界と潜在的なバイアスを強調する研究があり、より客観的なアプローチが求められています。断定性などの混同要因は、より断定的な出力がより正確であると認識されることが多いため、人間の評価者を誤解させる可能性があります。さらに、選好スコアは、事実の正確性などの重要な側面を過小評価する可能性があります。LLMを評価者として使用することにも課題があります。LLMの判断は人間の判断と常に相関するわけではなく、プロプライエタリなモデルは手頃な価格ではなく、トレーニングデータに関する透明性が欠けているため、コンプライアンス上の懸念が生じます。
“ RAGにおけるLLM評価メトリクス:RAGASとTruLensRAGシステムを包括的に評価するために、いくつかのメトリクスが開発されています。RAGAS(Retrieval Augmented Generation Assessment)は、参照なし評価のためのフレームワークであり、生成された回答が取得されたコンテキストに対して忠実であることに焦点を当てています。応答をより小さなステートメントに分解し、それぞれをコンテキストに対して検証します。ただし、このアプローチには問題があり、後で議論されます。TruLensは、取得されたコンテキストと一貫しているかどうかを評価する、Context AdherenceおよびRAGAS Faithfulnessに似たGroundednessメトリクスを提供します。応答を文に分割し、LLMを使用してサポートコンテキストを引用し、情報オーバーラップを評価します。この手順では、失敗モードが観察されています。
“ ChainPoll:コンテキストアドヒアランスの新しいアプローチChainPollは、Chain-of-Thought(CoT)プロンプティングとモデルの複数回ポーリングを組み合わせた、幻覚検出の新しいアプローチです。CoTプロンプティングは、LLMにステップバイステップで推論を説明するように求め、人間の問題解決を模倣します。ポーリングは、同じ質問をLLMに複数回尋ね、ランダムなエラーをフィルタリングするために応答を集約することを含みます。ChainPollは応答を平均化して、モデルの確実性レベルを反映するスコアを提供します。この方法は、人間のフィードバックとの相関が85%であり、SelfCheckGPTやG-Evalなどの他の方法よりも優れています。ChainPollは、LLM APIへのバッチリクエストを使用して、効率的で費用対効果が高いです。デフォルトでは、精度とコストのバランスをとるためにOpenAIのGPT-4o-miniが使用されます。詳細については、論文「ChainPoll: A High-Efficacy Method for LLM Hallucination Detection」を参照してください。
“ Galileo Luna:幻覚検出のための評価基盤モデルGalileo Lunaは、RAG設定における幻覚検出のためにファインチューニングされた評価基盤モデル(EFM)のファミリーです。LunaはGPT-3.5および商用評価フレームワークを上回り、コストとレイテンシを大幅に削減します。RAGTruthデータセットで優れており、優れた汎化能力を示します。Lunaは、入力コンテキストと応答の両方を個別に分割する動的なウィンドウイング技術を使用し、幻覚検出の精度を向上させます。マルチタスクトレーニングにより、EFMは詳細な洞察を共有でき、より堅牢な評価につながります。Lunaは、合成データ拡張を備えた大規模で高品質なデータセットでトレーニングされています。トークンレベルの評価は透明性を高め、レイテンシの最適化により、NVIDIA L4 GPUで1秒未満で最大16kの入力トークンを処理できます。
“ RAGメトリクス比較:ChainPoll vs. RAGAS FaithfulnessRAGASは、GalileoのContext Adherenceスコアに似たFaithfulnessスコアを使用しており、どちらも応答が指定されたコンテキストの情報と一致するかどうかを確認することを目的としています。RAGASは応答をステートメントに分解し、それぞれを個別に検証しますが、これはChainPollが回避するいくつかの方法で失敗する可能性があります。RAGASは拒否応答をうまく処理できず、スコアを0と割り当てますが、これは役に立ちません。ChainPollはこれらのケースをうまく処理し、拒否がコンテキストと一致しているかどうかを確認します。たとえば、LLMが「提供されたコンテキストには、どこにいるかについての情報が含まれていません」と応答した場合、
元のリンク: https://www.galileo.ai/blog/how-to-evaluate-llms-for-rag
コメント(0)