이 글은 검색 증강 생성(RAG) 시스템에서 LLM을 평가하기 위한 포괄적인 가이드를 제공하며, 필수적인 차원, 지표 및 벤치마크를 논의합니다. LLM에 검색 구성 요소를 통합하는 것, 컨텍스트 길이의 중요성, 도메인 특수성 및 노이즈에 대한 견고성을 다루고 평가 방법론의 과제도 다룹니다.
주요 포인트
독특한 통찰
실용적 응용
핵심 주제
핵심 통찰
학습 성과
• 주요 포인트
1
RAG 시스템에서 LLM의 평가 차원에 대한 심층 탐구
2
RAG 및 LLM과 관련된 복잡한 개념에 대한 명확한 설명
3
현재 평가 지표 및 방법론에 대한 실용적인 통찰력
• 독특한 통찰
1
LLM 평가에서 노이즈 견고성 및 반사실적 견고성의 중요성
2
LLM에 대한 현재 인간 평가 방법의 과제 및 편향
• 실용적 응용
이 글은 실무자가 LLM을 효과적으로 평가하고 실제 애플리케이션에서 RAG 시스템의 신뢰성을 보장하는 데 필요한 지식을 제공합니다.
검색 증강 생성(RAG) 시스템 내에서 대규모 언어 모델(LLM)을 평가하는 것은 정확성과 신뢰성을 보장하는 데 매우 중요합니다. RAG 시스템은 관련 문서를 검색하는 검색 구성 요소를 통합하여 LLM을 향상시켜 맥락에 맞는 응답을 생성할 수 있도록 합니다. 이 글은 RAG에서 LLM 성능을 평가하기 위한 포괄적인 가이드를 제공하며, 필수적인 차원, 지표 및 벤치마크를 다룹니다. 숙련된 실무자이든 RAG를 처음 접하는 사람이든 이 가이드는 RAG 시스템이 견고하고 정확한지 확인하는 데 필요한 지식을 제공합니다. RAG 시스템은 외부 정보를 동적으로 통합하여 사전 훈련된 지식에만 의존하는 기존 LLM에 비해 더 다재다능합니다. 예를 들어, RAG 시스템은 의료 관련 질문에 대해 최신 연구 논문을 검색하여 가장 최신 정보를 기반으로 응답을 보장할 수 있습니다. 특정 작업에 사전 훈련된 모델을 조정하는 미세 조정과 달리 RAG 시스템은 실시간으로 외부 데이터베이스를 활용하여 광범위한 미세 조정의 필요성을 줄이고 오래된 응답의 위험을 완화합니다.
“ RAG 시스템 평가 차원
RAG를 위한 LLM을 평가할 때 포괄적인 평가를 위해 몇 가지 차원을 고려해야 합니다:
* **지시 또는 채팅:** 모델이 지시 목적 또는 대화형 상호 작용을 위해 설계되었는지 결정합니다. 지시 모델은 직접적인 쿼리를 기반으로 정보를 제공하는 데 중점을 두는 반면, 대화 모델은 다중 턴 대화를 처리하고 맥락을 유지합니다.
* **컨텍스트 길이:** 다양한 컨텍스트 길이를 처리하는 모델의 능력을 평가합니다. 짧은 컨텍스트는 충분한 정보가 부족할 수 있고, 긴 컨텍스트는 메모리 및 처리 문제를 야기합니다. 예를 들어, 법률 문서는 수천 개의 토큰을 처리해야 할 수 있습니다.
* **도메인:** 법률 또는 의료와 같이 고유한 요구 사항과 용어를 가진 다양한 도메인에서 모델의 성능을 평가합니다. 일반 지식으로 훈련된 모델은 적절한 조정 없이는 전문 도메인에서 잘 작동하지 않을 수 있습니다.
* **테이블 데이터 QA:** 금융 및 의료 분야의 작업에 필수적인 테이블 데이터를 이해하고 추론하는 모델의 능력을 평가합니다. 여기에는 필터링, 정렬 및 숫자 계산이 포함됩니다.
* **노이즈에 대한 견고성:** 특히 노이즈가 많은 데이터 세트에서 관련 없는 정보를 필터링하고 관련 세부 정보에 집중하는 모델의 능력을 측정합니다.
* **반사실적 견고성:** 검색된 문서의 잘못되거나 오해의 소지가 있는 정보를 식별하고 처리하는 모델의 능력을 평가합니다.
* **부정 거부:** 모델이 정보가 부족하다는 것을 인식하고 적절하게 답변을 거부할 수 있는지 평가합니다.
* **정보 통합:** 포괄적인 답변을 제공하기 위해 여러 문서의 정보를 종합하는 모델의 능력을 측정합니다.
* **정보 업데이트:** 모델이 오래된 정보를 처리하는 능력을 평가하여 최신이고 정확한 응답을 보장합니다.
“ RAG 평가의 과제
RAG 시스템에서 LLM을 평가하는 것은 주관적인 편향, 높은 비용 및 기술적 한계를 포함한 여러 가지 과제를 안고 있습니다. 주관적인 인간 판단에 의존하는 '바이브 체크' 접근 방식은 비용이 많이 들고 시간이 많이 소요됩니다. 연구에 따르면 인간 선호도 점수를 사용하는 데 한계와 잠재적인 편향이 있음을 강조하며 더 객관적인 접근 방식이 필요합니다. 적극성과 같은 혼란 요인은 더 적극적인 출력이 더 정확하다고 인식되기 때문에 인간 평가자를 오도할 수 있습니다. 또한 선호도 점수는 사실적 정확성과 같은 중요한 측면을 과소평가할 수 있습니다. LLM을 심사위원으로 사용하는 것도 과제를 안고 있습니다. LLM 심사는 인간 심사와 항상 상관 관계가 없으며, 독점 모델은 비용이 많이 들고 훈련 데이터에 대한 투명성이 부족하여 규정 준수 문제가 발생합니다.
“ RAG에서 LLM 평가 지표: RAGAS 및 TruLens
RAG 시스템을 포괄적으로 평가하기 위해 여러 지표가 개발되었습니다. RAGAS(Retrieval Augmented Generation Assessment)는 생성된 답변이 검색된 컨텍스트에 얼마나 충실한지에 중점을 둔 참조 없는 평가 프레임워크입니다. 응답을 더 작은 문장으로 나누고 각 문장을 컨텍스트와 대조하여 확인합니다. 그러나 이 접근 방식에는 나중에 논의될 문제가 있습니다. TruLens는 컨텍스트 준수 및 RAGAS 충실도와 유사한 근거성 지표를 제공하여 응답이 제공된 컨텍스트와 일치하는지 평가합니다. 응답을 문장으로 분할하고 LLM을 사용하여 지원 컨텍스트를 인용하고 정보 중복을 평가합니다. 이 절차에서 실패 모드가 관찰되었습니다.
“ ChainPoll: 컨텍스트 준수에 대한 새로운 접근 방식
ChainPoll은 연쇄 사고(CoT) 프롬프팅과 모델을 여러 번 폴링하는 것을 결합한 환각 탐지를 위한 새로운 접근 방식입니다. CoT 프롬프팅은 LLM에게 인간의 문제 해결을 모방하여 단계별로 추론을 설명하도록 요청합니다. 폴링은 LLM에게 동일한 질문을 여러 번 하고 응답을 집계하여 무작위 오류를 필터링하는 것을 포함합니다. ChainPoll은 응답을 평균하여 모델의 확실성 수준을 반영하는 점수를 제공합니다. 이 방법은 인간 피드백과 85%의 상관 관계를 보이며 SelfCheckGPT 및 G-Eval과 같은 다른 방법을 능가합니다. ChainPoll은 LLM API에 대한 배치 요청을 사용하여 효율적이고 비용 효율적입니다. 기본적으로 OpenAI의 GPT-4o-mini가 사용되어 정확성과 비용의 균형을 맞춥니다. 더 자세한 내용은 논문 - ChainPoll: LLM 환각 탐지를 위한 고효능 방법 -을 참조하십시오.
“ Galileo Luna: 환각 탐지를 위한 평가 기초 모델
Galileo Luna는 RAG 설정에서 환각 탐지를 위해 미세 조정된 평가 기초 모델(EFM) 제품군입니다. Luna는 GPT-3.5 및 상용 평가 프레임워크보다 우수하면서도 비용과 지연 시간을 크게 줄입니다. RAGTruth 데이터 세트에서 뛰어나며 뛰어난 일반화 능력을 보여줍니다. Luna는 입력 컨텍스트와 응답을 별도로 분할하는 동적 창 기법을 사용하여 환각 탐지 정확도를 향상시킵니다. 다중 작업 학습을 통해 EFM은 세분화된 통찰력을 공유하여 더 강력한 평가를 가능하게 합니다. Luna는 합성 데이터 증강을 포함한 크고 고품질의 데이터 세트로 훈련됩니다. 토큰 수준 평가는 투명성을 향상시키고 지연 시간 최적화를 통해 NVIDIA L4 GPU에서 1초 미만으로 최대 16k 입력 토큰을 처리할 수 있습니다.
“ RAG 지표 비교: ChainPoll 대 RAGAS 충실도
RAGAS는 Galileo의 컨텍스트 준수 점수와 유사한 충실도 점수를 사용하여 응답이 주어진 컨텍스트의 정보와 일치하는지 확인합니다. RAGAS는 응답을 문장으로 분할하고 각 문장을 개별적으로 검증하는데, 이는 ChainPoll이 피하는 여러 가지 방식으로 실패할 수 있습니다. RAGAS는 거부 답변을 잘 처리하지 못하고 0점이라는 점수를 할당하는데, 이는 도움이 되지 않습니다. ChainPoll은 이러한 경우를 우아하게 처리하며, 거부가 컨텍스트와 일치하는지 확인합니다. 예를 들어, LLM이 '제공된 컨텍스트에는 어디에 대한 정보가 포함되어 있지 않습니다'라고 응답하는 경우.
“ 결론
RAG 시스템을 위한 LLM을 평가하려면 다양한 차원과 과제를 고려하는 다각적인 접근 방식이 필요합니다. RAGAS, TruLens, ChainPoll 및 Galileo Luna와 같은 지표는 각각의 장단점을 가진 다양한 방식으로 성능을 평가하는 방법을 제공합니다. 이러한 평가 방법과 그 한계를 이해함으로써 실무자는 더 강력하고 정확하며 신뢰할 수 있는 RAG 시스템을 구축할 수 있습니다.
우리는 사이트 작동에 필수적인 쿠키를 사용합니다. 사이트를 개선하기 위해 방문자들의 사용 방식을 이해하고, 소셜 미디어 플랫폼에서의 트래픽을 측정하며, 개인화된 경험을 제공하는 데 도움이 되는 추가 쿠키를 사용하고자 합니다. 일부 쿠키는 제3자가 제공합니다. 모든 쿠키를 수락하려면 '수락'을 클릭하세요. 선택적 쿠키를 모두 거부하려면 '거부'를 클릭하세요.
댓글(0)