[Paper Review] LLM-Check: Investigating Detection of Hallucinations in Large Language Models

연구/Natural Language Processing

[Paper Review] LLM-Check: Investigating Detection of Hallucinations in Large Language Models

서히! 2025. 3. 24. 13:47

논문: https://openreview.net/pdf?id=LYx4w3CAgy

00. Abstract

모델들은 hallucination을 생성하는 경향이 있음
💡 hallucination: 겉보기에는 그럴듯 해보이지만 실제로는 잘못된 출력
본 연구는 "hallucination의 nature를 탐색 + 부정확성을 detect하는 효과적인 기술"을 다룸
여러 모델 응답이나 large database에 접근하는 것을 가정하는 consistency check나 retrieval-based method와 달리,
hidden states, attention maps, 보조 LLM의 output prediction probability를 분석 → white-box, black-box setting에서의 single response에서의 hallucination을 알아보고자 함

01. Introduction

대형 언어 모델(LLM)은 자연어 생성(NLG) 작업에서 뛰어난 성능을 보이나, 근거 없는 정보(hallucination)를 생성하는 문제
기존 평가 방법(예: ROUGE-L)은 환각 문제를 효과적으로 탐지하기 어려움
본 논문에서는 환각 검출을 위한 LLM-Check라는 새로운 방법을 제안하며, 자기 일관성(Self-Consistency) 및 신뢰도 추정(Confidence Estimation)을 활용
Contribution:
- LLM 환각의 새로운 분류 체계 제안
- 자기 일관성과 신뢰도 추정을 활용한 새로운 검출 방법 개발
- 다양한 데이터셋에서 검증 및 기존 기법과 비교

02. Related Works

Self-Prompting 방법(Kadavath et al., 2022): LLM이 스스로 생성한 응답의 진실성을 예측하도록 학습
화이트 박스(White-box) 접근법(Azaria & Mitchell, 2023): 모델의 내부 활성화 값을 분석하여 환각을 탐지하는 신경망 기반 방법
제약 만족 문제(Constraint Satisfaction Problem, CSP)(Yuksekgonul et al., 2024): 사실 검증을 위한 제약 기반 모델
FAVA-Bench 데이터셋(Mishra et al., 2024): 세분화된 환각 유형을 포함한 새로운 데이터셋
RAGTruth 데이터셋(Wu et al., 2023): RAG(Retrieval-Augmented Generation) 기반 LLM의 환각을 분석
본 연구는 위 방법들과 차별화하여 자기 일관성 및 신뢰도 추정을 결합한 새로운 검출 기법을 제안

IIA. White-Box

$x_{p}$ : prompt
$x$: LLM $f$에 의해 생성된 output response

LLM $f$ 가 모델 내부 activation 값에 접근이 가능하고 계산이 가능할 경우 이를 "white-box" 라고 함

ex. INSIDE는 원래 모델을 사용하여 population-level detection을 하므로 white-box detection 기술

IIB. Black-Box

LLM $f$에 더 이상 접근이 불가능할 경우 auxiliary substitue LLM $\hat{f}$을 사용하여 내부 activation과 attention kernel map을 계산 (ex. 오픈 소스인 Llama-2 사용)
substitute LLM에서 teacher-forcing을 사용하여 계산 수 있음

Proposed Method

추가학습이나 inference time overhead 없이 hallucination detection을 수행하고자 함
→ LLM의 single forward-pass에서 사용할 수 있는 잠재변수(latent)와 출력 관측값(observables)을 모두 분석하는 방식을 제안
autoregressive model: input token embedding → hidden representation의 sequence로 변환

$H_{l}$ : $l$번째 layer에서의 hidden representation
$A_{l+1}$: attention
$M_{l+1}$: MLP (Multilayer Perceptron, 다층 퍼셉트론)

Hidden representation: $H_{l+1} = H_{l} + A_{l+1} + M_{l+1}$ (layer-normalization도 함)
Attention Contribution: $A = Ker(Q, K)V = Softmax(\frac{Q K^{T}}{\sqrt{d_{k}}})$ ($d_{k}$는 key, query 차원)

이 연구에서는 LLM 내부 representation에 포함된 semantic representation을 조사함으로써 truthful과 hallucinated example간의 모델 변화를 직접 보고자 함

halllucinated information의 존재에 민감하게 반응한다고 가정 → single model response로도 detect할 수 있음

Eigenvalue Analysis of Internal LLM Representations

모델 sensitivity의 차이는 hidden activation에서의 1️⃣semantic representation, 다른 토큰 representation간의 2️⃣ attention map의 차이에 반영됨
⇒ 정량적으로 확인하기 위해 cross-covariance(교차 공분산), self-attention의 kernel similarity map을 분석
이론적으로, eigenvalue와 singular value가 token representation간 latent space에서의 interection 을 잘 capture
$H$의 shape: $(d\times m)$
- $d$: token embedding 차원
- $m$: token 개수

Hidden Score	공분산 행렬	특이값 분해(SVD)	특이값(Singular Values) 사용
Attention Score	어텐션 행렬 Ker	고유값 분해(Eigenvalue Decomposition)	고유값(Eigenvalues) 사용

특이값이 크면 → 모델의 hidden representation이 강한 패턴을 가지고 있음

특이값이 작으면 → 정보가 분산됨 → hallucination 가능성 ↑

특이값은 데이터가 어떤 축에서 더 중요한지를 분석하는 것

고유값이 크면 → 특정 토큰에 대한 집중도가 높음 → 신뢰할 수 있는 정보 가능성 ↑

고유값이 작으면 → 여러 토큰에 분산된 관심을 보임 → hallucination 가능성 ↑

고유값이 어떤 방향으로 가장 강하게 작용하는지를 나타냄

05. Experimental Results

Datasets and Detection Details

SelfCheckGPT dataset[Manakul et al., 2023]에는 문장 단위로 주석이 달린 1908개의 샘플과 GPT-3가 확률적으로 생성한 20개의 응답이 포함되어 있음
FAVA-Annotation 데이터셋(SelfCheckGPT와 마찬가지로)에서 여러 응답을 활용하여 SelfCheckGPT와 INSIDE의 새로운 baseline을 구축
- SelfCheckGPT: 동일한 프롬프트에 대해 여러 번 응답을 생성하여 일관성 분석
- INSIDE: 모델의 여러 응답에서 hidden states의 일관성을 분석

Models and Metrics

Chat, Vicuna, Llama-3-instruct와 같은 open-source LLM chat-model 활용: 제공되는 토크나이저와 함께 사용하며 화이트박스, 블랙박스 평가에 모두 적용
Accuracy, AUROC, TPR at low FPR, F1 score에 대한 표준 threshold를 제시

💭 My thoughts

'연구 > Natural Language Processing' 카테고리의 다른 글

[Paper Review] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning (5)	2025.07.13
[Paper Review] Entropy-Aware Branching for Improved Mathematical Reasoning (4)	2025.07.06
LLM-Check: Investigating Detection of Hallucinations in Large Language Models (NeurIPS 2024) (0)	2025.05.25
[Paper Review] GPT1: Improving Language Understanding by Generative Pre-Training (3)	2025.02.05
[Paper Review] Transformer: Attention Is All You Need (0)	2025.01.24

현재글[Paper Review] LLM-Check: Investigating Detection of Hallucinations in Large Language Models

서히의 우당탕탕 코딩일기

https://github.com/seohee0925

python, 빅데이터학회, 빅분기, 영진닷컴, BDA학회, 이기적, Deep Learning, 빅분기스터디, programmers, 코테, BDA, 파이썬, BITAmin, 코딩테스트, AI, 빅데이터 연합동아리, 빅분기_실기, 딥러닝, 프로그래머스, 학회,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

서히의 우당탕탕 코딩일기