연구/Natural Language Processing

[Paper Review] LLM-Check: Investigating Detection of Hallucinations in Large Language Models

서히! 2025. 3. 24. 13:47

논문: https://openreview.net/pdf?id=LYx4w3CAgy

 

00. Abstract

  • 모델들은 hallucination을 생성하는 경향이 있음
    💡 hallucination: 겉보기에는 그럴듯 해보이지만 실제로는 잘못된 출력
  • 본 연구는 "hallucination의 nature를 탐색 + 부정확성을 detect하는 효과적인 기술"을 다룸
  • 여러 모델 응답이나 large database에 접근하는 것을 가정하는 consistency check나 retrieval-based method와 달리,
    hidden states, attention maps, 보조 LLM의 output prediction probability를 분석 → white-box, black-box setting에서의 single response에서의 hallucination을 알아보고자 함

01. Introduction

  • 대형 언어 모델(LLM)은 자연어 생성(NLG) 작업에서 뛰어난 성능을 보이나, 근거 없는 정보(hallucination)를 생성하는 문제
  • 기존 평가 방법(예: ROUGE-L)은 환각 문제를 효과적으로 탐지하기 어려움
  • 본 논문에서는 환각 검출을 위한 LLM-Check라는 새로운 방법을 제안하며, 자기 일관성(Self-Consistency) 및 신뢰도 추정(Confidence Estimation)을 활용
  • Contribution:
    • LLM 환각의 새로운 분류 체계 제안
    • 자기 일관성과 신뢰도 추정을 활용한 새로운 검출 방법 개발
    • 다양한 데이터셋에서 검증 및 기존 기법과 비교

02. Related Works

  • Self-Prompting 방법(Kadavath et al., 2022): LLM이 스스로 생성한 응답의 진실성을 예측하도록 학습
  • 화이트 박스(White-box) 접근법(Azaria & Mitchell, 2023): 모델의 내부 활성화 값을 분석하여 환각을 탐지하는 신경망 기반 방법
  • 제약 만족 문제(Constraint Satisfaction Problem, CSP)(Yuksekgonul et al., 2024): 사실 검증을 위한 제약 기반 모델
  • FAVA-Bench 데이터셋(Mishra et al., 2024): 세분화된 환각 유형을 포함한 새로운 데이터셋
  • RAGTruth 데이터셋(Wu et al., 2023): RAG(Retrieval-Augmented Generation) 기반 LLM의 환각을 분석
  • 본 연구는 위 방법들과 차별화하여 자기 일관성 및 신뢰도 추정을 결합한 새로운 검출 기법을 제안

 

IIA. White-Box

  • $x_{p}$ : prompt
  • $x$: LLM $f$에 의해 생성된 output response

LLM $f$ 가 모델 내부 activation 값에 접근이 가능하고 계산이 가능할 경우 이를 "white-box" 라고 함

ex. INSIDE는 원래 모델을 사용하여 population-level detection을 하므로 white-box detection 기술

 

 

IIB. Black-Box

  • LLM $f$에 더 이상 접근이 불가능할 경우 auxiliary substitue LLM $\hat{f}$을 사용하여 내부 activation과 attention kernel map을 계산 (ex. 오픈 소스인 Llama-2 사용)
  • substitute LLM에서 teacher-forcing을 사용하여 계산 수 있음

Proposed Method

  • 추가학습이나 inference time overhead 없이 hallucination detection을 수행하고자 함
    → LLM의 single forward-pass에서 사용할 수 있는 잠재변수(latent)와 출력 관측값(observables)을 모두 분석하는 방식을 제안
  • autoregressive model: input token embedding → hidden representation의 sequence로 변환
  • $H_{l}$ : $l$번째 layer에서의 hidden representation
  • $A_{l+1}$: attention
  • $M_{l+1}$: MLP (Multilayer Perceptron, 다층 퍼셉트론)
  • Hidden representation: $H_{l+1} = H_{l} + A_{l+1} + M_{l+1}$ (layer-normalization도 함)
  • Attention Contribution: $A = Ker(Q, K)V = Softmax(\frac{Q K^{T}}{\sqrt{d_{k}}})$ ($d_{k}$는 key, query 차원)

이 연구에서는 LLM 내부 representation에 포함된 semantic representation을 조사함으로써 truthful과 hallucinated example간의 모델 변화를 직접 보고자 함

halllucinated information의 존재에 민감하게 반응한다고 가정single model response로도 detect할 수 있음 

 

Eigenvalue Analysis of Internal LLM Representations

  • 모델 sensitivity의 차이는 hidden activation에서의 1️⃣semantic representation, 다른 토큰 representation간의 2️⃣ attention map의 차이에 반영됨
    ⇒ 정량적으로 확인하기 위해 cross-covariance(교차 공분산), self-attention의 kernel similarity map을 분석
  • 이론적으로, eigenvalue와 singular value가 token representation간 latent space에서의 interection 을 잘 capture
  • $H$의 shape: $(d\times m)$
    • $d$: token embedding 차원
    • $m$: token 개수
Hidden Score 공분산 행렬  특이값 분해(SVD) 특이값(Singular Values) 사용
Attention Score 어텐션 행렬 Ker 고유값 분해(Eigenvalue Decomposition) 고유값(Eigenvalues) 사용

 

특이값이 크면 → 모델의 hidden representation이 강한 패턴을 가지고 있음

특이값이 작으면 → 정보가 분산됨 → hallucination 가능성 ↑

특이값은 데이터가 어떤 축에서 더 중요한지를 분석하는 것

 

고유값이 크면 → 특정 토큰에 대한 집중도가 높음 → 신뢰할 수 있는 정보 가능성 ↑

고유값이 작으면 → 여러 토큰에 분산된 관심을 보임 →  hallucination 가능성 

고유값이 어떤 방향으로 가장 강하게 작용하는지를 나타냄

 

05. Experimental Results

Datasets and Detection Details

Figure1에서의 유형과 데이터셋을 사용

  • SelfCheckGPT dataset[Manakul et al., 2023]에는 문장 단위로 주석이 달린 1908개의 샘플과 GPT-3가 확률적으로 생성한 20개의 응답이 포함되어 있음
  • FAVA-Annotation 데이터셋(SelfCheckGPT와 마찬가지로)에서 여러 응답을 활용하여 SelfCheckGPT와 INSIDE의 새로운 baseline을 구축 
    • SelfCheckGPT: 동일한 프롬프트에 대해 여러 번 응답을 생성하여 일관성 분석
    • INSIDE: 모델의 여러 응답에서 hidden states의 일관성을 분석

 

Models and Metrics

  • Chat, Vicuna, Llama-3-instruct와 같은 open-source LLM chat-model 활용: 제공되는 토크나이저와 함께 사용하며 화이트박스, 블랙박스 평가에 모두 적용
  • Accuracy, AUROC, TPR at low FPR, F1 score에 대한 표준 threshold를 제시

 

 

💭  My thoughts

  •