연구/Natural Language Processing

[Paper Review] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

서히! 2025. 7. 13. 23:07

논문 링크: https://arxiv.org/pdf/2506.01939

 

Figure 1: (a) In CoTs, only a minority of tokens exhibit high entropy and act as "forks" in reasoning paths, while majority tokens are low-entropy. (b) RLVR using policy gradients of only forking tokens delivers significant performance gains that scale with model size.

1. 논문이 다루는 Task

이 논문은 LLM의 Chain-of-Thought 추론 능력을 강화하기 위해 증명 가능한 보상(RLVR) 기반의 강화 학습을 활용하는 작업을 다룬다. 특히 수학 문제 풀이(AIME’24/’25, AMC’23 등)와 같은 표준 추론 벤치마크를 대상으로 하며, LLM이 단계적 추론을 통해 정답에 도달하도록 학습시킨다. 기존 연구에서는 이러한 RLVR 기법을 통해 LLM의 성능이 크게 향상되었지만, 본 연구에서는 토큰 단위 엔트로피(token entropy) 관점에서 분석하여 어떤 토큰들이 추론 과정에서 핵심 역할을 하는지에 주목한다.

 

2. 기존 연구 한계

기존의 RLVR 연구들은 모든 출력 토큰을 동일하게 학습했으며, 어떤 토큰이 실제로 추론 성능을 견인하는지에 대한 분석이 부족했다. 즉, 모델이 출력하는 단어들이 지니는 엔트로피의 이질적인 역할을 고려하지 않아 중요한 선택 지점을 놓칠 수 있었다. “기존 접근법은 어떤 토큰이 추론을 실제로 촉진하는지에 대해 제한적인 이해만을 가지고 있으며, 토큰의 이질적인 기능적 역할을 무시함으로써 결정적 단계(fork)가 중요한 추론 과정의 방식을 우선시하지 못해 추가적인 성능 향상을 저해할 수 있다”는 점을 지적한다.

> 이러한 한계를 극복하기 위해 본 연구는 토큰 엔트로피 패턴(token entropy patterns) 에 주목하여, 추론에 결정적 역할을 하는 소수의 토큰을 분리해내고 이를 중심으로 학습하도록 새로운 관점을 제시한다.

 

3. Framework

토큰 엔트로피는 주어진 맥락에서 각 토큰이 생성될 확률 분포의 불확실성을 나타내며, 본 논문에서는 LLM이 출력하는 각 위치 tt에서의 엔트로피를 다음과 같이 정의한다:

 

여기서 V는 어휘 집합, pθ(⋅)는 토큰 생성 확률분포, 는 이전에 생성된 토큰들, 는 입력 질문이다. 즉, 한 토큰을 생성할 때 모델이 얼마나 여러 선택지를 가지는지(불확실성)를 이 식으로 측정한다.

그림 2: LLM 체인-오브-사고에서 토큰 엔트로피 패턴. (a) 토큰 엔트로피의 분포(로그 축): 소수의 토큰만 높은 엔트로피를 가지며 다수 토큰은 거의 0에 가까운 낮은 엔트로피를 갖는다. (b),(c) 고/저 엔트로피 토큰의 예시 (워드 클라우드). 고엔트로피 토큰(예: “however”, “since” 등)은 다른 추론 경로로 분기하는 fork 역할을 하며, 저엔트로피 토큰은 문장 구조를 계속 이어가는 역할을 한다. 이처럼 대부분의 토큰은 결정적 예측(낮은 엔트로피)을 하는 반면, 소수의 토큰만이 다중 경로를 만드는 높은 불확실성을 가진다.

 

 위 패턴을 바탕으로 논문에서는 엔트로피가 가장 높은 토큰들을 “forking tokens”라 명명한다. 이들은 추론 중 중요한 갈림길을 제공하므로, 실험적으로 이들의 엔트로피를 조절해보았다. 예를 들어, forking tokens에만 높은 temperature를 부여하여 엔트로피를 인위적으로 증가시키면 추론 성능이 눈에 띄게 상승했고, 반대로 엔트로피를 낮추면 성능이 크게 떨어지는 결과를 얻었다. 

> “fork” 토큰이 다른 토큰보다 더 높은 엔트로피 환경에서 움직일 필요가 있음을 시사한다.

 

 기존 DAPO 등 RLVR 알고리즘의 정책함수를 변형하여, 학습시 토큰별 정책경사(policy gradient) 계산을 오직 상위 α 비율의 고엔트로피 토큰에만 적용하는 프레임워크를 제안한다. 구체적으로, 배치 내 각 토큰 ii의 엔트로피 가 상위 α 백분위 기준값 이상일 때만 학습 손실에 반영하도록 한다. 수식으로 표현하면 다음과 같다:

여기서 는 조건을 만족하면 1을, 아니면 0을 반환하는 지시 함수이며, 는 토큰 의 추정한 이점(advantage), 는 정책 확률이다. 즉, 상위 20% 토큰만을 남기고 나머지 80%는 정책경사 업데이트에서 제외한다. 이러한 제약을 통해 학습 안정화와 효율화를 동시에 추구한다.

 

4. 실험 및 결과

제안한 방법을 평가하기 위해 Qwen3 시리즈(8B, 14B, 32B) 모델을 DAPO-RLVR로 학습하였고, 6개 수학 벤치마크(AIME’24/’25, AMC’23, MATH500, Minerva, OlympiadBench)에서 0-shot 성능을 측정했다.

그림 6: DAPO 학습 중 상위 20% 토큰만 이용한 경우(빨간색)와 전체 토큰을 이용한 경우(파란색)의 AIME’24 정확도 및 응답 길이 비교 (Qwen3-32B/14B/8B). 왼쪽 그래프는 AIME’24 정확도(avg@16), 오른쪽은 응답 길이(avg@16)를 나타낸다.

 

 그림 6과 표 2는 모든 토큰을 사용하는 기존 DAPO(파란색) 대비 고엔트로피 20% 토큰만 사용한 경우(빨간색) 성능을 비교한다. 놀랍게도 하위 80% 토큰을 제거해도 추론 정확도가 떨어지지 않고 오히려 향상되었다. 예를 들어 Qwen3-32B 모델의 경우, AIME’24 정확도가 전체 토큰 학습 시 55.83%에서 고엔트로피 토큰만 학습 시 63.54%로 +7.71 포인트 상승했으며, 응답 길이도 증가했다. AIME’25에서도 45.63%→56.67% (+11.04)로 유의한 향상이 나타났다. Qwen3-14B 모델도 AIME’24에서 +5.21, AIME’25에서 +4.79 포인트 상승을 보였고, Qwen3-8B 모델은 성능 변화가 거의 없었다. 반면, 하위 80% 토큰만 사용한 실험에서는 모든 모델에서 성능이 심각하게 저하되었다. 즉 소수의 고엔트로피 토큰만 학습에 활용해도 기존 성능(또는 그 이상)을 달성할 수 있음을 확인했다.

또한 학습 데이터셋과 최대 문맥 길이를 조절한 추가 실험에서도 고엔트로피 토큰 중심 전략의 유효성이 나타났다. 예를 들어, Qwen3-32B 모델에서 최대 응답 길이를 20480 토큰에서 29696 토큰으로 늘리자 AIME’24 정확도가 63.54%에서 68.12%로 +4.58 포인트 상승하였다. 이는 더 긴 문맥에서도 고엔트로피 토큰만을 학습해도 추론 능력이 충분히 향상될 수 있음을 의미한다.

5. Analysis

실험 결과를 종합하면 고엔트로피 소수 토큰이 RLVR 성능의 거의 모든 향상을 견인한다는 결론이 도출된다. RL 학습이 진행된 후에도 기본 모델의 엔트로피 패턴은 그대로 유지되었다. 실제로 표 1에서 볼 수 있듯이, 기본 모델과 학습된 모델 간 상위 20% 토큰 위치의 중첩도(overlap)는 최종 단계에서도 약 86.7%로 높게 유지되었다. 이는 RL 학습 과정에서 모델이 어떤 토큰이 핵심인지 구별하여 엔트로피 구조를 보존했음을 시사한다. 또한 학습 중 고엔트로피 토큰의 엔트로피는 증가하는 반면 저엔트로피 토큰은 거의 변하지 않았다.

> RL은 저엔트로피 토큰을 거의 건드리지 않고 오로지 불확실성이 큰 토큰만 탐색하는 경향을 보였다.

파라미터 비율 α를 달리한 추가 실험에서는 20% 부근이 성능 최적임이 확인되었다. Qwen3-8B 모델은 α=10%, 20%, 50% 모두 큰 차이가 없었지만, Qwen3-14B/32B에서는 α를 20%에서 10%로 줄이거나 100%로 늘리면 정확도가 떨어졌다. 반면 α≈20%에서는 최고 성능을 유지했다. 특히 80% 저엔트로피 토큰만 사용한 경우에는 모든 벤치마크에서 정확도가 급락하였다. 이는 RLVR 향상이 사실상 고엔트로피 토큰 최적화에 기인함을 보여준다. 즉, 학습 초기에 고엔트로피 토큰이 다양한 추론 경로 탐색(exploration)을 담당하고, 저엔트로피 토큰은 경로 확장에 기여도가 낮거나 오히려 방해가 될 수 있다. 이 관찰은 “RL은 탐색을 유지해 일반화하고, SFT는 단일 경로에 고착화한다”는 기존 주장과도 일맥상통한다.

 

6. Conclusion

본 논문은 LLM 추론 과정에서 소수의 고엔트로피 토큰(forking tokens)이 결정적인 역할을 한다는 사실을 밝히고, 이를 활용하여 RLVR 학습 효율을 획기적으로 향상시켰다. 체인-오브-사고 생성 시 대다수 토큰은 낮은 엔트로피(예측 가능한 단어)를 가지지만, 약 20%의 토큰만이 높은 엔트로피(불확실)를 갖고 다양한 추론 분기로 작용한다. 이들 토큰만으로 정책경사를 계산해도 전체 성능은 손실 없이 유지되거나 개선되었으며, 오히려 많은 토큰을 포함시킬수록(80/20 규칙 반대로) 성능이 나빠졌다. 요약하면, “소수 고엔트로피 토큰을 중심으로 학습을 집중하면 전체 80% 토큰은 무시해도 된다”는 기존 80/20 법칙을 넘어서는 새로운 관점이 제시되었다. 이 결과는 RLVR 알고리즘을 설계할 때 토큰 엔트로피 패턴을 고려하여 효율성을 극대화할 수 있는 가능성을 보여주며, 향후 LLM 강화학습 연구에 중요한 시사점을 제공할 것이다.

 

💡 My Thoughts

이 논문은 단순히 LLM의 성능 향상만을 추구하는 것이 아니라, "왜 강화학습이 효과가 있는가?"라는 질문에 대해 깊이 있는 해석을 제시한다는 점에서 인상 깊었다. ‘고엔트로피 토큰이 추론 경로를 결정짓는 분기점 역할을 한다’는 주장은 Chain-Of-Thought 생성 방식을 완전히 새롭게 이해할 수 있는 프레임을 제공한다.

연구진이 상위 20% 토큰만으로도 기존 성능을 뛰어넘었다는 결과는 단지 학습 효율성 측면뿐 아니라, 향후 RLVR의 토큰 수준 최적화 전략에 새로운 방향성을 제시한다고 생각한다. 개인적으로는 이 아이디어가 RL 뿐 아니라 SFT, distillation, pruning 같은 다른 학습 패러다임에도 응용될 수 있을 것으로 기대한다.

다만 몇 가지 아쉬운 점도 있다. 실험 대부분이 Qwen 계열 모델에 국한되어 있고, LLaMA 기반에서는 결과가 미약했는데 이는 고엔트로피 토큰 기반 전략이 모델 아키텍처나 초기 조건에 따라 예민할 수 있음을 보여준다. 또한 다양한 도메인(예: 논리 추론, 멀티모달, 코드 생성 등)으로 확장될 때에도 이 엔트로피 기반 분기점이 여전히 유효한지 검증할 필요가 있다.

하지만 그럼에도 불구하고, 이 연구는 “모든 토큰이 동등하지 않다”는 점을 데이터 차원이 아닌 “불확실성(Entropy)”이라는 학습 관점에서 설명해낸 매우 흥미로운 시도였고, 이후 많은 후속 연구의 출발점이 될 것으로 보인다.