[Paper Review] Entropy-Aware Branching for Improved Mathematical Reasoning

연구/Natural Language Processing

[Paper Review] Entropy-Aware Branching for Improved Mathematical Reasoning

서히! 2025. 7. 6. 22:20

논문이 다루는 Task

많은 대형 언어 모델(LLM)이 뛰어난 성능을 보이지만, 특히 수학 문제 해결과 같은 고난도 추론에서는 여전히 오류와 불확실성이 존재한다. 저자들은 수학 문제를 풀 때 모델 출력 확률 분포의 불확실성(엔트로피, 분산 엔트로피)이 높은 단계에서 실수가 잦다는 사실을 관찰했다. 예를 들어, 금융 분야의 고급 문제(CFA 시험) 해결 과정에서 모델이 확신이 낮은 토큰을 선택할 때(엔트로피가 높을 때) 답이 틀릴 가능성이 커졌다. 이러한 이유로 문제 해결 과정에서 모델의 불확실성을 정량화하고, 불확실성이 클 때는 대안을 탐색하도록 유도하는 방법이 필요하다.

이 논문에서는 수학 워드 문제와 계산 문제를 대상으로, 불확실한 지점에서 동적으로 브랜칭(branching) 하여 여러 해법 경로를 동시에 생성하고, 더 큰 모델의 피드백으로 최적의 경로를 선택하는 기법을 제안한다. 이를 통해 작은 LLM이라도 최대 약 4.6%까지 정답률을 높이는 효과를 확인하였다.

기존 연구 한계

기존 연구에서는 LLM의 불확실성을 처리하기 위해 다양한 접근법이 제안되었다. 예를 들어, 모델이 같은 문제에 대해 여러 답안을 생성해 모순을 검사하는 방법이나 토큰 수준 확률로 불확실성을 평가하는 방법이 있다. 하지만 전자는 반복 샘플링이 필요해 실시간 응용에 비효율적이고, 후자는 여러 대안을 적극적으로 탐색하지 못한다.

또한 테스트 시점 연산(test-time compute)을 활용해 성능을 개선하는 연구도 활발히 진행되고 있습니다. MCTS(몬테카를로 트리 탐색)나 빔 서치 등 검색 알고리즘을 통해 여러 후보 답을 생성하는 방식은 성능을 높일 수 있지만, 모든 경우에 대해 전체 답을 반복적으로 생성해 큰 계산 부담이 든다. 예컨대 오픈AI의 연구들은 뛰어난 성능을 보였지만 매우 많은 연산을 필요로 했다.

이 논문은 이러한 한계를 보완하기 위해 목표 지향적인 탐색을 시도한다. 불필요하게 많은 샘플링 대신 모델이 불확실한 단계에서만 분기를 생성하도록 하고, 대안을 효율적으로 탐색한다. 또한 분기된 여러 해법 경로 중에서 외부 대형 모델의 피드백을 활용해 가장 일관성 있는 답을 골라내는 방식을 제안한다. 이를 통해 기존 방법들보다 적은 연산으로 성능을 향상할 수 있다.

Framework: Entropy Aware Branching

논문에서 제안한 프레임워크는 실시간으로 모델의 출력 분포 불확실성(엔트로피, var엔트로피)을 모니터링하며, 불확실성이 클 때만 분기하도록 설계되었다.

주요 구성요소

불확실성 측정 (Entropy, Varentropy): 매 토큰 생성 시점 t에서 모델의 다음 토큰 확률 분포 에 대해 엔트로피와 분산 엔트로피(varentropy)를 계산한다. 엔트로피는 로 표현되며 분포가 평탄할수록(확률이 고르게 퍼질수록) 커진다. 분산 엔트로피는 여러 가능한 출력 경로에서 엔트로피 값의 분산으로, 모델의 불확실도 변동성을 나타낸다. 엔트로피와 var엔트로피가 모두 높은 순간이 모델의 다음 결정에 특히 불확실성이 큰 지점임을 의미한다.
분기 조건 (Branching Condition): 사전에 정의된 임계값(엔트로피 임계와 var엔트로피 임계)를 설정한다. 생성 과정 도중 어떤 시점 t에서 엔트로피 Et>τE이고 var엔트로피 Vt>τV일 경우, 분기점으로 판단한다. 이때 모델은 단일 최빈 토큰을 선택하는 대신 확률 분포 상위 K개 토큰을 샘플링하여 여러 갈래(브랜치)를 생성한다.
브랜치 생성과 전파 (Branch Generation & Propagation): 분기점에서 선택된 각 토큰에 대해 모델의 현재 상태(캐시, 인코딩, 어텐션 상태 등)를 복제하여 별도의 브랜치를 만든다. 각 브랜치는 복사된 상태로부터 독립적으로 토큰을 생성하기 시작한다. 브랜치는 미리 정해진 마침표(예: “.”)나 최대 길이 도달 시 종료된다. 이렇게 얻은 각 브랜치는 그 시점까지의 문제 답변 초안이 된다.
브랜치 평가와 선택 (Branch Evaluation): 모든 브랜치가 완성되면 피드백 모델을 통해 각 브랜치의 품질을 평가한다. 이 피드백 모델로는 큰 LLM(예: Llama-3.3-70B-Instruct)이나 프로세스 리워드 모델(LLama-3.1-8B-PRM)이 사용된다. 원 질문과 브랜치 내용 전체를 입력하면, 피드백 모델이 논리 일관성과 정확성을 기준으로 점수를 매기거나 선호도를 계산한다. 가장 높은 점수를 받은 브랜치 하나를 선택하여 이후 생성 과정의 시작점으로 삼으며 한 번에 한 번만 분기를 허용해 무한 분기를 방지하고, 선택된 브랜치에서 다시 불확실성이 커지는 시점에 새로운 분기를 생성할 수 있다.

Figure2. : Illustration of the branching mechanism. Given a CFA math problem, the LLM’s response exhibits varying levels of uncertainty, indicated by different shades of blue—the darker the blue, the lower the confidence in the selected token.

이렇게 Entropy-Aware Branching은 불확실성이 높은 결정 지점에서만 여러 경로를 병렬 탐색함으로써 효율성을 유지한다. 각 브랜치를 평가할 때는 추가적인 사람이 개입할 수도 있지만(예: 사용자가 브랜치 선택), 실험에서는 비용 문제로 더 큰 LLM이 대리 평가자로 활용되었다.

실험 및 결과

Table 1: Comparison of model performance using naive argmax decoding against entropy-aware branching on CFA questions and general math benchmarks.

저자들은 금융 수학 문제와 일반 수학 문제에서 제안 기법을 평가했다. 주요 데이터셋은 CFA 모의 시험(레벨 I, II)에 속한 고난도 금융/수학 문제와, 수학 대회 난이도의 MATH(500문제) 및 초등 수준의 GSM8K(1320문제) 문제이다. CFA 데이터는 AnalystPrep에서 구매한 모의고사로, 금융 분석 정확도가 매우 중요한 환경이다. 또한 MATH와 GSM8K는 다양한 일반 수학 문제로, 방법의 일반화 가능성을 검증한다.

기준 모델으로는 Llama 계열의 Instruct 모델(Llama-3.2-1B, 3.2-3B, 3.1-8B)을 사용했다. 피드백 모델로는 Llama-3.3-70B-Instruct(대규모 일반모델)와 Llama-3.1-8B-PRM-Mistral-Data(프로세스 리워드로 특수 튜닝된 모델)를 비교 사용했다. 각 경우에 대해 일반 Argmax 디코딩(기본 예측)과 제안된 브랜칭 디코딩을 비교했다.

표 1에서 볼 수 있듯이, 모든 벤치마크에서 분기 디코딩이 성능을 꾸준히 향상시켰다. Llama-3.2-1B 모델은 Argmax(24.43%)에서 분기(26.14%)로 CFA II 정답률이 약 1.7%p 상승했고, Llama-3.1-8B는 Argmax(31.25%)에서 분기(35.80%)로 약 4.6%p 올랐다. 일반적으로 큰 모델일수록 분기에서 더 큰 향상을 보였는데, 이는 더 많은 브랜치 후보를 만들어 풍부한 선택지를 확보했기 때문으로 분석된다. 작은 모델도 일관되게 개선되어, 제안 기법이 모든 규모에서 유효함을 확인했다.

Analysis

Figure 3: Grid search of threshold and number of branches impacts on three models’ performance on CFA level II questions

하이퍼파라미터(임계값, 브랜치 수) 분석

엔트로피/var엔트로피 임계값과 생성할 브랜치 수(K)는 성능과 효율성의 균형을 결정한다. 그림 3(a)는 CFA II 문제에서 서로 다른 임계값 설정에 따른 정확도를 보여준다. 임계값을 낮추면 분기가 자주 발생해 탐색 경로가 많아지지만, 너무 낮으면 주 경로 분산이 커져 성능이 떨어진다. Llama-1B 모델은 약 τE 근처에서 정답률이 최고였으나, 큰 모델들은 τE 에서도 안정적으로 높은 성능을 보였다. => 작은 모델은 세밀한 튜닝이 필요하고, 큰 모델은 조금 느슨하게 설정해도 효과가 컸다.

그림 3(b)는 브랜치 수 K 변화에 따른 성능으로, 1B 모델은 브랜치 수를 8까지 늘리면 성능이 증가하다가 지나치게 많아지면 오히려 하락했다. 3B 모델은 6~8개 범위에서 안정적이었고 지나친 브랜칭이 오히려 효용을 떨어뜨렸습다. 따라서 적절히 많은 브랜치를 생성해야 탐색 효과가 나타나며, 과도한 브랜치는 오히려 분기 간소화나 시간 낭비로 이어지므로 임계값과 브랜치 수를 적절히 조절해 분기 빈도와 수를 최적화하는 것이 중요하다.

브랜치 다양성 분석

그림 4(a)에서 알 수 있듯, 각 분기점에서 생성된 브랜치 간 코사인 유사도는 대부분 0.5–0.7 사이로 나타났.

=> 완전히 동일한 경로를 반복하는 경우(0.8 이상)는 드물었고, 적절한 중복과 다양성의 균형을 이루었다. 이는 분기 기준으로 잡힌 순간들이 실제로 모델이 다양한 결정을 고려하는 지점임을 시사한다.

그림 4(b)는 질의당 생성된 브랜치 수 분포로, 대부분 문제에서는 한두 개의 분기만 발생해 추가 연산 부담이 크지 않았다. 매우 복잡한 문제에서만 10개 이상의 브랜치가 나오는 소수 사례가 있었다.

=> 모든 경우를 무작정 탐색하는 빔 서치 방식과 달리, 필요한 시점에만 선별적으로 분기하므로 대부분 쿼리에서는 기본 모델과 거의 동일한 비용으로 동작할 수 있음을 보여준다.

Figure 4: Distribution of all the generated branches by Llama-3.2-1b on CFA level II questions. We calculate the branch cosine similarity and branching frequency per question

브랜치 평가자 비교

여러 평가자와 평가 방식의 효과를 비교했다. 표 2는 CFA II 데이터에서 서로 다른 피드백 모델을 사용할 때 정확도 차이를 보여준다. 스스로 평가(self-evaluation)하거나 단순히 엔트로피가 낮은 브랜치를 선택하는 방식(Entropy/Varentropy)은 대형 모델의 평가보다 낮은 정확도를 보였습니다. => 작은 모델이 자신의 브랜치를 판단하기는 어렵고 단순 불확실성 척도도 한계가 있었습니다. 반면, Llama-3.3-70B나 PRM-8B 같은 외부 모델을 평가자로 쓰면 모든 경우에 성능이 향상되었다. 큰 모델은 사고의 질을 잘 판단해 주므로, 평가 단계에 더 정교한 모델을 활용하는 것이 효과적임을 확인했다.

Table 2: Performance comparison on the CFA II dataset using various branch evaluators.

표 2를 통해, “큰 모델을 평가자로 써야 성능이 제대로 올라간다”는 점을 확인할 수 있었다. 작은 모델의 자기 판단은 약했고, 불확실성만 기준으로 선택하는 것도 한계가 있었다. 반면, Llama-3.3-70B나 PRM-8B 같은 모델은 추론 논리를 잘 평가해 주어 분기 기법의 이점을 충분히 활용할 수 있었다.

Conclusion

이 논문은 수학적 추론에서 모델의 불확실성을 실시간으로 감지하여 필요한 시점에만 답변 생성 경로를 분기하는 새로운 기법을 제안했다. 제안 방법은 엔트로피와 var엔트로피 기반으로 분기 시점을 결정하고, 생성된 여러 경로를 외부 평가 모델로 평가하여 최적 경로를 선택한다. 복잡한 금융 문제와 일반 수학 벤치마크 실험에서 중간 크기 LLM도 분기가 도입될 때마다 성능이 꾸준히 향상됨을 확인했다. 특히 어려운 문제에서 개선 효과가 컸으며, 임계값과 브랜치 수를 적절히 설정하면 추가 연산 부담을 크게 늘리지 않으면서 불확실성으로 인한 오류를 줄일 수 있었다.

=> Entropy-Aware Branching은 불확실한 순간에만 추가 탐색을 수행해 효율성을 유지하면서, 여러 해법을 비교 평가해 더 정확한 답을 얻도록 돕는다. 이는 LLM의 추론 신뢰도를 높이는 실용적인 해결책으로, 모델이 놓칠 수 있는 대안을 자동으로 탐색하게 해준다.

My Thoughts

개인적으로, 이 기법은 금융 분석, 교육 도우미, 사내 QA 시스템 등 다양한 산업 현장과 연구 환경에 적용해볼 가치가 있다고 생각한다. 만약 금융 업무에서 LLM이 복잡한 리스크 분석이나 보고서를 생성할 때, 한 가지 계산 경로만 고집하다가 작은 오류로 큰 손실이 발생할 수 있다. 이때 엔트로피 기반 분기를 활용하면, 모델이 핵심 계산 단계에서 불확실할 때 대체 경로를 탐색하여 더 안정적인 결과를 제시할 수 있다. QA 시스템이나 기술 지원 챗봇에서도 모델이 답변 생성 시 확신이 떨어지면 하나의 답 대신 여러 가능성을 탐색해, 최종 사용자에게 신뢰성 높은 답을 제공하거나 중요한 결정을 보조할 수 있다.

물론 이 기법의 실제 적용에 앞서 추가 연산 비용과 평가 모델의 품질을 고려해야 한다. 운영 환경에서 LLM에 분기 로직을 넣으면 처리 시간이 늘어나고, 대형 모델 평가에 따른 비용도 늘어난다. 따라서 분기 빈도를 적절히 제한하고, 가능한 가벼운 평가자를 활용하는 방안을 고민해야 한다.

종합하면, 엔트로피 인지 분기 기법은 “언제 도움을 요청할지” 아는 방법이라고 볼 수 있다. 불확실한 지점에서만 자동으로 대안을 검토해 최상의 결론을 내리도록 유도함으로써, 여러 실무 환경에서 LLM의 안정성과 효용을 높일 수 있는 유망한 접근이다. 앞으로 실제 제품이나 서비스에 적용하기 위해서는 단계적 실험과 최적화가 필요하겠지만, 기본 아이디어 자체는 다양한 도메인에 유연하게 적용 가능하다고 생각한다.

'연구 > Natural Language Processing' 카테고리의 다른 글

[Paper Review] Unveiling Super Experts in Mixture-of-Experts Large Language Models (4)	2025.08.17
[Paper Review] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning (5)	2025.07.13
LLM-Check: Investigating Detection of Hallucinations in Large Language Models (NeurIPS 2024) (0)	2025.05.25
[Paper Review] LLM-Check: Investigating Detection of Hallucinations in Large Language Models (0)	2025.03.24
[Paper Review] GPT1: Improving Language Understanding by Generative Pre-Training (3)	2025.02.05

현재글[Paper Review] Entropy-Aware Branching for Improved Mathematical Reasoning

서히의 우당탕탕 코딩일기

https://github.com/seohee0925

파이썬, 이기적, 코테, Deep Learning, 딥러닝, BITAmin, 빅분기, 빅분기_실기, programmers, 빅데이터학회, 빅데이터 연합동아리, AI, 빅분기스터디, BDA, python, 학회, 코딩테스트, 프로그래머스, 영진닷컴, BDA학회,

Today :
Yesterday :

서히의 우당탕탕 코딩일기