연구/Natural Language Processing

[Paper Review] Unveiling Super Experts in Mixture-of-Experts Large Language Models

서히! 2025. 8. 17. 22:18

https://arxiv.org/abs/2507.23279

 

Unveiling Super Experts in Mixture-of-Experts Large Language Models

Sparsely activated Mixture-of-Experts (MoE) models have shown promise in enhancing the learning capacity of large language models (LLMs). Leveraging the intrinsic importance differences among experts, recent research has explored expert-level compression t

arxiv.org

 

Abstract

  • Sparse MoE LLM은 dense LLM 대비 계산 효율 좋음
  • 문제는 전문가(Experts) 수가 많아 전체 파라미터 수가 너무 커짐 → 실제 서비스 적용 어려움
  • 기존 Expert-level compression 연구들 있음 (Expert pruning, Expert quantization, Expert merging 등)
  • 하지만 이 연구들은 router frequency, gate score 같은 경험적 지표에 의존
  • Experts 간 heterogeneous importance 메커니즘에 대한 깊은 분석은 부족함
  • 본 논문에서 새로운 전문가 집합 발견 → Super Experts (SEs) 라 명명
  • 주요 특징
    • Down-proj 단계에서 드문 activation outlier 발생
    • Residual connection 통해 hidden states 전체에 propagation → massive activations 형성
    • 이 activation은 모델의 attention sink 메커니즘과 직결
  • 실험 결과
    • SE 제거 시 PPL 급증, reasoning 성능 완전 붕괴
    • 단 3개 SE만 제거해도 Qwen3-30B-A3B 모델은 무의미한 반복 출력 생성
  • 기여
    1. MoE LLM 내 SE 최초 발견 및 자동 profiling 도구 제안
    2. SE 제거가 성능과 attention sink 메커니즘에 치명적임을 입증
    3. MoE 모델 압축 시 SE 반드시 보존 필요

Pruning SEs → Perplexity 급등 그래프

 


1. Introduction

  • MoE LLM은 dynamic routing + sparse activation 구조로 dense 모델 대비 높은 학습 용량 가짐
  • 대표적 모델: Qwen 시리즈, DeepSeek 시리즈, Mixtral, LLaMA-4 MoE 등
  • 장점: 특정 입력마다 일부 experts만 활성화되어 계산 효율 개선
  • 단점: 전문가 수 자체가 많아 파라미터 수 폭발 → 추론 비용 크고 배포 어려움
  • 기존 연구: Expert-level compression 기법
    • Expert pruning (빈도 기반, 중요도 기반)
    • Expert merging (비슷한 전문가 병합)
    • Expert skipping (활성화 적은 전문가 무시)
    • Expert quantization (더 중요한 expert에 높은 비트 할당)
  • 한계
    • 경험적 기준에 불과 → 모델 내 특정 전문가 집합이 근본적으로 필수인지에 대한 메커니즘적 분석 없음
  • 핵심 질문
    • MoE LLM 내에 정말로 없어서는 안 되는 전문가 집합이 존재하는가?
  • 본 논문의 발견
    • 존재함 → 이를 Super Experts(SEs) 라 명명
    • SE는 매우 소수이나, 제거 시 성능 붕괴
    • 예: Qwen3-30B-A3B에서 SE 3개 제거 시 PPL 8.7 → 59.8 급등
    • 모델 출력이 “the way it’s, the way it’s …” 같은 반복 문장으로 붕괴됨

2. Preliminaries on MoE LLMs

  • MoE LLM = Transformer decoder 기반 구조
  • 각 decoder block = MHSA + MoE layer
  • MoE layer: 여러 experts(FFN) 중 router가 Top-k 선택
  • Router는 softmax 기반으로 각 expert에 weight 할당

Decoder block 수식

Router 수식

MoE layer 출력 수식

FFN 수식


3. Super Experts: Discovery and Localization

3.1 Discovery of SEs

  • 기존 dense LLM 연구에서 “massive activations”라는 outlier 현상 보고됨 (값이 다른 activation 대비 10^5배 이상 큼)
  • 본 연구에서는 MoE 모델에서도 이 현상이 발견됨
  • 원인: 전체 experts가 아니라 특정 experts에서만 발생
  • Down-proj에서 극단적 outlier 생성 → residual 통해 다음 레이어 hidden states에 전달 → 전체 레이어로 확산
  • Ablation 결과: SE 제거 → massive activations 완전히 사라짐
  • 따라서 massive activation의 기원은 SE임

Qwen3-30B-A3B의 특정 SE들이 massive activation 점화
SE pruning → activation 사라짐

3.2 Localization of SEs

  • SE 정의 기준 (activation 기반) 제안

  • 자동 profiling 도구 개발 ( https://github.com/ZunhaiSu/Super-ExpertsProfilling )
  • Qwen, DeepSeek, Mixtral 모두 SE 보유
  • 주요 발견
    • SE 비율 ≤ 0.5%
    • Base 모델과 Fine-tuned 모델 비교 → SE 분포 동일
    • 데이터셋 달라져도 SE 분포 안정적
  • Heatmap 분석: SE는 특정 layer에 집중됨 (예: Qwen은 1~3 layer, Mixtral은 1 layer)

Heatmap: 각 expert down-proj 출력, SE 강조 표시


4. The Importance of Super Experts

4.1 Non-Reasoning Models

  • 평가 대상: Qwen3-30B-A3B (non-thinking), DeepSeek-V2-Lite, Mixtral-8x7B
  • 평가 데이터셋: ARC-c, ARC-e, BoolQ, GSM8K, HellaSwag, MMLU, OpenBookQA, PIQA, WinoGrande
  • 결과
    • SE pruning → 평균 성능 20~27% 감소
    • GSM8K에서 52~74% 성능 급락
    • 랜덤 pruning은 거의 영향 없음

Non-reasoning 모델 성능 변화

 

4.2 Reasoning Models

  • 평가 대상: DeepSeek-R1, Qwen3-30B-A3B (thinking mode)
  • 벤치마크: GPQA, Math-500, AIME 2024/25, HumanEval, LiveCodeBench
  • 결과
    • SE 제거 → Pass@1 거의 0%
    • Math-500 같은 수학 문제에서 무한 반복 출력 현상 발생
  • 예시: “the way it’s, the way it’s …” 식의 반복만 출력

Table4: : Evaluation of the importance of SEs in DeepSeek-R1
Table 5: Evaluation of the importance of SEs in Qwen3-30B-A3B


5. Understanding the Impact of SE Compression

  • 기존 dense LLM 연구: massive activations → attention sink 형성
  • Attention sink: 의미 없는 토큰이 disproportionate attention 받는 현상
  • 본 연구: SE 제거 시 attention sink 붕괴 확인
  • Attention Sink Decay Rate 제안

  • 결과: SE 제거 후 decay rate 90% 이상 → sink 완전 붕괴
  • Attention sink 사라지면 attention 분포 무너지고 전역 정보 전달 불능

Attention sink before/after pruning 비교
Attention sink decay rate across layers


6. Related Work

  • 기존 연구 요약
    • Expert merging (M-SMoE)
    • Expert pruning/skipping (NAEE, MoE-Pruner 등)
    • Expert-level quantization (MxMoE, MoEQuant 등)
  • 대부분 empirical 기준 (빈도, router score, gradient 등)만 사용
  • 본 연구 차별점
    • SE 발견 → MoE inference 메커니즘과 직접 연결
    • compression이 성능 붕괴로 이어지는 이유를 설명할 수 있는 기반 제공

7. Conclusion

  • Super Experts(SEs) 발견 및 체계적 분석
  • SE 특징
    • Down-proj outlier 발생
    • Attention sink 생성 메커니즘 담당
    • reasoning 성능 유지 필수
  • SE pruning → massive activations 소멸 + 성능 붕괴
  • 결론: MoE 압축 시 SE 반드시 보존 필요
  • 향후 연구: SE-aware compression 전략 개발