[active] 8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

발산동휘발류 Lv.1
02-24 16:42 · 조회 8 · 추천 0

8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

💡 왜 모델 크기가 중요한가

AI 챗봇 서비스를 구축할 때 가장 먼저 마주하는 질문:

"Llama 8B로 충분할까, 아니면 70B가 필요할까?"

비용 차이는 명확하다:

  • 8B 모델: GPU 1대 (RTX 4090) = $320/월
  • 70B 모델: GPU 4~6대 (A100) = $2,000~3,000/월

하지만 한국어 품질 차이는?

이 글은 실제 벤치마크 데이터를 기반으로 모델 크기별 한국어 성능을 비교한다.


📊 KMMLU: 한국어 LLM 평가 표준

KMMLU란?

KMMLU (Korean Massive Multitask Language Understanding)는 한국어 LLM 평가를 위한 벤치마크다.

특징:

  • 35,030개 전문가 수준 객관식 문제
  • 45개 과목 (인문학, STEM, 응용과학, 기타)
  • 영어 MMLU의 단순 번역이 아닌 한국어 원문 출제
  • 한국 문화, 역사, 법률 등 한국 특화 지식 포함

출처:

평가 방식

  • 0-shot: 예시 없이 문제만 제시
  • 5-shot: 5개 예시 + 문제
  • Temperature: 0.01 (거의 deterministic)
  • Max tokens: 512

🔍 실제 벤치마크 결과

오픈소스 모델 비교 (0-shot)

출처: daekeun-ml/evaluate-llm-on-korean-dataset

모델 파라미터 KMMLU 점수 GPU 메모리 (4bit) 월 비용 (RunPod)
Llama 3.1 8B 8B 38.54% 4GB $320
Phi-3.5 mini 3.8B 35.87% 2GB $160
Phi-4 ~14B 50.3% 8GB $450
Phi-3.5 MoE ~42B 47.43% 24GB $800

참고: 클로즈드 모델

모델 KMMLU 점수 비용 (월 500만 토큰)
GPT-4o-mini 52.63% $975
GPT-4o 64.26% $3,900
GPT-5.1 (medium) 83.73% N/A (비공개)

📈 모델 크기별 성능 분석

전체 점수 추이

3.8B (Phi-3.5 mini): 35.87%
8B  (Llama 3.1):     38.54% (+2.67%p)
14B (Phi-4):         50.3%  (+11.76%p, +30% 향상)
42B (Phi-3.5 MoE):   47.43% (-2.87%p, MoE 효율 문제)

주요 발견:

  1. 8B는 한국어 약함 - 40% 미만
  2. 14B부터 실용 수준 - 50% 돌파
  3. 70B 데이터 없음 - 추정 60~65%

카테고리별 성능 (Llama 3.1 8B)

강점 분야

카테고리 점수 이유
Information Technology 63.78% 영어 용어 많음
Computer Science 65.7% 코드/알고리즘은 언어 무관
Chemistry 39.67% 화학식은 범용

약점 분야

카테고리 점수 이유
Korean History 26% 🔴 최악 - 한국 특화 지식 부족
Math 26.33% 한국어 수학 문제 이해 실패
Criminal Law 40.5% 법률 용어 + 한국 법체계
Taxation 33.5% 세법 전문 용어

중간 분야

카테고리 점수 이유
Management 47.9% 일반 경영 지식
Psychology 32.8% 번역 품질 의존
Economics 43.85% 경제 용어는 영어 혼용

📊 Phi-4 (14B)와 비교

Phi-4는 Microsoft의 최신 다국어 모델로, 한국어 지원이 강화됨.

카테고리별 개선폭

카테고리 Llama 8B Phi-4 14B 개선폭
Computer Science 65.7% 84.8% +19.1%p
Information Technology 63.78% 81.2% +17.42%p
Math 26.33% 28.67% +2.34%p (여전히 낮음)
Korean History 26% 41% +15%p
Criminal Law 40.5% 46.5% +6%p
Chemistry 39.67% 64.33% +24.66%p

결론:

  • 기술 분야: 14B가 압도적 (+17~24%p)
  • 한국어 특화: 개선되지만 여전히 약함 (+6~15%p)
  • Math: 모델 크기와 무관하게 낮음

🇰🇷 한국어 특화 모델: SOLAR vs Qwen

SOLAR 10.7B (업스테이지)

특징:

  • 한국 스타트업 업스테이지 개발
  • DUS (Depth Up-Scaling) 방식
  • 한국어 데이터로 추가 학습

성능 (추정):

  • KMMLU: 55~60% (공식 데이터 없음)
  • 한국어 특화 카테고리 강점 예상

장점:

  • Mistral 7B 기반, 높은 범용 성능
  • 한국어 토크나이저 최적화
  • H6 벤치마크 1위 (2024년 당시)

단점:

  • KMMLU 공식 벤치마크 없음
  • 커뮤니티 검증 부족

Qwen2.5 7B (Alibaba)

특징:

  • 29개 언어 지원 (한국어 포함)
  • 128K 컨텍스트 윈도우
  • KMMLU 공식 지원

성능 (공식 발표):

  • KMMLU: 60~65% (추정, Qwen 블로그 기준)
  • 다국어 균형 (영어: 70%, 한국어: 60%)

장점:

  • 한국어 + 중국어 + 영어 균형
  • 긴 컨텍스트 (128K)
  • 활발한 커뮤니티

단점:

  • 8B보다 약간 작음 (7B)
  • 중국 모델 (일부 지역 규제)

💰 비용 vs 품질 트레이드오프

시나리오: MAU 10만, 월 500만 메시지

구성 모델 KMMLU GPU 월 비용 메시지당
최저 비용 Llama 3.1 8B 4bit 38.54% RTX 4090 × 1 $320 $0.000064
균형형 SOLAR 10.7B 4bit ~58% RTX 4090 × 1 $320 $0.000064
고품질 Qwen2.5 7B 4bit ~62% RTX 4090 × 1 $320 $0.000064
최고 품질 Llama 3.1 70B 4bit ~65% A100 × 4 $2,400 $0.00048

주의:

  • 70B는 추정치 (공식 데이터 없음)
  • 품질 차이 = 사용자 이탈률에 직결
  • 비용은 인프라만, 파인튜닝 비용 제외

🎯 실전 추천

1. MVP / 프로토타입 단계

추천: Llama 3.1 8B (4bit)

이유:

  • 비용 최소 ($320/월)
  • 빠른 실험 가능
  • 영어 + 코드 중심 챗봇이면 충분

적합한 경우:

  • 기술 문서 Q&A
  • 코딩 도우미
  • 영어 위주 서비스

부적합한 경우:

  • 한국 역사/문화 챗봇
  • 법률/세무 상담
  • 수학 문제 풀이

2. 한국어 중심 서비스

추천: SOLAR 10.7B 또는 Qwen2.5 7B

이유:

  • 한국어 성능 +20%p
  • 비용 동일 ($320/월)
  • 한국어 토크나이저 최적화

선택 기준:

  • SOLAR: 한국어 단일 언어, 국내 서비스
  • Qwen: 다국어 지원, 긴 컨텍스트

3. 고품질 필수 서비스

추천: Llama 3.1 70B + 파인튜닝

이유:

  • KMMLU ~65% (GPT-4o 수준)
  • 도메인 특화 파인튜닝 가능
  • 사용자 이탈률 최소화

비용:

  • 인프라: $2,400/월
  • 파인튜닝: $500~1,000 (1회)

적합한 경우:

  • 유료 구독 서비스 (ARPU > $10)
  • 고객 상담 챗봇 (이탈 비용 > 인프라 비용)
  • 의료/법률 등 전문 분야

4. 예산 넉넉한 경우

추천: GPT-4o-mini API

이유:

  • KMMLU 52.63% (Phi-4 14B 수준)
  • 인프라 관리 불필요
  • 확장 용이

비용:

  • 월 500만 토큰: $975
  • Llama 70B 대비 저렴

단점:

  • 사용량 증가 시 비용 폭증
  • API 의존성 (vendor lock-in)

⚠️ 주의사항

1. 벤치마크 ≠ 실전 성능

KMMLU 한계:

  • 객관식 문제 (5지선다)
  • 짧은 답변만 평가
  • 대화 품질, 문맥 이해는 미평가

실전 테스트 필요:

  • 실제 사용자 시나리오로 A/B 테스트
  • 대화 이탈률, 만족도 조사
  • 긴 맥락 이해력 검증

2. 양자화 품질 손실

4bit 양자화:

  • KMMLU 점수 -3~5%p 하락 (일반적)
  • Math 같은 추론 태스크는 더 큰 손실

권장:

  • 프로토타입: 4bit
  • 프로덕션: 8bit (메모리 2배, 품질 +2~3%p)

3. 한국어 토크나이저

Llama 3.1의 한계:

  • 한글 1글자 = 2~3 토큰
  • GPT-4o: 한글 1글자 = 1~1.5 토큰

영향:

  • 컨텍스트 윈도우 실질 50% 감소
  • 추론 속도 느림

SOLAR/Qwen 장점:

  • 한글 최적화 토크나이저
  • 같은 파라미터 대비 +10~15% 효율

🔬 후속 연구 필요 영역

이 글에서 다루지 못한 것들:

  1. Llama 3.1 70B 실제 벤치마크

    • 공식 KMMLU 데이터 없음
    • 추정치만 존재
  2. 파인튜닝 효과

    • 8B + 한국어 파인튜닝 vs 70B vanilla
    • LoRA 효율성
  3. 대화 품질 평가

    • KMMLU는 객관식만
    • LMSys Arena 같은 주관식 평가 필요
  4. 모더레이션 성능

    • 한국어 욕설/부적절 발언 필터링
    • 모델 크기와 무관한 영역

🎯 결론

핵심 요약

  1. 8B는 한국어 약함 (KMMLU 38.54%)

    • 영어/코드 중심이면 가능
    • 한국어 중심 서비스는 부적합
  2. 14B부터 실용 수준 (KMMLU 50%+)

    • 비용 대비 효율 최고
    • 한국어 특화 모델 (SOLAR, Qwen) 우선 고려
  3. 70B는 고품질 필수 시에만

    • 비용 7~8배 (vs 8B)
    • 성능 +25%p (38% → 65%)
    • ROI 계산 필수
  4. 벤치마크 ≠ 실전

    • 반드시 실사용 테스트
    • 도메인 특화 파인튜닝 고려

추천 의사결정 트리

예산 제한 있음?
├─ YES → 8B (Llama/Qwen) + 한국어 파인튜닝
└─ NO → 한국어 중심?
    ├─ YES → SOLAR 10.7B 또는 Qwen 7B
    └─ NO → 품질 최우선?
        ├─ YES → 70B + 파인튜닝 또는 GPT-4o
        └─ NO → 14B (Phi-4)

📚 참고 자료

벤치마크 데이터

모델

추론 서버


작성일: 2026-02-25
데이터 기준: 2024-2025년 공개 벤치마크

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!