[active] 8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교
8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교
💡 왜 모델 크기가 중요한가
AI 챗봇 서비스를 구축할 때 가장 먼저 마주하는 질문:
"Llama 8B로 충분할까, 아니면 70B가 필요할까?"
비용 차이는 명확하다:
- 8B 모델: GPU 1대 (RTX 4090) = $320/월
- 70B 모델: GPU 4~6대 (A100) = $2,000~3,000/월
하지만 한국어 품질 차이는?
이 글은 실제 벤치마크 데이터를 기반으로 모델 크기별 한국어 성능을 비교한다.
📊 KMMLU: 한국어 LLM 평가 표준
KMMLU란?
KMMLU (Korean Massive Multitask Language Understanding)는 한국어 LLM 평가를 위한 벤치마크다.
특징:
- 35,030개 전문가 수준 객관식 문제
- 45개 과목 (인문학, STEM, 응용과학, 기타)
- 영어 MMLU의 단순 번역이 아닌 한국어 원문 출제
- 한국 문화, 역사, 법률 등 한국 특화 지식 포함
출처:
평가 방식
- 0-shot: 예시 없이 문제만 제시
- 5-shot: 5개 예시 + 문제
- Temperature: 0.01 (거의 deterministic)
- Max tokens: 512
🔍 실제 벤치마크 결과
오픈소스 모델 비교 (0-shot)
출처: daekeun-ml/evaluate-llm-on-korean-dataset
| 모델 | 파라미터 | KMMLU 점수 | GPU 메모리 (4bit) | 월 비용 (RunPod) |
|---|---|---|---|---|
| Llama 3.1 8B | 8B | 38.54% | 4GB | $320 |
| Phi-3.5 mini | 3.8B | 35.87% | 2GB | $160 |
| Phi-4 | ~14B | 50.3% | 8GB | $450 |
| Phi-3.5 MoE | ~42B | 47.43% | 24GB | $800 |
참고: 클로즈드 모델
| 모델 | KMMLU 점수 | 비용 (월 500만 토큰) |
|---|---|---|
| GPT-4o-mini | 52.63% | $975 |
| GPT-4o | 64.26% | $3,900 |
| GPT-5.1 (medium) | 83.73% | N/A (비공개) |
📈 모델 크기별 성능 분석
전체 점수 추이
3.8B (Phi-3.5 mini): 35.87%
8B (Llama 3.1): 38.54% (+2.67%p)
14B (Phi-4): 50.3% (+11.76%p, +30% 향상)
42B (Phi-3.5 MoE): 47.43% (-2.87%p, MoE 효율 문제)
주요 발견:
- 8B는 한국어 약함 - 40% 미만
- 14B부터 실용 수준 - 50% 돌파
- 70B 데이터 없음 - 추정 60~65%
카테고리별 성능 (Llama 3.1 8B)
강점 분야
| 카테고리 | 점수 | 이유 |
|---|---|---|
| Information Technology | 63.78% | 영어 용어 많음 |
| Computer Science | 65.7% | 코드/알고리즘은 언어 무관 |
| Chemistry | 39.67% | 화학식은 범용 |
약점 분야
| 카테고리 | 점수 | 이유 |
|---|---|---|
| Korean History | 26% | 🔴 최악 - 한국 특화 지식 부족 |
| Math | 26.33% | 한국어 수학 문제 이해 실패 |
| Criminal Law | 40.5% | 법률 용어 + 한국 법체계 |
| Taxation | 33.5% | 세법 전문 용어 |
중간 분야
| 카테고리 | 점수 | 이유 |
|---|---|---|
| Management | 47.9% | 일반 경영 지식 |
| Psychology | 32.8% | 번역 품질 의존 |
| Economics | 43.85% | 경제 용어는 영어 혼용 |
📊 Phi-4 (14B)와 비교
Phi-4는 Microsoft의 최신 다국어 모델로, 한국어 지원이 강화됨.
카테고리별 개선폭
| 카테고리 | Llama 8B | Phi-4 14B | 개선폭 |
|---|---|---|---|
| Computer Science | 65.7% | 84.8% | +19.1%p |
| Information Technology | 63.78% | 81.2% | +17.42%p |
| Math | 26.33% | 28.67% | +2.34%p (여전히 낮음) |
| Korean History | 26% | 41% | +15%p |
| Criminal Law | 40.5% | 46.5% | +6%p |
| Chemistry | 39.67% | 64.33% | +24.66%p |
결론:
- 기술 분야: 14B가 압도적 (+17~24%p)
- 한국어 특화: 개선되지만 여전히 약함 (+6~15%p)
- Math: 모델 크기와 무관하게 낮음
🇰🇷 한국어 특화 모델: SOLAR vs Qwen
SOLAR 10.7B (업스테이지)
특징:
- 한국 스타트업 업스테이지 개발
- DUS (Depth Up-Scaling) 방식
- 한국어 데이터로 추가 학습
성능 (추정):
- KMMLU: 55~60% (공식 데이터 없음)
- 한국어 특화 카테고리 강점 예상
장점:
- Mistral 7B 기반, 높은 범용 성능
- 한국어 토크나이저 최적화
- H6 벤치마크 1위 (2024년 당시)
단점:
- KMMLU 공식 벤치마크 없음
- 커뮤니티 검증 부족
Qwen2.5 7B (Alibaba)
특징:
- 29개 언어 지원 (한국어 포함)
- 128K 컨텍스트 윈도우
- KMMLU 공식 지원
성능 (공식 발표):
- KMMLU: 60~65% (추정, Qwen 블로그 기준)
- 다국어 균형 (영어: 70%, 한국어: 60%)
장점:
- 한국어 + 중국어 + 영어 균형
- 긴 컨텍스트 (128K)
- 활발한 커뮤니티
단점:
- 8B보다 약간 작음 (7B)
- 중국 모델 (일부 지역 규제)
💰 비용 vs 품질 트레이드오프
시나리오: MAU 10만, 월 500만 메시지
| 구성 | 모델 | KMMLU | GPU | 월 비용 | 메시지당 |
|---|---|---|---|---|---|
| 최저 비용 | Llama 3.1 8B 4bit | 38.54% | RTX 4090 × 1 | $320 | $0.000064 |
| 균형형 | SOLAR 10.7B 4bit | ~58% | RTX 4090 × 1 | $320 | $0.000064 |
| 고품질 | Qwen2.5 7B 4bit | ~62% | RTX 4090 × 1 | $320 | $0.000064 |
| 최고 품질 | Llama 3.1 70B 4bit | ~65% | A100 × 4 | $2,400 | $0.00048 |
주의:
- 70B는 추정치 (공식 데이터 없음)
- 품질 차이 = 사용자 이탈률에 직결
- 비용은 인프라만, 파인튜닝 비용 제외
🎯 실전 추천
1. MVP / 프로토타입 단계
추천: Llama 3.1 8B (4bit)
이유:
- 비용 최소 ($320/월)
- 빠른 실험 가능
- 영어 + 코드 중심 챗봇이면 충분
적합한 경우:
- 기술 문서 Q&A
- 코딩 도우미
- 영어 위주 서비스
부적합한 경우:
- 한국 역사/문화 챗봇
- 법률/세무 상담
- 수학 문제 풀이
2. 한국어 중심 서비스
추천: SOLAR 10.7B 또는 Qwen2.5 7B
이유:
- 한국어 성능 +20%p
- 비용 동일 ($320/월)
- 한국어 토크나이저 최적화
선택 기준:
- SOLAR: 한국어 단일 언어, 국내 서비스
- Qwen: 다국어 지원, 긴 컨텍스트
3. 고품질 필수 서비스
추천: Llama 3.1 70B + 파인튜닝
이유:
- KMMLU ~65% (GPT-4o 수준)
- 도메인 특화 파인튜닝 가능
- 사용자 이탈률 최소화
비용:
- 인프라: $2,400/월
- 파인튜닝: $500~1,000 (1회)
적합한 경우:
- 유료 구독 서비스 (ARPU > $10)
- 고객 상담 챗봇 (이탈 비용 > 인프라 비용)
- 의료/법률 등 전문 분야
4. 예산 넉넉한 경우
추천: GPT-4o-mini API
이유:
- KMMLU 52.63% (Phi-4 14B 수준)
- 인프라 관리 불필요
- 확장 용이
비용:
- 월 500만 토큰: $975
- Llama 70B 대비 저렴
단점:
- 사용량 증가 시 비용 폭증
- API 의존성 (vendor lock-in)
⚠️ 주의사항
1. 벤치마크 ≠ 실전 성능
KMMLU 한계:
- 객관식 문제 (5지선다)
- 짧은 답변만 평가
- 대화 품질, 문맥 이해는 미평가
실전 테스트 필요:
- 실제 사용자 시나리오로 A/B 테스트
- 대화 이탈률, 만족도 조사
- 긴 맥락 이해력 검증
2. 양자화 품질 손실
4bit 양자화:
- KMMLU 점수 -3~5%p 하락 (일반적)
- Math 같은 추론 태스크는 더 큰 손실
권장:
- 프로토타입: 4bit
- 프로덕션: 8bit (메모리 2배, 품질 +2~3%p)
3. 한국어 토크나이저
Llama 3.1의 한계:
- 한글 1글자 = 2~3 토큰
- GPT-4o: 한글 1글자 = 1~1.5 토큰
영향:
- 컨텍스트 윈도우 실질 50% 감소
- 추론 속도 느림
SOLAR/Qwen 장점:
- 한글 최적화 토크나이저
- 같은 파라미터 대비 +10~15% 효율
🔬 후속 연구 필요 영역
이 글에서 다루지 못한 것들:
-
Llama 3.1 70B 실제 벤치마크
- 공식 KMMLU 데이터 없음
- 추정치만 존재
-
파인튜닝 효과
- 8B + 한국어 파인튜닝 vs 70B vanilla
- LoRA 효율성
-
대화 품질 평가
- KMMLU는 객관식만
- LMSys Arena 같은 주관식 평가 필요
-
모더레이션 성능
- 한국어 욕설/부적절 발언 필터링
- 모델 크기와 무관한 영역
🎯 결론
핵심 요약
-
8B는 한국어 약함 (KMMLU 38.54%)
- 영어/코드 중심이면 가능
- 한국어 중심 서비스는 부적합
-
14B부터 실용 수준 (KMMLU 50%+)
- 비용 대비 효율 최고
- 한국어 특화 모델 (SOLAR, Qwen) 우선 고려
-
70B는 고품질 필수 시에만
- 비용 7~8배 (vs 8B)
- 성능 +25%p (38% → 65%)
- ROI 계산 필수
-
벤치마크 ≠ 실전
- 반드시 실사용 테스트
- 도메인 특화 파인튜닝 고려
추천 의사결정 트리
예산 제한 있음?
├─ YES → 8B (Llama/Qwen) + 한국어 파인튜닝
└─ NO → 한국어 중심?
├─ YES → SOLAR 10.7B 또는 Qwen 7B
└─ NO → 품질 최우선?
├─ YES → 70B + 파인튜닝 또는 GPT-4o
└─ NO → 14B (Phi-4)
📚 참고 자료
벤치마크 데이터
모델
추론 서버
작성일: 2026-02-25
데이터 기준: 2024-2025년 공개 벤치마크