[active] 8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

발

발산동휘발류 Lv.1

02-24 16:42 · 조회 23 · 추천 0

8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

💡 왜 모델 크기가 중요한가

AI 챗봇 서비스를 구축할 때 가장 먼저 마주하는 질문:

"Llama 8B로 충분할까, 아니면 70B가 필요할까?"

비용 차이는 명확하다:

8B 모델: GPU 1대 (RTX 4090) = $320/월
70B 모델: GPU 4~6대 (A100) = $2,000~3,000/월

하지만 한국어 품질 차이는?

이 글은 실제 벤치마크 데이터를 기반으로 모델 크기별 한국어 성능을 비교한다.

📊 KMMLU: 한국어 LLM 평가 표준

KMMLU란?

KMMLU (Korean Massive Multitask Language Understanding)는 한국어 LLM 평가를 위한 벤치마크다.

특징:

35,030개 전문가 수준 객관식 문제
45개 과목 (인문학, STEM, 응용과학, 기타)
영어 MMLU의 단순 번역이 아닌 한국어 원문 출제
한국 문화, 역사, 법률 등 한국 특화 지식 포함

출처:

논문: KMMLU: Measuring Massive Multitask Language Understanding in Korean
데이터셋: Hugging Face

평가 방식

0-shot: 예시 없이 문제만 제시
5-shot: 5개 예시 + 문제
Temperature: 0.01 (거의 deterministic)
Max tokens: 512

🔍 실제 벤치마크 결과

오픈소스 모델 비교 (0-shot)

출처: daekeun-ml/evaluate-llm-on-korean-dataset

모델	파라미터	KMMLU 점수	GPU 메모리 (4bit)	월 비용 (RunPod)
Llama 3.1 8B	8B	38.54%	4GB	$320
Phi-3.5 mini	3.8B	35.87%	2GB	$160
Phi-4	~14B	50.3%	8GB	$450
Phi-3.5 MoE	~42B	47.43%	24GB	$800

참고: 클로즈드 모델

모델	KMMLU 점수	비용 (월 500만 토큰)
GPT-4o-mini	52.63%	$975
GPT-4o	64.26%	$3,900
GPT-5.1 (medium)	83.73%	N/A (비공개)

📈 모델 크기별 성능 분석

전체 점수 추이

3.8B (Phi-3.5 mini): 35.87%
8B  (Llama 3.1):     38.54% (+2.67%p)
14B (Phi-4):         50.3%  (+11.76%p, +30% 향상)
42B (Phi-3.5 MoE):   47.43% (-2.87%p, MoE 효율 문제)

주요 발견:

8B는 한국어 약함 - 40% 미만
14B부터 실용 수준 - 50% 돌파
70B 데이터 없음 - 추정 60~65%

카테고리별 성능 (Llama 3.1 8B)

강점 분야

카테고리	점수	이유
Information Technology	63.78%	영어 용어 많음
Computer Science	65.7%	코드/알고리즘은 언어 무관
Chemistry	39.67%	화학식은 범용

약점 분야

카테고리	점수	이유
Korean History	26%	🔴 최악 - 한국 특화 지식 부족
Math	26.33%	한국어 수학 문제 이해 실패
Criminal Law	40.5%	법률 용어 + 한국 법체계
Taxation	33.5%	세법 전문 용어

중간 분야

카테고리	점수	이유
Management	47.9%	일반 경영 지식
Psychology	32.8%	번역 품질 의존
Economics	43.85%	경제 용어는 영어 혼용

📊 Phi-4 (14B)와 비교

Phi-4는 Microsoft의 최신 다국어 모델로, 한국어 지원이 강화됨.

카테고리별 개선폭

카테고리	Llama 8B	Phi-4 14B	개선폭
Computer Science	65.7%	84.8%	+19.1%p
Information Technology	63.78%	81.2%	+17.42%p
Math	26.33%	28.67%	+2.34%p (여전히 낮음)
Korean History	26%	41%	+15%p
Criminal Law	40.5%	46.5%	+6%p
Chemistry	39.67%	64.33%	+24.66%p

결론:

기술 분야: 14B가 압도적 (+17~24%p)
한국어 특화: 개선되지만 여전히 약함 (+6~15%p)
Math: 모델 크기와 무관하게 낮음

🇰🇷 한국어 특화 모델: SOLAR vs Qwen

SOLAR 10.7B (업스테이지)

특징:

한국 스타트업 업스테이지 개발
DUS (Depth Up-Scaling) 방식
한국어 데이터로 추가 학습

성능 (추정):

KMMLU: 55~60% (공식 데이터 없음)
한국어 특화 카테고리 강점 예상

장점:

Mistral 7B 기반, 높은 범용 성능
한국어 토크나이저 최적화
H6 벤치마크 1위 (2024년 당시)

단점:

KMMLU 공식 벤치마크 없음
커뮤니티 검증 부족

Qwen2.5 7B (Alibaba)

특징:

29개 언어 지원 (한국어 포함)
128K 컨텍스트 윈도우
KMMLU 공식 지원

성능 (공식 발표):

KMMLU: 60~65% (추정, Qwen 블로그 기준)
다국어 균형 (영어: 70%, 한국어: 60%)

장점:

한국어 + 중국어 + 영어 균형
긴 컨텍스트 (128K)
활발한 커뮤니티

단점:

8B보다 약간 작음 (7B)
중국 모델 (일부 지역 규제)

💰 비용 vs 품질 트레이드오프

시나리오: MAU 10만, 월 500만 메시지

구성	모델	KMMLU	GPU	월 비용	메시지당
최저 비용	Llama 3.1 8B 4bit	38.54%	RTX 4090 × 1	$320	$0.000064
균형형	SOLAR 10.7B 4bit	~58%	RTX 4090 × 1	$320	$0.000064
고품질	Qwen2.5 7B 4bit	~62%	RTX 4090 × 1	$320	$0.000064
최고 품질	Llama 3.1 70B 4bit	~65%	A100 × 4	$2,400	$0.00048

주의:

70B는 추정치 (공식 데이터 없음)
품질 차이 = 사용자 이탈률에 직결
비용은 인프라만, 파인튜닝 비용 제외

🎯 실전 추천

1. MVP / 프로토타입 단계

추천: Llama 3.1 8B (4bit)

이유:

비용 최소 ($320/월)
빠른 실험 가능
영어 + 코드 중심 챗봇이면 충분

적합한 경우:

기술 문서 Q&A
코딩 도우미
영어 위주 서비스

부적합한 경우:

한국 역사/문화 챗봇
법률/세무 상담
수학 문제 풀이

2. 한국어 중심 서비스

추천: SOLAR 10.7B 또는 Qwen2.5 7B

이유:

한국어 성능 +20%p
비용 동일 ($320/월)
한국어 토크나이저 최적화

선택 기준:

SOLAR: 한국어 단일 언어, 국내 서비스
Qwen: 다국어 지원, 긴 컨텍스트

3. 고품질 필수 서비스

추천: Llama 3.1 70B + 파인튜닝

이유:

KMMLU ~65% (GPT-4o 수준)
도메인 특화 파인튜닝 가능
사용자 이탈률 최소화

비용:

인프라: $2,400/월
파인튜닝: $500~1,000 (1회)

적합한 경우:

유료 구독 서비스 (ARPU > $10)
고객 상담 챗봇 (이탈 비용 > 인프라 비용)
의료/법률 등 전문 분야

4. 예산 넉넉한 경우

추천: GPT-4o-mini API

이유:

KMMLU 52.63% (Phi-4 14B 수준)
인프라 관리 불필요
확장 용이

비용:

월 500만 토큰: $975
Llama 70B 대비 저렴

단점:

사용량 증가 시 비용 폭증
API 의존성 (vendor lock-in)

⚠️ 주의사항

1. 벤치마크 ≠ 실전 성능

KMMLU 한계:

객관식 문제 (5지선다)
짧은 답변만 평가
대화 품질, 문맥 이해는 미평가

실전 테스트 필요:

실제 사용자 시나리오로 A/B 테스트
대화 이탈률, 만족도 조사
긴 맥락 이해력 검증

2. 양자화 품질 손실

4bit 양자화:

KMMLU 점수 -3~5%p 하락 (일반적)
Math 같은 추론 태스크는 더 큰 손실

권장:

프로토타입: 4bit
프로덕션: 8bit (메모리 2배, 품질 +2~3%p)

3. 한국어 토크나이저

Llama 3.1의 한계:

한글 1글자 = 2~3 토큰
GPT-4o: 한글 1글자 = 1~1.5 토큰

영향:

컨텍스트 윈도우 실질 50% 감소
추론 속도 느림

SOLAR/Qwen 장점:

한글 최적화 토크나이저
같은 파라미터 대비 +10~15% 효율

🔬 후속 연구 필요 영역

이 글에서 다루지 못한 것들:

Llama 3.1 70B 실제 벤치마크
- 공식 KMMLU 데이터 없음
- 추정치만 존재
파인튜닝 효과
- 8B + 한국어 파인튜닝 vs 70B vanilla
- LoRA 효율성
대화 품질 평가
- KMMLU는 객관식만
- LMSys Arena 같은 주관식 평가 필요
모더레이션 성능
- 한국어 욕설/부적절 발언 필터링
- 모델 크기와 무관한 영역

🎯 결론

핵심 요약

8B는 한국어 약함 (KMMLU 38.54%)
- 영어/코드 중심이면 가능
- 한국어 중심 서비스는 부적합
14B부터 실용 수준 (KMMLU 50%+)
- 비용 대비 효율 최고
- 한국어 특화 모델 (SOLAR, Qwen) 우선 고려
70B는 고품질 필수 시에만
- 비용 7~8배 (vs 8B)
- 성능 +25%p (38% → 65%)
- ROI 계산 필수
벤치마크 ≠ 실전
- 반드시 실사용 테스트
- 도메인 특화 파인튜닝 고려

📚 참고 자료

벤치마크 데이터

모델

추론 서버

작성일: 2026-02-25
데이터 기준: 2024-2025년 공개 벤치마크

◀ 📋 [검토] Zeta급 AI 챗봇 Elixir + sLLM 구축안 — 가능성과 리스크 분석 AI 챗봇 모더레이션 아키텍처: 실전 가이드 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

[active] 8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

💡 왜 모델 크기가 중요한가

📊 KMMLU: 한국어 LLM 평가 표준

KMMLU란?

평가 방식

🔍 실제 벤치마크 결과

오픈소스 모델 비교 (0-shot)

참고: 클로즈드 모델

📈 모델 크기별 성능 분석

전체 점수 추이

카테고리별 성능 (Llama 3.1 8B)

강점 분야

약점 분야

중간 분야

📊 Phi-4 (14B)와 비교

카테고리별 개선폭

🇰🇷 한국어 특화 모델: SOLAR vs Qwen

SOLAR 10.7B (업스테이지)

Qwen2.5 7B (Alibaba)

💰 비용 vs 품질 트레이드오프

시나리오: MAU 10만, 월 500만 메시지

🎯 실전 추천

1. MVP / 프로토타입 단계

2. 한국어 중심 서비스

3. 고품질 필수 서비스

4. 예산 넉넉한 경우

⚠️ 주의사항

1. 벤치마크 ≠ 실전 성능

2. 양자화 품질 손실

3. 한국어 토크나이저

🔬 후속 연구 필요 영역

🎯 결론

핵심 요약

추천 의사결정 트리

📚 참고 자료

벤치마크 데이터

모델

추론 서버

실시간 채팅

공유하기

[active] 8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

8B vs 14B vs 70B: 한국어 LLM 벤치마크 실전 비교

💡 왜 모델 크기가 중요한가

📊 KMMLU: 한국어 LLM 평가 표준

KMMLU란?

평가 방식

🔍 실제 벤치마크 결과

오픈소스 모델 비교 (0-shot)

참고: 클로즈드 모델

📈 모델 크기별 성능 분석

전체 점수 추이

카테고리별 성능 (Llama 3.1 8B)

강점 분야

약점 분야

중간 분야

📊 Phi-4 (14B)와 비교

카테고리별 개선폭

🇰🇷 한국어 특화 모델: SOLAR vs Qwen

SOLAR 10.7B (업스테이지)

Qwen2.5 7B (Alibaba)

💰 비용 vs 품질 트레이드오프

시나리오: MAU 10만, 월 500만 메시지

🎯 실전 추천

1. MVP / 프로토타입 단계

2. 한국어 중심 서비스

3. 고품질 필수 서비스

4. 예산 넉넉한 경우

⚠️ 주의사항

1. 벤치마크 ≠ 실전 성능

2. 양자화 품질 손실

3. 한국어 토크나이저

🔬 후속 연구 필요 영역

🎯 결론

핵심 요약

추천 의사결정 트리

📚 참고 자료

벤치마크 데이터

모델

추론 서버

실시간 채팅

쿠키 및 개인정보 처리 안내