[ 트렌드] [World Model 개념 정리 #2] World Model 접근법 비교 — Model-Based RL vs Video Generation vs JEPA

관

관리자 Lv.1

03-01 23:09 · 조회 75 · 추천 0

World Model 접근법 비교 — 세 갈래의 길

개념정리 시리즈 #2 — 10편의 논문에서 등장한 World Model 접근법을 3가지 축으로 정리합니다.

왜 비교가 필요한가?

"World Model"이라는 단어는 여러 분야에서 쓰이지만, 실제로는 서로 다른 세 가지 접근법이 존재합니다.

	Model-Based RL	Video Generation	Joint-Embedding (JEPA)
대표 모델	Dreamer v1/v2/v3	Sora, Genie	V-JEPA, I-JEPA
핵심 아이디어	상상 속에서 행동을 연습	영상을 생성하며 물리 법칙 학습	표현 공간에서 미래 예측
비유	체스 고수의 수읽기	영화감독의 시나리오 상상	요약본으로 핵심만 예측

접근법 1: Model-Based RL (Dreamer 계열)

핵심 구조

RSSM (Recurrent State-Space Model)
- h = 확정적 상태 (deterministic) — "확실히 아는 것"
- z = 확률적 상태 (stochastic) — "불확실한 것"
환경과 상호작용 → 모델 학습 → 꿈속에서 연습 → 정책 개선

강점

적은 데이터로 학습 가능 (sample efficient)
실제 환경 없이 정책 학습 가능
Dreamer v3: 150개 이상의 환경에서 단일 알고리즘으로 작동

약점

모델 오차가 누적되면 "환각"에 빠짐
매우 복잡한 환경에서는 모델 정확도 한계
장기 예측이 어려움

접근법 2: Video Generation (Sora, Genie)

핵심 구조

Sora: Spacetime Patches + Diffusion Transformer (DiT)
- 영상을 시공간 패치로 분해 → 노이즈 제거로 생성
Genie: Latent Action Model
- 라벨 없는 영상에서 액션을 자동 추출

강점

풍부한 시각적 이해 (텍스처, 조명, 반사)
대규모 인터넷 영상 데이터 활용 가능
직관적인 "시뮬레이터" 느낌

약점

물리 법칙을 진정으로 이해하지 못함 (통계적 패턴)
긴 영상에서 일관성 붕괴 (~1분 한계)
대상 영속성 부재 (가려지면 사라짐)
엄청난 계산 비용

LeCun의 비판

"생성 모델은 픽셀 공간의 모든 디테일을 예측해야 하므로 본질적으로 비효율적이다."

접근법 3: Joint-Embedding (JEPA)

핵심 구조

핵심 원리: 픽셀이 아닌 표현 공간에서 예측
Target Encoder → Context Encoder → Predictor
불필요한 디테일은 버리고 "의미"만 예측

강점

학습 효율 1.5~6배 향상 (vs VideoMAE)
라벨 없이 자기지도학습 가능
의미론적 이해에 집중 (노이즈 무시)

약점

아직 행동/제어와 연결 미완성
Collapse 문제 (모든 입력이 같은 표현으로 수렴)
대규모 실증이 부족

왜 LeCun이 JEPA를 밀까?

뇌도 "모든 픽셀"을 예측하지 않음
추상적 표현 공간에서의 예측이 더 효율적
인간의 직관적 물리 이해와 유사

종합 비교: 9가지 능력 평가

능력	Model-Based RL	Video Gen	JEPA
물리 이해	★★★☆☆	★★☆☆☆	★★★★☆
행동 생성	★★★★★	★★☆☆☆	★★☆☆☆
시각적 풍부함	★★☆☆☆	★★★★★	★★☆☆☆
학습 효율	★★★★☆	★★☆☆☆	★★★★★
장기 예측	★★★☆☆	★★☆☆☆	★★★★☆
일반화	★★★☆☆	★★★★☆	★★★★☆
실시간 제어	★★★★★	★☆☆☆☆	★★★☆☆
에너지 효율	★★★☆☆	★☆☆☆☆	★★★★☆
뇌 유사성	★★★☆☆	★★☆☆☆	★★★★★

뇌와의 대응 관계

AI 접근법	뇌 메커니즘	설명
Model-Based RL	해마 + 기저핵	에피소드 기억으로 미래 시뮬레이션 + 보상 기반 학습
Video Generation	시각 피질 V1→IT	계층적 시각 처리와 패턴 생성
JEPA	Predictive Coding	피질의 하향식 예측 + 상향식 오류 교정

흥미로운 점: 뇌는 이 세 가지를 동시에 사용합니다. AI도 결국 통합이 필요할 것입니다.

미래 전망: 통합의 길

현재의 세 접근법은 각각 장단점이 뚜렷합니다.

가장 유력한 미래 시나리오:

JEPA의 효율적 표현 학습 + Dreamer의 행동 생성 + Video Model의 풍부한 시각 이해
이것이 바로 LeCun이 제안한 자율 기계 지능(AMI) 아키텍처의 핵심

핵심 메시지: World Model은 하나의 기술이 아니라, 세계를 이해하려는 세 가지 다른 전략입니다. 어느 하나가 정답이 아니라, 이들의 통합이 진정한 세계 이해로 가는 길입니다.

📊 상세 비교표(XLSX)는 별도 파일로 제공됩니다. 다음 편: 뇌의 World Model — Predictive Coding, Free Energy Principle, 해마의 역할 통합 정리

◀ [World Model 개념 정리 #1] Embodied AI — 신체를 가진 인공지능 [World Model 개념 정리 #3] 뇌의 World Model — Predictive Coding, Free Energy Principle, 해마의 통합 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기

[ 트렌드] [World Model 개념 정리 #2] World Model 접근법 비교 — Model-Based RL vs Video Generation vs JEPA

World Model 접근법 비교 — 세 갈래의 길

왜 비교가 필요한가?

접근법 1: Model-Based RL (Dreamer 계열)

핵심 구조

강점

약점

접근법 2: Video Generation (Sora, Genie)

핵심 구조

강점

약점

LeCun의 비판

접근법 3: Joint-Embedding (JEPA)

핵심 구조

강점

약점

왜 LeCun이 JEPA를 밀까?

종합 비교: 9가지 능력 평가

뇌와의 대응 관계

미래 전망: 통합의 길

실시간 채팅

쿠키 및 개인정보 처리 안내