[ 트렌드] [World Model 개념 정리 #2] World Model 접근법 비교 — Model-Based RL vs Video Generation vs JEPA

관리자 Lv.1
03-01 23:09 · 조회 19 · 추천 0

World Model 접근법 비교 — 세 갈래의 길

개념정리 시리즈 #2 — 10편의 논문에서 등장한 World Model 접근법을 3가지 축으로 정리합니다.


왜 비교가 필요한가?

"World Model"이라는 단어는 여러 분야에서 쓰이지만, 실제로는 서로 다른 세 가지 접근법이 존재합니다.

Model-Based RL Video Generation Joint-Embedding (JEPA)
대표 모델 Dreamer v1/v2/v3 Sora, Genie V-JEPA, I-JEPA
핵심 아이디어 상상 속에서 행동을 연습 영상을 생성하며 물리 법칙 학습 표현 공간에서 미래 예측
비유 체스 고수의 수읽기 영화감독의 시나리오 상상 요약본으로 핵심만 예측

접근법 1: Model-Based RL (Dreamer 계열)

핵심 구조

  • RSSM (Recurrent State-Space Model)
    • h = 확정적 상태 (deterministic) — "확실히 아는 것"
    • z = 확률적 상태 (stochastic) — "불확실한 것"
  • 환경과 상호작용 → 모델 학습 → 꿈속에서 연습 → 정책 개선

강점

  • 적은 데이터로 학습 가능 (sample efficient)
  • 실제 환경 없이 정책 학습 가능
  • Dreamer v3: 150개 이상의 환경에서 단일 알고리즘으로 작동

약점

  • 모델 오차가 누적되면 "환각"에 빠짐
  • 매우 복잡한 환경에서는 모델 정확도 한계
  • 장기 예측이 어려움

접근법 2: Video Generation (Sora, Genie)

핵심 구조

  • Sora: Spacetime Patches + Diffusion Transformer (DiT)
    • 영상을 시공간 패치로 분해 → 노이즈 제거로 생성
  • Genie: Latent Action Model
    • 라벨 없는 영상에서 액션을 자동 추출

강점

  • 풍부한 시각적 이해 (텍스처, 조명, 반사)
  • 대규모 인터넷 영상 데이터 활용 가능
  • 직관적인 "시뮬레이터" 느낌

약점

  • 물리 법칙을 진정으로 이해하지 못함 (통계적 패턴)
  • 긴 영상에서 일관성 붕괴 (~1분 한계)
  • 대상 영속성 부재 (가려지면 사라짐)
  • 엄청난 계산 비용

LeCun의 비판

"생성 모델은 픽셀 공간의 모든 디테일을 예측해야 하므로 본질적으로 비효율적이다."


접근법 3: Joint-Embedding (JEPA)

핵심 구조

  • 핵심 원리: 픽셀이 아닌 표현 공간에서 예측
  • Target Encoder → Context Encoder → Predictor
  • 불필요한 디테일은 버리고 "의미"만 예측

강점

  • 학습 효율 1.5~6배 향상 (vs VideoMAE)
  • 라벨 없이 자기지도학습 가능
  • 의미론적 이해에 집중 (노이즈 무시)

약점

  • 아직 행동/제어와 연결 미완성
  • Collapse 문제 (모든 입력이 같은 표현으로 수렴)
  • 대규모 실증이 부족

왜 LeCun이 JEPA를 밀까?

  • 뇌도 "모든 픽셀"을 예측하지 않음
  • 추상적 표현 공간에서의 예측이 더 효율적
  • 인간의 직관적 물리 이해와 유사

종합 비교: 9가지 능력 평가

능력 Model-Based RL Video Gen JEPA
물리 이해 ★★★☆☆ ★★☆☆☆ ★★★★☆
행동 생성 ★★★★★ ★★☆☆☆ ★★☆☆☆
시각적 풍부함 ★★☆☆☆ ★★★★★ ★★☆☆☆
학습 효율 ★★★★☆ ★★☆☆☆ ★★★★★
장기 예측 ★★★☆☆ ★★☆☆☆ ★★★★☆
일반화 ★★★☆☆ ★★★★☆ ★★★★☆
실시간 제어 ★★★★★ ★☆☆☆☆ ★★★☆☆
에너지 효율 ★★★☆☆ ★☆☆☆☆ ★★★★☆
뇌 유사성 ★★★☆☆ ★★☆☆☆ ★★★★★

뇌와의 대응 관계

AI 접근법 뇌 메커니즘 설명
Model-Based RL 해마 + 기저핵 에피소드 기억으로 미래 시뮬레이션 + 보상 기반 학습
Video Generation 시각 피질 V1→IT 계층적 시각 처리와 패턴 생성
JEPA Predictive Coding 피질의 하향식 예측 + 상향식 오류 교정

흥미로운 점: 뇌는 이 세 가지를 동시에 사용합니다. AI도 결국 통합이 필요할 것입니다.


미래 전망: 통합의 길

현재의 세 접근법은 각각 장단점이 뚜렷합니다.

가장 유력한 미래 시나리오:

  • JEPA의 효율적 표현 학습 + Dreamer의 행동 생성 + Video Model의 풍부한 시각 이해
  • 이것이 바로 LeCun이 제안한 자율 기계 지능(AMI) 아키텍처의 핵심

핵심 메시지: World Model은 하나의 기술이 아니라, 세계를 이해하려는 세 가지 다른 전략입니다. 어느 하나가 정답이 아니라, 이들의 통합이 진정한 세계 이해로 가는 길입니다.


📊 상세 비교표(XLSX)는 별도 파일로 제공됩니다. 다음 편: 뇌의 World Model — Predictive Coding, Free Energy Principle, 해마의 역할 통합 정리

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!