[ 트렌드] [World Model 시리즈 #6] Dreamer v1~v3 — World Models의 h를 어떻게 고쳤는가

관리자 Lv.1
03-01 07:51 · 조회 17 · 추천 0

Dreamer v1~v3 — World Models의 h를 어떻게 고쳤는가

World Model 시리즈 여섯 번째 글입니다. 지난 글에서 "h 하나로 세상을 표현할 수 있을까?"라는 질문을 던졌습니다. Dreamer 시리즈는 그 질문에 대한 직접적인 답입니다.


World Models → Dreamer, 핵심 변화

한마디로 말하면:

World Models: 메모지 1장 (h)에 전부 적음
Dreamer:      메모지를 2장으로 나눔 (h + z)

이걸 RSSM (Recurrent State-Space Model)이라고 부릅니다.


RSSM — h를 둘로 쪼개다

World Models의 상태:
  h = [모든 것이 섞인 256개 숫자]

Dreamer의 상태:
  h = 확실한 것 (deterministic state)
      "커브를 지났다, 속도가 80이다"
  
  z = 불확실한 것 (stochastic state)  
      "다음에 비가 올 수도, 안 올 수도"

운전으로 비유하면:

h (확실한 기억):
  "지금 고속도로 2차선이고, 3분 전에 IC를 지났다"
  → 확실한 사실

z (불확실한 예측):
  "앞차가 차선 변경할 수도(40%), 안 할 수도(60%)"
  → 불확실한 가능성

World Models는 이 두 종류의 정보를 하나에 섞었는데, Dreamer는 명확히 분리한 겁니다.


두 번째 변화: Controller를 업그레이드

World Models: C = 선형 모델 + CMA-ES (진화 전략)
Dreamer:      C = Actor-Critic (신경망 + gradient 학습)

World Models의 C는 곱셈 한 번이었습니다. Dreamer에서는 C도 신경망으로 바꾸고, 꿈 속 시뮬레이션에서 gradient를 직접 흘려서 학습합니다.


세 번째 변화: 꿈 학습 방식 개선

World Models: 꿈에서 CMA-ES로 탐색 (느림)
Dreamer:      꿈에서 직접 미분 (빠름)

Dreamer는 M이 만든 꿈 속에서 Actor(행동 선택)Critic(가치 평가)을 gradient로 직접 학습합니다.


V1 → V2 → V3 진화 과정

Dreamer V1 (2020): 기초 확립

  • RSSM + Actor-Critic + 연속 행동 지원
  • z: 연속 가우시안 분포
  • 성과: 연속 제어 과제에서 뛰어난 성능
  • 한계: 이산적 행동(게임 버튼) 처리 어려움

Dreamer V2 (2021): 이산 세계 정복

  • 핵심 변화: z를 연속에서 이산 카테고리컬로 교체
  • z: 32개 카테고리 변수 x 각 32개 값 = 1024가지 조합
  • 성과: Atari 게임 55개에서 인간 수준 달성
  • "몬스터가 쏜다/안 쏜다" 같은 이산 사건 표현 가능

Dreamer V3 (2023): 범용 AI 에이전트

  • 핵심 변화: 안정화 트릭 모음 (symlog, 리턴 정규화, free bits)
  • 150개 이상 다양한 과제에서 단일 설정으로 작동
  • 마인크래프트에서 다이아몬드 채굴 성공!

마인크래프트 다이아몬드 — 왜 대단한가

마인크래프트에서 다이아몬드를 캐려면:

나무 캐기 → 작업대 → 나무 곡괭이 → 돌 캐기 → 
돌 곡괭이 → 철 캐기 → 용광로 → 철 곡괭이 → 
깊이 파기 → 다이아몬드 발견 → 채굴

수백~수천 스텝, 거의 보상 없음, 3D 오픈월드에서 픽셀만 보고 해내야 합니다. DreamerV3 이전에는 어떤 AI도 이걸 해내지 못했습니다.


World Models vs Dreamer 비교

항목 World Models (2018) Dreamer V3 (2023)
상태 표현 h 하나 (LSTM) h + z 분리 (RSSM)
z 타입 연속 (VAE) 이산 카테고리컬
Controller 선형 모델 Actor-Critic 신경망
학습 방법 CMA-ES (진화) Gradient (미분)
환경 규모 2D 게임 2개 150+ 다양한 과제
최고 성과 CarRacing 906점 마인크래프트 다이아몬드
하이퍼파라미터 과제별 조정 단일 설정 범용

뇌과학 연결

RSSM의 h (확정적)  <->  뇌의 의미 기억 (사실, 지식)
RSSM의 z (확률적)  <->  뇌의 에피소드 기억 (경험, 불확실성)
Actor-Critic       <->  기저핵의 보상 학습 시스템
Dream 학습         <->  해마의 수면 중 경험 재생

남은 한계

  1. 여전히 순차적 — 과거 전체를 한 번에 참조하지 못함
  2. 언어 이해 없음 — 텍스트 목표를 줄 수 없음
  3. 실세계 전이 미검증 — 시뮬레이션에서만 검증
  4. 단일 에이전트 — 협력/경쟁 상황 미지원

이 한계들이 JEPA, Sora, Genie로 이어집니다.


참고 링크

다음 글에서는 LeCun의 JEPA를 다룹니다. Dreamer가 같은 틀에서 부품을 개선했다면, JEPA는 "애초에 이미지를 복원할 필요가 있었나?"라고 질문을 던집니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!