[ 트렌드] [World Model 시리즈 #5] h 하나로 세상을 표현할 수 있을까? — World Models의 핵심 약점

관리자 Lv.1
03-01 07:46 · 조회 16 · 추천 0

h 하나로 세상을 표현할 수 있을까? — World Models의 핵심 약점

World Model 시리즈 다섯 번째 글입니다. M 모듈의 은닉 상태 h가 가진 구조적 한계와 후속 연구들의 해결 방향을 다룹니다.


질문: h 하나로 충분한가?

World Models(2018)에서 M(Memory)은 은닉 상태 h를 출력합니다. 이 h는 256개의 숫자로, 에이전트가 지금까지 본 것과 한 것이 누적된 "머릿속 상태"입니다.

그런데 여기서 의문이 생깁니다.

자동차 운전의 모든 정보가 256개 숫자 하나로 표현이 가능할까?

솔직하게 말하면, 부족합니다.


왜 부족한가

운전 중에 여러분의 머릿속에는 성격이 다른 정보들이 동시에 존재합니다.

지금 이 순간:  "앞에 빨간 신호등이다"
최근 기억:     "30초 전에 차선 변경했다"
오래된 기억:   "이 도로는 5km 뒤에 톨게이트가 있다"
일반 지식:     "비 오면 제동거리가 길어진다"

그런데 h는 이걸 256개 숫자 하나에 전부 우겨넣습니다. 마치 운전 경험 전체를 메모지 한 장에 적는 것과 같습니다.


구체적인 문제 3가지

문제 1: 장기 기억의 소실

h₁ → h₂ → h₃ → ... → h₁₀₀₀

h₁₀₀₀에 h₁의 정보가 남아있을까?
→ 거의 없습니다. 덮어씌워졌어요.

새 정보를 넣으려면 오래된 정보가 밀려납니다. 운전에서 "30분 전에 봤던 도로 표지판"이 중요할 수 있는데, h는 그걸 이미 잊어버린 겁니다. 이것이 LSTM의 고질적 문제인 장기 의존성 소실입니다.

문제 2: 정보 종류의 구분 불가

인간의 뇌는 정보를 분리해서 저장합니다.

인간의 뇌:
  해마 → "어디서 뭘 봤는지" (에피소드 기억)
  소뇌 → "핸들 돌리는 감각" (절차 기억)
  편도체 → "위험한 느낌" (감정 기억)
  전두엽 → "목적지까지의 계획" (작업 기억)

World Models의 h:
  h = [0.3, -0.7, 0.1, ...] ← 256개 숫자에 전부 섞여있음

h 안에서 "이건 기억이고 이건 예측이야"라는 구분이 없습니다. 전부 뒤죽박죽 섞여있습니다.

문제 3: 고정된 크기

세상이 복잡해지면 기억할 게 많아지는데, h의 크기는 항상 256으로 고정입니다.

단순한 환경 (CarRacing): 256개면 충분할 수도 있음
복잡한 환경 (현실 운전): 256개로는 턱없이 부족

후속 연구들의 해결 방향

이 약점을 본 연구자들이 각각 다른 방식으로 해결에 나섰습니다.

Dreamer (2020~2023): h를 둘로 쪼갬

World Models:  h 하나 (전부 섞임)

Dreamer:       h를 분리
               ├── h (결정적 상태) — 확실한 정보
               └── z (확률적 상태) — 불확실한 정보
               = RSSM (Recurrent State Space Model)

메모지를 "확실한 것"과 "불확실한 것" 두 장으로 나눈 것과 같습니다. 이것만으로도 성능이 크게 올랐습니다.

Transformer 기반 (2023~): 메모지 대신 노트북

LSTM의 h:        메모지 1장 (고정 크기, 덮어쓰기)

Transformer:     노트북 전체를 펼쳐놓고
                 아무 페이지나 다시 찾아볼 수 있음
                 (Attention 메커니즘)

Transformer는 과거의 모든 시점을 직접 참조할 수 있습니다. "500스텝 전에 뭐가 있었지?" 하고 되돌아가서 볼 수 있어요. h 하나에 압축할 필요가 없습니다.

LeCun의 JEPA (2022): 아예 관점을 바꿈

LeCun은 한 발 더 나가서, "이미지를 복원하는 것 자체가 낭비"라고 주장합니다. h에 담을 정보 자체를 더 효율적으로 선택하자는 방향입니다.


정리: 발전의 흐름

World Models (2018)
  h 하나에 전부 담음 → 단순한 게임은 OK, 복잡한 환경은 한계
     │
     ▼
Dreamer (2020~2023)
  h를 결정적/확률적으로 분리 → 더 풍부한 상태 표현
     │
     ▼
Transformer 기반 (2023~)
  과거 전체를 직접 참조 → 장기 기억 소실 문제 해결
     │
     ▼
JEPA (LeCun, 2022)
  담을 정보 자체를 더 잘 선택 → 효율적 표현

"h 하나로 세상을 표현할 수 있는가?"라는 질문은 단순한 의문이 아니라, World Model 연구 전체를 이끌어온 핵심 과제입니다. 이 의문에서 Dreamer, Transformer World Model, JEPA가 탄생했습니다.


다음 글에서는 이 의문에 정면으로 답한 LeCun의 "A Path Towards Autonomous Machine Intelligence" (2022) — JEPA 아키텍처를 다룹니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!