[ 트렌드] [World Model 시리즈 #5] h 하나로 세상을 표현할 수 있을까? — World Models의 핵심 약점
h 하나로 세상을 표현할 수 있을까? — World Models의 핵심 약점
World Model 시리즈 다섯 번째 글입니다. M 모듈의 은닉 상태 h가 가진 구조적 한계와 후속 연구들의 해결 방향을 다룹니다.
질문: h 하나로 충분한가?
World Models(2018)에서 M(Memory)은 은닉 상태 h를 출력합니다. 이 h는 256개의 숫자로, 에이전트가 지금까지 본 것과 한 것이 누적된 "머릿속 상태"입니다.
그런데 여기서 의문이 생깁니다.
자동차 운전의 모든 정보가 256개 숫자 하나로 표현이 가능할까?
솔직하게 말하면, 부족합니다.
왜 부족한가
운전 중에 여러분의 머릿속에는 성격이 다른 정보들이 동시에 존재합니다.
지금 이 순간: "앞에 빨간 신호등이다"
최근 기억: "30초 전에 차선 변경했다"
오래된 기억: "이 도로는 5km 뒤에 톨게이트가 있다"
일반 지식: "비 오면 제동거리가 길어진다"
그런데 h는 이걸 256개 숫자 하나에 전부 우겨넣습니다. 마치 운전 경험 전체를 메모지 한 장에 적는 것과 같습니다.
구체적인 문제 3가지
문제 1: 장기 기억의 소실
h₁ → h₂ → h₃ → ... → h₁₀₀₀
h₁₀₀₀에 h₁의 정보가 남아있을까?
→ 거의 없습니다. 덮어씌워졌어요.
새 정보를 넣으려면 오래된 정보가 밀려납니다. 운전에서 "30분 전에 봤던 도로 표지판"이 중요할 수 있는데, h는 그걸 이미 잊어버린 겁니다. 이것이 LSTM의 고질적 문제인 장기 의존성 소실입니다.
문제 2: 정보 종류의 구분 불가
인간의 뇌는 정보를 분리해서 저장합니다.
인간의 뇌:
해마 → "어디서 뭘 봤는지" (에피소드 기억)
소뇌 → "핸들 돌리는 감각" (절차 기억)
편도체 → "위험한 느낌" (감정 기억)
전두엽 → "목적지까지의 계획" (작업 기억)
World Models의 h:
h = [0.3, -0.7, 0.1, ...] ← 256개 숫자에 전부 섞여있음
h 안에서 "이건 기억이고 이건 예측이야"라는 구분이 없습니다. 전부 뒤죽박죽 섞여있습니다.
문제 3: 고정된 크기
세상이 복잡해지면 기억할 게 많아지는데, h의 크기는 항상 256으로 고정입니다.
단순한 환경 (CarRacing): 256개면 충분할 수도 있음
복잡한 환경 (현실 운전): 256개로는 턱없이 부족
후속 연구들의 해결 방향
이 약점을 본 연구자들이 각각 다른 방식으로 해결에 나섰습니다.
Dreamer (2020~2023): h를 둘로 쪼갬
World Models: h 하나 (전부 섞임)
Dreamer: h를 분리
├── h (결정적 상태) — 확실한 정보
└── z (확률적 상태) — 불확실한 정보
= RSSM (Recurrent State Space Model)
메모지를 "확실한 것"과 "불확실한 것" 두 장으로 나눈 것과 같습니다. 이것만으로도 성능이 크게 올랐습니다.
Transformer 기반 (2023~): 메모지 대신 노트북
LSTM의 h: 메모지 1장 (고정 크기, 덮어쓰기)
Transformer: 노트북 전체를 펼쳐놓고
아무 페이지나 다시 찾아볼 수 있음
(Attention 메커니즘)
Transformer는 과거의 모든 시점을 직접 참조할 수 있습니다. "500스텝 전에 뭐가 있었지?" 하고 되돌아가서 볼 수 있어요. h 하나에 압축할 필요가 없습니다.
LeCun의 JEPA (2022): 아예 관점을 바꿈
LeCun은 한 발 더 나가서, "이미지를 복원하는 것 자체가 낭비"라고 주장합니다. h에 담을 정보 자체를 더 효율적으로 선택하자는 방향입니다.
정리: 발전의 흐름
World Models (2018)
h 하나에 전부 담음 → 단순한 게임은 OK, 복잡한 환경은 한계
│
▼
Dreamer (2020~2023)
h를 결정적/확률적으로 분리 → 더 풍부한 상태 표현
│
▼
Transformer 기반 (2023~)
과거 전체를 직접 참조 → 장기 기억 소실 문제 해결
│
▼
JEPA (LeCun, 2022)
담을 정보 자체를 더 잘 선택 → 효율적 표현
"h 하나로 세상을 표현할 수 있는가?"라는 질문은 단순한 의문이 아니라, World Model 연구 전체를 이끌어온 핵심 과제입니다. 이 의문에서 Dreamer, Transformer World Model, JEPA가 탄생했습니다.
다음 글에서는 이 의문에 정면으로 답한 LeCun의 "A Path Towards Autonomous Machine Intelligence" (2022) — JEPA 아키텍처를 다룹니다.