[ 트렌드] [World Model 시리즈 #2] World Model이 왜 필요했는가 — 역사적 흐름

관리자 Lv.1
03-01 07:26 · 조회 15 · 추천 0

World Model이 왜 필요했는가 — 역사적 흐름

World Model 시리즈 두 번째 글입니다.
논문을 읽기 전에 "왜 이게 나왔는지"를 이해하면 훨씬 수월합니다.


이야기의 시작: 하나의 질문

"AI가 세상을 이해하게 만들려면 어떻게 해야 하지?"

이 단순한 질문에서 World Model 연구가 시작되었습니다.


1세대: 시행착오로 배우기 (1990~2015)

초기 AI(강화학습)는 "일단 해보고 결과를 보고 배우는" 방식이었습니다. 아기가 뜨거운 난로를 직접 만져본 뒤에야 "아, 뜨겁구나" 하고 배우는 것과 같죠.

이걸 Model-Free Reinforcement Learning이라고 합니다. 환경에 대한 모형 없이, 오직 경험(시행착오)만으로 배우는 방식.

대표 성과

  • DQN (2013, DeepMind) — Atari 게임을 인간 수준으로 플레이
  • AlphaGo (2016) — 바둑에서 인간 최고수를 이김

치명적 문제

너무 비효율적입니다.

  • Atari 게임 하나 배우는데 수백만 프레임 필요
  • 로봇에게 컵 잡는 걸 가르치려면 수천 번 떨어뜨려야 함
  • 자율주행차가 사고를 직접 겪으며 배울 수는 없음
  • 현실 세계에서는 로봇이 부서지고, 사람이 다침

샘플 효율성(sample efficiency)이 극도로 낮다는 것이 핵심 문제였습니다.


전환점: 인간의 뇌를 들여다보다

연구자들이 질문을 바꿨습니다.

"인간은 어떻게 그렇게 적은 경험으로도 잘 대처하지?"

답은 뇌과학에 있었습니다.

뇌의 비밀: 내부 시뮬레이터

인간은 처음 보는 상황에서도 꽤 잘 대응합니다. 왜냐하면 머릿속에서 먼저 시뮬레이션하기 때문이에요.

야구공이 날아오면 우리는 공이 날아가는 모든 순간을 다 본 게 아닙니다. 뇌가 "공은 이런 궤적으로 갈 거야"라는 내부 모델을 갖고 있어서, 눈을 감아도 대략 어디로 올지 예측합니다.

이것이 바로 World Model — 세상이 어떻게 돌아가는지에 대한 뇌의 내부 시뮬레이터입니다.

뇌과학의 이론적 뒷받침

Predictive Coding (Rao & Ballard, 1999)

뇌는 세상을 수동적으로 관찰하는 게 아닙니다. 끊임없이 예측하고 → 실제와 비교하고 → 차이(오차)만 업데이트합니다.

뇌의 작동 방식:

예측: "다음에 이럴 거야" 
     ↓
관찰: "실제로는 이랬네"
     ↓
오차: "예측과 이만큼 달랐어"
     ↓
업데이트: "다음엔 이걸 반영해서 예측하자"

즉, 뇌는 예측 기계(prediction machine)입니다.

Free Energy Principle (Friston, 2010)

Karl Friston은 이를 더 확장하여, 뇌의 모든 활동이 "예측 오차(surprise)를 최소화하는 것"으로 설명할 수 있다고 주장했습니다. 생물체는 자신의 내부 모델과 외부 세계의 차이를 줄이려고 끊임없이 노력한다는 것이죠.

해마(Hippocampus)의 역할

잠을 자는 동안 해마는 낮에 겪은 경험을 재생(replay)합니다. 이 과정에서 기억이 정리되고, 새로운 상황에 대한 시뮬레이션도 일어납니다. 이것이 바로 AI의 "Dream 학습"의 생물학적 기반입니다.


2세대: 세상의 모형을 만들자 (2015~2018)

AI 연구자들이 깨달았습니다.

"AI한테도 세상의 축소 모형을 만들어주면, 그 모형 안에서 연습시킬 수 있지 않을까?"

이것이 Model-Based Reinforcement Learning의 핵심 아이디어입니다.

Model-Free vs Model-Based

[Model-Free]  직접 경험 → 행동 학습
              "뜨거운 걸 만져봐야 안다"
              장점: 구현 단순
              단점: 경험이 엄청나게 필요

[Model-Based] 환경 모형 학습 → 모형 안에서 시뮬레이션 → 행동 학습
              "머릿속에서 만져보고 뜨거울 거라고 예측한다"
              장점: 적은 경험으로 학습 가능
              단점: 모형이 부정확하면 잘못 배울 수 있음

Ha & Schmidhuber (2018): 꿈 속의 학습

그리고 2018년, David Ha와 Jürgen Schmidhuber가 이 아이디어를 깔끔하게 구현합니다.

[현실 세계]                    [AI의 머릿속]
                    
자동차 경주 게임    ──복사──→    게임의 축소 모형
                                    │
                                    ▼
                               이 모형 안에서 연습 (Dream)
                                    │
                                    ▼
                               배운 걸 현실에 적용

정말 간단하게 말하면:

"게임의 복사본을 AI 머릿속에 만들고, 그 복사본(꿈) 안에서 연습시킨다."

이것이 가능했던 이유는 3가지 모듈을 분리했기 때문입니다:

  • V(눈) — 세상을 보고 핵심만 기억 (VAE)
  • M(기억+상상) — 다음에 뭐가 일어날까 예측 (MDN-RNN)
  • C(판단) — 그러면 뭘 해야 하지 결정 (선형 정책)

이후 어떻게 발전했는가?

World Models(2018) 이후, 이 아이디어는 폭발적으로 발전했습니다.

타임라인

연도 연구 핵심 발전
2018 World Models V-M-C 구조, Dream 학습 개념 증명
2020 Dreamer v1 RSSM으로 M 개선, 연속 행동 지원
2021 Dreamer v2 이산/연속 행동 통합, 더 복잡한 환경
2022 LeCun JEPA 제안 픽셀 생성 대신 잠재 공간에서 예측
2023 Dreamer v3 마인크래프트 다이아몬드 채굴 성공
2024 V-JEPA (Meta) 비디오 잠재 공간에서 World Model
2024 Sora (OpenAI) 비디오 생성 = World Simulation?
2024 Genie (Google) 단일 이미지 → 플레이 가능한 환경 생성

발전의 핵심 방향

  1. M을 더 강하게 — Dreamer 시리즈 (RSSM, Transformer)
  2. 생성 대신 예측 — JEPA (LeCun), 픽셀 복원 불필요
  3. 비디오를 World Model로 — Sora, 현실 세계의 물리 법칙 학습?
  4. 인터랙티브 환경 생성 — Genie, 이미지 하나로 게임 만들기

왜 지금 World Model이 중요한가?

로봇

로봇이 현실에서 직접 배우는 건 비싸고 위험합니다. World Model이 있으면 시뮬레이션에서 수만 번 연습한 뒤 현실에 전이할 수 있습니다. Tesla의 FSD, RT-2 같은 로봇 AI가 이 방향으로 발전하고 있습니다.

자율주행

도로 위의 모든 상황을 직접 겪을 수 없습니다. World Model로 "이 상황에서 앞 차가 급정거하면?" 같은 시나리오를 무한히 시뮬레이션할 수 있습니다.

AGI를 향한 길

Yann LeCun(Meta AI 수석 과학자)은 현재 LLM의 한계를 지적하며, World Model이 진정한 AI 지능의 핵심이라고 주장합니다. 단순히 텍스트를 예측하는 것이 아니라, 세상이 어떻게 돌아가는지를 이해하는 AI를 만들어야 한다는 것이죠.


정리

시행착오 학습 (너무 비효율적)
     ↓
뇌를 관찰 (예측 기계, 내부 시뮬레이터)
     ↓
World Model 아이디어 탄생
     ↓
Ha & Schmidhuber 2018 — 꿈 속 학습 증명
     ↓
Dreamer, JEPA, Sora, Genie로 폭발적 발전
     ↓
로봇, 자율주행, AGI의 핵심 기술로 부상

다음 글에서는 이 흐름의 다음 주자인 LeCun의 "A Path Towards Autonomous Machine Intelligence" (2022) — JEPA 아키텍처를 다룹니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!