[ 트렌드] [World Model 시리즈 #15] Google Genie — 상상을 세계로 만들다

관리자 Lv.1
03-01 21:33 · 조회 13 · 추천 0

Google Genie — 상상을 세계로 만들다

Genie 1 (2024) → Genie 2 (2024.12) → Genie 3 (2025.08)

V-JEPA가 비디오를 "이해"하는 World Model이라면, Genie는 세계를 "생성"하는 World Model입니다.


한 줄 요약

텍스트나 이미지 하나를 넣으면, 그 안에서 돌아다닐 수 있는 인터랙티브 세계가 생성된다.


1. V-JEPA와 Genie — 같은 뿌리, 다른 방향

World Model이란?
"세상이 어떻게 작동하는지 이해하는 내부 모델"

두 가지 접근:

V-JEPA (Meta):  세상을 이해한다 (Understanding)
                "이 비디오에서 무슨 일이 일어나고 있지?"
                → 표현 공간에서 예측
                → 픽셀 생성 안 함

Genie (Google): 세상을 생성한다 (Generation)
                "이 그림 속 세계에서 걸어다녀 보자"
                → 실제 픽셀을 생성
                → 인터랙티브한 환경 만듦

운전 비유:

V-JEPA = 블랙박스 영상을 보고 "무슨 상황인지 이해"하는 AI
Genie  = "드라이빙 시뮬레이터 세계 자체"를 만들어내는 AI

2. Genie의 진화 — 1에서 3까지

Genie 1 (2024년 초)

입력: 스케치, 사진, 게임 이미지 하나
출력: 2D 플랫포머 게임 같은 인터랙티브 환경

특징:
- 인터넷의 수십만 시간 게임 영상으로 학습
- 사람이 "이 방향키를 누르면 이렇게 된다"고 가르치지 않았는데
  스스로 "행동"과 "결과"의 관계를 학습!
- 11B 파라미터

혁명적인 점: 누구도 "왼쪽 버튼을 누르면 캐릭터가 왼쪽으로 간다"고 알려주지 않았습니다. 영상만 보고 알아냈어요!

Genie 2 (2024년 12월)

입력: 텍스트 프롬프트 또는 이미지
출력: 3D로 된 인터랙티브 세계

비약적 발전:
- 2D → 3D로 점프
- 물리 법칙을 어느 정도 시뮬레이션
- 물체가 떨어지면 바닥에 부딪힘
- 문을 밀면 열림

Genie 3 (2025년 8월)

입력: "중세 성 안 마당" 같은 텍스트
출력: 실시간으로 돌아다닐 수 있는 720p 세계!

혁명:
- 24fps 실시간 인터랙션 (처음!)
- 수 분간 일관된 세계 유지
- 1분 전의 변화까지 기억
  (문을 열어놓고 다른 곳 갔다 오면 여전히 열려있음)
- 물리 시뮬레이션 향상

2026년 1월부터 Google AI Ultra 구독자에게 Project Genie로 공개되었습니다.


3. Genie의 핵심 구조

세 가지 핵심 모듈

[모듈 1: 비디오 토크나이저 (Video Tokenizer)]
영상의 각 프레임을 "토큰"으로 압축
(V-JEPA의 인코더와 비슷한 역할)

     │
     ▼

[모듈 2: 잠재 행동 모델 (Latent Action Model)]
"행동"을 자동으로 발견!
영상에서 "무엇이 변했는가"를 분석해서
→ "왼쪽 이동", "점프", "잡기" 같은 행동을 스스로 찾아냄

     │
     ▼

[모듈 3: 동역학 모델 (Dynamics Model)]
"이 상태에서 이 행동을 하면 → 다음 프레임은 이것"
→ 실제로 다음 장면을 생성 (픽셀 단위!)

4. 잠재 행동 모델 — 왜 혁명적인가?

이 부분이 가장 놀랍습니다.

[기존 강화학습]
사람이 정의: "행동 = {위, 아래, 왼쪽, 오른쪽, 점프, 잡기}"
→ 미리 정의된 행동만 가능

[Genie의 잠재 행동 모델]
영상만 봄: "프레임 1에서 프레임 2로 갈 때 뭐가 변했지?"
→ "아, 캐릭터가 오른쪽으로 움직였네"
→ 이걸 '행동 3번'이라고 부르자
→ 사람이 가르치지 않아도 행동을 자동으로 발견!

시리즈 #13 Free Energy Principle의 Active Inference를 기억하세요:

Free Energy: "내가 있어야 할 상태"와 현재의 차이를 줄이는 행동
Genie:       "프레임 사이의 차이"에서 행동을 역으로 추론

둘 다 "행동"을 보상이 아닌 "상태 변화"로 이해합니다!

5. V-JEPA vs Genie — 철학의 차이

항목 V-JEPA (Meta) Genie (Google)
목표 세상을 이해 세상을 생성
예측 공간 표현 공간 (추상적) 픽셀 공간 (구체적)
출력 표현 벡터 실제 이미지/비디오
장점 효율적, 의미 중심 눈으로 볼 수 있음, 인터랙티브
약점 생성 불가 계산 비용 큼
뇌 비유 해마 (기억/이해) 전두엽 (상상/시뮬레이션)
LeCun의 견해 ✅ "이게 올바른 방향" ❌ "픽셀 예측은 비효율적"

LeCun은 Genie 같은 생성형 접근을 비판합니다. "구름의 정확한 모양까지 예측하는 건 낭비"라고요. 하지만 Google은 "사용자가 실제로 걸어다닐 수 있는 세계가 필요하다"고 봅니다.

둘 다 맞는 부분이 있습니다:

이해 (V-JEPA)          +          생성 (Genie)
"무슨 일이 일어나는지 안다"    "실제로 보여줄 수 있다"
     ↓                              ↓
  로봇 제어                    시뮬레이션/게임
  자율주행 판단                 가상 환경 훈련
  비디오 분석                   콘텐츠 생성

미래의 World Model은 아마 둘 다 할 수 있어야 합니다.


6. 뇌과학과의 연결

Genie의 동역학 모델
= Predictive Coding의 하향 예측 (시리즈 #10)
  "이 행동을 하면 다음은 이럴 거야"

Genie의 잠재 행동 발견
= Free Energy의 Active Inference (시리즈 #13)
  "상태 변화에서 행동을 역추론"

Genie의 일관된 세계 유지
= 해마의 인지 지도 (Cognitive Map)
  "내가 어디에 있고, 뭘 바꿨는지 기억"

사실 우리 뇌도 매일 밤 이걸 합니다 — . 꿈은 뇌가 만들어낸 "인터랙티브 세계"입니다. 물리 법칙이 좀 이상하고, 일관성이 완벽하지 않지만, Genie와 놀라울 정도로 비슷하죠.

꿈:     뇌가 생성한 인터랙티브 세계 (물리 좀 이상함)
Genie:  AI가 생성한 인터랙티브 세계 (물리 좀 이상함)

7. 지금까지의 World Model 지도

         이해 (Understanding)          생성 (Generation)
         ──────────────────          ──────────────────
이론:    Predictive Coding ◄─────► Free Energy Principle
         │                              │
아키텍처: JEPA ─────────────────────── World Models
         │                              │
구현:    V-JEPA (Meta)              Genie (Google) ← 여기!
         │                              │
         └──────── 미래의 통합? ────────┘
                 이해 + 생성 = 진짜 World Model

다음 글에서는 World Model이 로봇의 몸을 얻은 사례, RT-2 (Robotic Transformer 2) 를 다룹니다. 세상을 이해하고 생성하는 것을 넘어, 실제로 행동하는 World Model입니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!