[ 트렌드] [World Model 시리즈 #15] Google Genie — 상상을 세계로 만들다
Google Genie — 상상을 세계로 만들다
Genie 1 (2024) → Genie 2 (2024.12) → Genie 3 (2025.08)
V-JEPA가 비디오를 "이해"하는 World Model이라면, Genie는 세계를 "생성"하는 World Model입니다.
한 줄 요약
텍스트나 이미지 하나를 넣으면, 그 안에서 돌아다닐 수 있는 인터랙티브 세계가 생성된다.
1. V-JEPA와 Genie — 같은 뿌리, 다른 방향
World Model이란?
"세상이 어떻게 작동하는지 이해하는 내부 모델"
두 가지 접근:
V-JEPA (Meta): 세상을 이해한다 (Understanding)
"이 비디오에서 무슨 일이 일어나고 있지?"
→ 표현 공간에서 예측
→ 픽셀 생성 안 함
Genie (Google): 세상을 생성한다 (Generation)
"이 그림 속 세계에서 걸어다녀 보자"
→ 실제 픽셀을 생성
→ 인터랙티브한 환경 만듦
운전 비유:
V-JEPA = 블랙박스 영상을 보고 "무슨 상황인지 이해"하는 AI
Genie = "드라이빙 시뮬레이터 세계 자체"를 만들어내는 AI
2. Genie의 진화 — 1에서 3까지
Genie 1 (2024년 초)
입력: 스케치, 사진, 게임 이미지 하나
출력: 2D 플랫포머 게임 같은 인터랙티브 환경
특징:
- 인터넷의 수십만 시간 게임 영상으로 학습
- 사람이 "이 방향키를 누르면 이렇게 된다"고 가르치지 않았는데
스스로 "행동"과 "결과"의 관계를 학습!
- 11B 파라미터
혁명적인 점: 누구도 "왼쪽 버튼을 누르면 캐릭터가 왼쪽으로 간다"고 알려주지 않았습니다. 영상만 보고 알아냈어요!
Genie 2 (2024년 12월)
입력: 텍스트 프롬프트 또는 이미지
출력: 3D로 된 인터랙티브 세계
비약적 발전:
- 2D → 3D로 점프
- 물리 법칙을 어느 정도 시뮬레이션
- 물체가 떨어지면 바닥에 부딪힘
- 문을 밀면 열림
Genie 3 (2025년 8월)
입력: "중세 성 안 마당" 같은 텍스트
출력: 실시간으로 돌아다닐 수 있는 720p 세계!
혁명:
- 24fps 실시간 인터랙션 (처음!)
- 수 분간 일관된 세계 유지
- 1분 전의 변화까지 기억
(문을 열어놓고 다른 곳 갔다 오면 여전히 열려있음)
- 물리 시뮬레이션 향상
2026년 1월부터 Google AI Ultra 구독자에게 Project Genie로 공개되었습니다.
3. Genie의 핵심 구조
세 가지 핵심 모듈
[모듈 1: 비디오 토크나이저 (Video Tokenizer)]
영상의 각 프레임을 "토큰"으로 압축
(V-JEPA의 인코더와 비슷한 역할)
│
▼
[모듈 2: 잠재 행동 모델 (Latent Action Model)]
"행동"을 자동으로 발견!
영상에서 "무엇이 변했는가"를 분석해서
→ "왼쪽 이동", "점프", "잡기" 같은 행동을 스스로 찾아냄
│
▼
[모듈 3: 동역학 모델 (Dynamics Model)]
"이 상태에서 이 행동을 하면 → 다음 프레임은 이것"
→ 실제로 다음 장면을 생성 (픽셀 단위!)
4. 잠재 행동 모델 — 왜 혁명적인가?
이 부분이 가장 놀랍습니다.
[기존 강화학습]
사람이 정의: "행동 = {위, 아래, 왼쪽, 오른쪽, 점프, 잡기}"
→ 미리 정의된 행동만 가능
[Genie의 잠재 행동 모델]
영상만 봄: "프레임 1에서 프레임 2로 갈 때 뭐가 변했지?"
→ "아, 캐릭터가 오른쪽으로 움직였네"
→ 이걸 '행동 3번'이라고 부르자
→ 사람이 가르치지 않아도 행동을 자동으로 발견!
시리즈 #13 Free Energy Principle의 Active Inference를 기억하세요:
Free Energy: "내가 있어야 할 상태"와 현재의 차이를 줄이는 행동
Genie: "프레임 사이의 차이"에서 행동을 역으로 추론
둘 다 "행동"을 보상이 아닌 "상태 변화"로 이해합니다!
5. V-JEPA vs Genie — 철학의 차이
| 항목 | V-JEPA (Meta) | Genie (Google) |
|---|---|---|
| 목표 | 세상을 이해 | 세상을 생성 |
| 예측 공간 | 표현 공간 (추상적) | 픽셀 공간 (구체적) |
| 출력 | 표현 벡터 | 실제 이미지/비디오 |
| 장점 | 효율적, 의미 중심 | 눈으로 볼 수 있음, 인터랙티브 |
| 약점 | 생성 불가 | 계산 비용 큼 |
| 뇌 비유 | 해마 (기억/이해) | 전두엽 (상상/시뮬레이션) |
| LeCun의 견해 | ✅ "이게 올바른 방향" | ❌ "픽셀 예측은 비효율적" |
LeCun은 Genie 같은 생성형 접근을 비판합니다. "구름의 정확한 모양까지 예측하는 건 낭비"라고요. 하지만 Google은 "사용자가 실제로 걸어다닐 수 있는 세계가 필요하다"고 봅니다.
둘 다 맞는 부분이 있습니다:
이해 (V-JEPA) + 생성 (Genie)
"무슨 일이 일어나는지 안다" "실제로 보여줄 수 있다"
↓ ↓
로봇 제어 시뮬레이션/게임
자율주행 판단 가상 환경 훈련
비디오 분석 콘텐츠 생성
미래의 World Model은 아마 둘 다 할 수 있어야 합니다.
6. 뇌과학과의 연결
Genie의 동역학 모델
= Predictive Coding의 하향 예측 (시리즈 #10)
"이 행동을 하면 다음은 이럴 거야"
Genie의 잠재 행동 발견
= Free Energy의 Active Inference (시리즈 #13)
"상태 변화에서 행동을 역추론"
Genie의 일관된 세계 유지
= 해마의 인지 지도 (Cognitive Map)
"내가 어디에 있고, 뭘 바꿨는지 기억"
사실 우리 뇌도 매일 밤 이걸 합니다 — 꿈. 꿈은 뇌가 만들어낸 "인터랙티브 세계"입니다. 물리 법칙이 좀 이상하고, 일관성이 완벽하지 않지만, Genie와 놀라울 정도로 비슷하죠.
꿈: 뇌가 생성한 인터랙티브 세계 (물리 좀 이상함)
Genie: AI가 생성한 인터랙티브 세계 (물리 좀 이상함)
7. 지금까지의 World Model 지도
이해 (Understanding) 생성 (Generation)
────────────────── ──────────────────
이론: Predictive Coding ◄─────► Free Energy Principle
│ │
아키텍처: JEPA ─────────────────────── World Models
│ │
구현: V-JEPA (Meta) Genie (Google) ← 여기!
│ │
└──────── 미래의 통합? ────────┘
이해 + 생성 = 진짜 World Model
다음 글에서는 World Model이 로봇의 몸을 얻은 사례, RT-2 (Robotic Transformer 2) 를 다룹니다. 세상을 이해하고 생성하는 것을 넘어, 실제로 행동하는 World Model입니다.