[ 트렌드] [World Model 시리즈 #14] V-JEPA — LeCun의 이론이 현실이 되다
V-JEPA — LeCun의 이론이 현실이 되다
논문: V-JEPA (Meta AI, 2024) → V-JEPA 2 (Meta AI, 2025)
시리즈 #8에서 배운 LeCun의 JEPA 이론이 실제로 작동하는 시스템으로 만들어졌습니다.
한 줄 요약
비디오의 일부를 가리고, "표현 공간"에서 가려진 부분을 예측하게 학습시킨다. 픽셀은 건드리지 않는다.
1. 이론에서 구현으로
시리즈를 되짚어 보면:
JEPA 이론 (LeCun, 2022)
"픽셀이 아닌 표현 공간에서 예측해야 한다"
"불필요한 디테일은 버려야 한다"
→ 논문 속 아이디어
V-JEPA (Meta AI, 2024)
"좋아, 비디오로 실제로 해보자"
→ 12억 개 파라미터, 100만 시간 비디오로 학습
→ 실제로 작동함!
2. V-JEPA의 작동 원리
Step 1: 비디오를 잘게 자른다
비디오 = 연속된 프레임들
┌───┬───┬───┬───┐
│ 1 │ 2 │ 3 │ 4 │ ... (프레임들)
└───┴───┴───┴───┘
↓
3D 패치로 분할 ("튜브릿 Tubelet")
= 2프레임 × 16픽셀 × 16픽셀 단위
┌──┬──┬──┬──┐
│🟦│🟦│🟦│🟦│ 시간 1-2
├──┼──┼──┼──┤
│🟦│🟦│🟦│🟦│ 시간 3-4
└──┴──┴──┴──┘
각 칸 = 하나의 "튜브릿" (시공간 패치)
운전 비유: 블랙박스 영상을 작은 시공간 조각들로 나누는 것. 각 조각은 "왼쪽 위에서 0.1초 동안 일어난 것"처럼 됩니다.
Step 2: 일부를 가린다 (마스킹)
┌──┬──┬──┬──┐
│🟦│██│🟦│██│ ██ = 가려진 부분 (마스크)
├──┼──┼──┼──┤
│██│🟦│██│🟦│ 🟦 = 보이는 부분
└──┴──┴──┴──┘
공간적으로도, 시간적으로도 가립니다. 즉 "이 영역의 미래 2초"를 가리기도 하고, "현재 프레임의 오른쪽 절반"을 가리기도 합니다.
운전 비유: 블랙박스 영상에서 앞유리 오른쪽 부분을 가려놓고 "거기에 뭐가 있었을까?"를 맞추게 하는 것.
Step 3: 인코더가 보이는 부분을 표현으로 변환
보이는 부분 🟦🟦🟦🟦
│
▼
┌──────────────┐
│ 인코더 │ Vision Transformer (ViT)
│ (Encoder) │
└──────┬───────┘
▼
[표현 벡터들] ← 픽셀이 아닌 "의미"를 담은 벡터
Step 4: 예측기가 가려진 부분의 "표현"을 예측
[보이는 부분의 표현] + [어디가 가려졌는지 정보]
│
▼
┌──────────────┐
│ 예측기 │
│ (Predictor) │
└──────┬───────┘
▼
[가려진 부분의 표현 예측] ← 픽셀이 아니라 "표현"을 예측!
Step 5: 예측과 실제를 비교 (표현 공간에서)
[예측된 표현] vs [실제 표현 (타겟 인코더가 생성)]
오차 = ||예측 표현 - 실제 표현||²
→ 이 오차를 줄이는 방향으로 학습!
핵심: 픽셀을 예측하지 않는다! 가려진 부분이 "빛의 반사가 어떤 각도로..."같은 디테일이 아니라 "자동차가 오른쪽으로 이동하고 있다"같은 의미 수준으로 예측합니다.
3. 왜 픽셀을 예측하지 않는 게 중요한가?
생성 모델 (VideoMAE, Sora 등) vs V-JEPA
[생성 모델 — 픽셀 예측]
가려진 부분을 복원: "이 픽셀은 RGB(142, 87, 203)..."
"저 픽셀은 RGB(143, 88, 201)..."
문제 1: 구름의 정확한 모양을 예측해야 함 → 불가능에 가까움
문제 2: 나뭇잎의 미세한 떨림을 예측해야 함 → 에너지 낭비
문제 3: 예측 불가능한 디테일에 집착 → 진짜 중요한 것을 놓침
[V-JEPA — 표현 예측]
가려진 부분의 의미를 예측: "자동차가 오른쪽으로 이동 중"
장점 1: 구름 모양? 상관없음 → 중요한 것만 학습
장점 2: 나뭇잎 떨림? 무시 → 에너지 절약
장점 3: "무엇이 일어나고 있는가"에 집중 → 진짜 이해
시리즈 #12에서 배운 것을 기억하세요. 이세돌이 바둑판의 모든 픽셀을 기억하나요? 아닙니다. "흑이 이 방향으로 세력을 형성하고 있다"는 표현 수준에서 이해합니다. V-JEPA도 같은 원리입니다.
실제 성능 차이:
| 모델 | 방식 | 학습 효율 |
|---|---|---|
| VideoMAE | 픽셀 예측 | 기준선 |
| V-JEPA | 표현 예측 | 1.5~6배 효율적 |
같은 성능을 내는 데 V-JEPA가 데이터와 연산을 1.5~6배 적게 씁니다. Predictive Coding에서 배운 "뇌의 효율성"에 한 걸음 다가간 겁니다.
4. 뇌과학 이론과의 연결
시리즈에서 배운 모든 이론이 V-JEPA 안에 들어있습니다:
Predictive Coding (시리즈 #10-11)
→ V-JEPA의 예측기 = 상위 영역이 하위 영역에 보내는 예측
→ 오차 = 예측 오류
→ 학습 = 오류 최소화
선택적 주의 (시리즈 #9)
→ 마스킹 = 일부에만 주의를 기울이는 것
→ 표현 예측 = 디테일 무시, 의미만 추출
피질 계층 (시리즈 #9)
→ ViT의 여러 층 = V1→V2→V4→IT 계층
→ 아래층: 가장자리, 텍스처
→ 위층: 물체, 행동, 사건
Free Energy Principle (시리즈 #13)
→ 학습 목표 = 에너지(오차) 최소화
→ 표현 공간 예측 = 자유 에너지의 변분 근사
5. V-JEPA 2 — 한 걸음 더
2025년에 발표된 V-JEPA 2는 더 발전했습니다:
V-JEPA (2024): 비디오를 "이해"
V-JEPA 2 (2025): 비디오를 이해 + "미래를 예측" + "행동을 계획"
V-JEPA 2의 핵심 발전:
1. 100만 시간의 비디오로 학습
- 인터넷의 자연 비디오로 자기지도 학습
- 사람이 라벨을 붙이지 않아도 스스로 세상의 물리를 학습
2. 물리적 직관 이해
- 물체가 떨어지면 어디로 갈지 예측
- 물체를 밀면 어떻게 움직일지 이해
- 인간 수준에 가까운 물리적 추론 능력
3. 로봇 계획에 활용
- 비디오로 배운 세상 모델을 로봇에 적용
- 처음 보는 물체도 어떻게 다뤄야 하는지 계획
- 이것이 바로 World Model의 실제 응용!
6. 전체 구조 한눈에
[입력: 비디오]
│
▼ 3D 패치로 분할 (튜브릿)
│
├──→ [보이는 패치] ──→ [인코더] ──→ [표현]
│ │
│ ▼
│ [예측기] ──→ [예측된 표현]
│ │
└──→ [가린 패치] ──→ [타겟 인코더] ──→ [실제 표현]
│
▼
오차 = ||예측 - 실제||²
│
▼
학습 (오차 줄이기)
이것이 V-JEPA입니다. LeCun의 JEPA 이론이 실제 시스템으로 구현된 것.
7. 우리 여정에서의 위치
이론의 뿌리:
Predictive Coding (1999) → Free Energy (2010)
↓
AI 아키텍처 이론:
World Models (2018) → Dreamer (2020) → JEPA 이론 (2022)
↓
실제 구현:
V-JEPA (2024) → V-JEPA 2 (2025) ← 지금 여기!
↓
다음 방향:
Google Genie (2024) — 비디오 생성형 World Model
Sora (OpenAI) — 영상 생성의 World Model적 접근
이론에서 시작해서 드디어 실제 작동하는 시스템까지 왔습니다!
다음 글에서는 같은 시기에 등장한 또 다른 접근, Google Genie (2024) 를 다룹니다. V-JEPA가 "이해"에 집중한다면, Genie는 "생성"에 집중합니다. 같은 World Model이지만 다른 철학입니다.