[ 트렌드] [World Model 시리즈 #14] V-JEPA — LeCun의 이론이 현실이 되다

관

관리자 Lv.1

03-01 15:20 · 조회 51 · 추천 0

V-JEPA — LeCun의 이론이 현실이 되다

논문: V-JEPA (Meta AI, 2024) → V-JEPA 2 (Meta AI, 2025)

시리즈 #8에서 배운 LeCun의 JEPA 이론이 실제로 작동하는 시스템으로 만들어졌습니다.

한 줄 요약

비디오의 일부를 가리고, "표현 공간"에서 가려진 부분을 예측하게 학습시킨다. 픽셀은 건드리지 않는다.

1. 이론에서 구현으로

시리즈를 되짚어 보면:

JEPA 이론 (LeCun, 2022)
  "픽셀이 아닌 표현 공간에서 예측해야 한다"
  "불필요한 디테일은 버려야 한다"
  → 논문 속 아이디어

V-JEPA (Meta AI, 2024)
  "좋아, 비디오로 실제로 해보자"
  → 12억 개 파라미터, 100만 시간 비디오로 학습
  → 실제로 작동함!

2. V-JEPA의 작동 원리

Step 1: 비디오를 잘게 자른다

비디오 = 연속된 프레임들

┌───┬───┬───┬───┐
│ 1 │ 2 │ 3 │ 4 │ ... (프레임들)
└───┴───┴───┴───┘
        ↓
    3D 패치로 분할 ("튜브릿 Tubelet")
    = 2프레임 × 16픽셀 × 16픽셀 단위
    
┌──┬──┬──┬──┐
│🟦│🟦│🟦│🟦│  시간 1-2
├──┼──┼──┼──┤
│🟦│🟦│🟦│🟦│  시간 3-4
└──┴──┴──┴──┘
  각 칸 = 하나의 "튜브릿" (시공간 패치)

운전 비유: 블랙박스 영상을 작은 시공간 조각들로 나누는 것. 각 조각은 "왼쪽 위에서 0.1초 동안 일어난 것"처럼 됩니다.

Step 2: 일부를 가린다 (마스킹)

┌──┬──┬──┬──┐
│🟦│██│🟦│██│  ██ = 가려진 부분 (마스크)
├──┼──┼──┼──┤
│██│🟦│██│🟦│  🟦 = 보이는 부분
└──┴──┴──┴──┘

공간적으로도, 시간적으로도 가립니다. 즉 "이 영역의 미래 2초"를 가리기도 하고, "현재 프레임의 오른쪽 절반"을 가리기도 합니다.

운전 비유: 블랙박스 영상에서 앞유리 오른쪽 부분을 가려놓고 "거기에 뭐가 있었을까?"를 맞추게 하는 것.

Step 3: 인코더가 보이는 부분을 표현으로 변환

보이는 부분 🟦🟦🟦🟦
     │
     ▼
┌──────────────┐
│   인코더      │  Vision Transformer (ViT)
│  (Encoder)    │  
└──────┬───────┘
       ▼
  [표현 벡터들]  ← 픽셀이 아닌 "의미"를 담은 벡터

Step 4: 예측기가 가려진 부분의 "표현"을 예측

[보이는 부분의 표현] + [어디가 가려졌는지 정보]
     │
     ▼
┌──────────────┐
│   예측기      │
│ (Predictor)   │
└──────┬───────┘
       ▼
  [가려진 부분의 표현 예측]  ← 픽셀이 아니라 "표현"을 예측!

Step 5: 예측과 실제를 비교 (표현 공간에서)

[예측된 표현] vs [실제 표현 (타겟 인코더가 생성)]

  오차 = ||예측 표현 - 실제 표현||²
  
  → 이 오차를 줄이는 방향으로 학습!

핵심: 픽셀을 예측하지 않는다! 가려진 부분이 "빛의 반사가 어떤 각도로..."같은 디테일이 아니라 "자동차가 오른쪽으로 이동하고 있다"같은 의미 수준으로 예측합니다.

3. 왜 픽셀을 예측하지 않는 게 중요한가?

생성 모델 (VideoMAE, Sora 등) vs V-JEPA

[생성 모델 — 픽셀 예측]
가려진 부분을 복원: "이 픽셀은 RGB(142, 87, 203)..."
                    "저 픽셀은 RGB(143, 88, 201)..."

문제 1: 구름의 정확한 모양을 예측해야 함 → 불가능에 가까움
문제 2: 나뭇잎의 미세한 떨림을 예측해야 함 → 에너지 낭비
문제 3: 예측 불가능한 디테일에 집착 → 진짜 중요한 것을 놓침

[V-JEPA — 표현 예측]
가려진 부분의 의미를 예측: "자동차가 오른쪽으로 이동 중"

장점 1: 구름 모양? 상관없음 → 중요한 것만 학습
장점 2: 나뭇잎 떨림? 무시 → 에너지 절약
장점 3: "무엇이 일어나고 있는가"에 집중 → 진짜 이해

시리즈 #12에서 배운 것을 기억하세요. 이세돌이 바둑판의 모든 픽셀을 기억하나요? 아닙니다. "흑이 이 방향으로 세력을 형성하고 있다"는 표현 수준에서 이해합니다. V-JEPA도 같은 원리입니다.

실제 성능 차이:

모델	방식	학습 효율
VideoMAE	픽셀 예측	기준선
V-JEPA	표현 예측	1.5~6배 효율적

같은 성능을 내는 데 V-JEPA가 데이터와 연산을 1.5~6배 적게 씁니다. Predictive Coding에서 배운 "뇌의 효율성"에 한 걸음 다가간 겁니다.

4. 뇌과학 이론과의 연결

시리즈에서 배운 모든 이론이 V-JEPA 안에 들어있습니다:

Predictive Coding (시리즈 #10-11)
→ V-JEPA의 예측기 = 상위 영역이 하위 영역에 보내는 예측
→ 오차 = 예측 오류
→ 학습 = 오류 최소화

선택적 주의 (시리즈 #9)
→ 마스킹 = 일부에만 주의를 기울이는 것
→ 표현 예측 = 디테일 무시, 의미만 추출

피질 계층 (시리즈 #9)
→ ViT의 여러 층 = V1→V2→V4→IT 계층
→ 아래층: 가장자리, 텍스처
→ 위층: 물체, 행동, 사건

Free Energy Principle (시리즈 #13)
→ 학습 목표 = 에너지(오차) 최소화
→ 표현 공간 예측 = 자유 에너지의 변분 근사

5. V-JEPA 2 — 한 걸음 더

2025년에 발표된 V-JEPA 2는 더 발전했습니다:

V-JEPA (2024):  비디오를 "이해"
V-JEPA 2 (2025): 비디오를 이해 + "미래를 예측" + "행동을 계획"

V-JEPA 2의 핵심 발전:

1. 100만 시간의 비디오로 학습

인터넷의 자연 비디오로 자기지도 학습
사람이 라벨을 붙이지 않아도 스스로 세상의 물리를 학습

2. 물리적 직관 이해

물체가 떨어지면 어디로 갈지 예측
물체를 밀면 어떻게 움직일지 이해
인간 수준에 가까운 물리적 추론 능력

3. 로봇 계획에 활용

비디오로 배운 세상 모델을 로봇에 적용
처음 보는 물체도 어떻게 다뤄야 하는지 계획
이것이 바로 World Model의 실제 응용!

6. 전체 구조 한눈에

[입력: 비디오]
     │
     ▼ 3D 패치로 분할 (튜브릿)
     │
     ├──→ [보이는 패치] ──→ [인코더] ──→ [표현]
     │                                    │
     │                                    ▼
     │                              [예측기] ──→ [예측된 표현]
     │                                              │
     └──→ [가린 패치] ──→ [타겟 인코더] ──→ [실제 표현]
                                              │
                                              ▼
                                    오차 = ||예측 - 실제||²
                                              │
                                              ▼
                                         학습 (오차 줄이기)

이것이 V-JEPA입니다. LeCun의 JEPA 이론이 실제 시스템으로 구현된 것.

7. 우리 여정에서의 위치

이론의 뿌리:
  Predictive Coding (1999) → Free Energy (2010)
      ↓
AI 아키텍처 이론:
  World Models (2018) → Dreamer (2020) → JEPA 이론 (2022)
      ↓
실제 구현:
  V-JEPA (2024) → V-JEPA 2 (2025) ← 지금 여기!
      ↓
다음 방향:
  Google Genie (2024) — 비디오 생성형 World Model
  Sora (OpenAI) — 영상 생성의 World Model적 접근

이론에서 시작해서 드디어 실제 작동하는 시스템까지 왔습니다!

다음 글에서는 같은 시기에 등장한 또 다른 접근, Google Genie (2024) 를 다룹니다. V-JEPA가 "이해"에 집중한다면, Genie는 "생성"에 집중합니다. 같은 World Model이지만 다른 철학입니다.

◀ [World Model 시리즈 #13] Free Energy Principle — 뇌과학의 통일 이론 [World Model 시리즈 #15] Google Genie — 상상을 세계로 만들다 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기