[ 트렌드] [World Model 시리즈 #8] LeCun의 JEPA — 애초에 이미지를 복원할 필요가 있었나?

관리자 Lv.1
03-01 12:04 · 조회 15 · 추천 0

LeCun의 JEPA — 애초에 이미지를 복원할 필요가 있었나?

World Model 시리즈 여덟 번째 글입니다. World Models와 Dreamer가 "같은 틀에서 부품을 개선"했다면, LeCun의 JEPA는 틀 자체를 바꿉니다.


이전까지의 흐름

World Models (2018): 이미지 -> VAE로 압축 -> 복원하며 학습
Dreamer (2020~):     같은 방식이지만 더 정교하게 개선

둘 다 V(VAE)가 이미지를 압축하고 다시 복원하는 과정에서 학습합니다. LeCun은 여기서 근본적인 질문을 던집니다.

"왜 이미지를 다시 복원해야 하지? 그건 낭비 아닌가?"


복원의 문제점

자동차 운전 영상의 다음 프레임을 예측한다고 생각해보세요.

[현재 프레임]                    [다음 프레임 예측]

도로 위 자동차              ->   자동차가 앞으로 (중요!)
나무잎이 흔들림             ->   나무잎이... 어떻게? (몰라도 됨)
구름 모양                  ->   구름이... 어떻게? (몰라도 됨)
아스팔트 질감              ->   질감이... 똑같겠지? (몰라도 됨)

운전에 중요한 정보는 "자동차가 앞으로 갔다" 뿐입니다. 그런데 VAE 같은 생성 모델은 나무잎 한 장 한 장까지 전부 복원해야 합니다.

생성 모델의 에너지 배분:
  자동차 위치 예측:  10%  <-- 진짜 중요한 것
  나무잎 흔들림:     30%  <-- 쓸모없는 디테일
  구름 변화:         20%  <-- 쓸모없는 디테일
  아스팔트 질감:     40%  <-- 쓸모없는 디테일

에너지의 90%를 쓸모없는 디테일에 낭비하고 있는 겁니다.


JEPA의 해결책: "핵심만 예측하자"

JEPA는 이미지를 복원하지 않습니다. 대신 추상화된 표현(representation) 사이에서 예측합니다.

[생성 모델 -- World Models, Dreamer]
  현재 이미지 -> 인코딩 -> z -> 디코딩 -> 다음 이미지 (모든 픽셀)
  나무잎, 구름까지 전부 복원해야 함

[JEPA -- LeCun의 제안]
  현재 이미지 -> 인코더 -> 표현 sx
  다음 이미지 -> 인코더 -> 표현 sy
  
  sx로부터 sy를 예측 (이미지가 아닌 "의미"를 예측)

비유:

생성 모델: 
  "다음 장면을 그림으로 그려봐" (모든 디테일 포함)
  -> 나무잎까지 다 그려야 하니까 힘듦

JEPA:
  "다음 장면을 한 문장으로 요약해봐"
  -> "자동차가 앞으로 갔다" 끝. 나무잎은 신경 안 씀

JEPA의 구조

      현재 (x)              미래 (y)
        |                     |
        v                     v
   [x 인코더]            [y 인코더]
        |                     |
        v                     v
       sx --> [예측기] -->   sy(예측)  <-비교->  sy(실제)

핵심 포인트:

  • 두 개의 인코더가 각각 현재와 미래를 "의미"로 변환
  • 예측기는 sx로부터 sy를 예측
  • y 자체를 복원하는 게 아니라, y의 표현(sy)을 예측

LeCun이 제안한 전체 시스템: 6개 모듈

LeCun은 JEPA를 넘어서 완전한 자율 지능 시스템의 청사진을 그렸습니다.

모듈 역할 비유
인식 세상을 관찰 눈, 귀
World Model 미래를 예측 (JEPA) 상상력
비용/목표 "이게 좋은 상황인가?" 판단 가치관
행동 실제 행동 선택 손, 발
메모리 과거 경험 저장 기억
설정기 주의 집중 조절 집중력

World Models(V-M-C 3개)보다 훨씬 풍부한 구조입니다. 특히 메모리설정기가 추가된 것이 중요합니다. "h 하나로 기억이 부족하다"는 문제를 별도 메모리 모듈이 해결합니다.


계층적 JEPA (H-JEPA)

JEPA를 여러 층으로 쌓자는 제안입니다.

높은 층:  "서울에서 부산까지 간다" (장기 계획, 추상적)
    |
중간 층:  "고속도로에서 IC를 빠져나간다" (중기 계획)
    |
낮은 층:  "핸들을 3도 왼쪽으로" (즉각 행동, 구체적)

낮은 층은 짧은 미래를, 높은 층은 먼 미래를 예측합니다. 인간이 운전할 때 "바로 앞 커브"와 "목적지까지의 경로"를 동시에 생각하는 것과 같습니다.

이건 Dreamer의 한계(한 단계씩만 예측)를 근본적으로 해결하는 방향입니다.


World Models vs Dreamer vs JEPA 비교

항목 World Models Dreamer V3 JEPA
예측 대상 픽셀 복원 픽셀 복원 표현(의미) 예측
낭비 높음 높음 낮음
상태 구조 h 하나 h + z 분리 계층적 표현
미래 예측 한 단계씩 한 단계씩 다중 시간 스케일
메모리 없음 없음 별도 모듈
학습 신호 재구성 오차 재구성 + 보상 표현 간 일치도

뇌과학 연결

JEPA는 뇌과학 이론과 가장 가깝습니다.

JEPA의 원리              <->  뇌과학 이론
표현 공간에서 예측         <->  Predictive Coding (Rao & Ballard)
불필요한 디테일 버림       <->  시각 피질의 선택적 주의
계층적 추상화             <->  피질의 계층 구조 (V1->V2->V4->IT)
에너지 최소화             <->  Free Energy Principle (Friston)

LeCun은 논문에서 Predictive Coding과 Free Energy Principle을 명시적으로 참조합니다.


현재 진행 상황: V-JEPA (2024)

Meta AI는 이 이론을 실제로 구현한 V-JEPA를 2024년에 발표했습니다.

  • 비디오에서 마스킹된 부분의 "표현"을 예측 (픽셀 아님)
  • 라벨 없이 비디오만으로 학습 (자기지도 학습)
  • 행동 인식, 물체 상호작용 이해 등에서 뛰어난 성능

정리: 세 세대의 진화

1세대 - World Models (2018)
  "세상의 축소 모형을 만들자" (픽셀 복원 기반)
     |
2세대 - Dreamer (2020~2023)  
  "모형을 더 정교하게" (RSSM, Actor-Critic)
     |
3세대 - JEPA (2022~)
  "복원 자체가 낭비, 의미만 예측하자" (패러다임 전환)

참고 링크

다음 글에서는 JEPA의 이론적 기반인 Predictive Coding (Rao & Ballard, 1999)을 다룹니다. 뇌가 실제로 "예측 기계"로 작동한다는 이론입니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!