[ 트렌드] [World Model 시리즈 #18] RT-2 — AI가 세계를 이해하고, 드디어 '행동'한다

관리자 Lv.1
03-01 22:02 · 조회 15 · 추천 0

지금까지의 여정을 돌아보면

우리는 World Models(세계를 상상하기) → Dreamer(꿈속에서 연습하기) → JEPA(이해 중심 학습) → Predictive Coding/Free Energy(뇌의 예측 메커니즘) → V-JEPA(비디오 이해) → Genie(세계 생성)까지 왔습니다.

하지만 이 모든 건 "이해"와 "상상"의 영역이었습니다. 이제 마지막 퍼즐 — "행동"으로 넘어갑니다.

RT-2 (Robotic Transformer 2)는 AI가 세상을 보고, 언어를 이해하고, 실제로 팔을 뻗어 물건을 집는 최초의 통합 모델입니다.


RT-2란 무엇인가?

RT-2는 Google DeepMind가 2023년에 발표한 Vision-Language-Action(VLA) 모델입니다.

핵심 아이디어를 한 문장으로: "인터넷에서 배운 지식을 로봇의 행동으로 번역한다."

[기존 AI의 한계]

ChatGPT:  세상을 "안다" → 하지만 물건을 못 집는다
Genie:    세상을 "만든다" → 하지만 가상 세계일 뿐이다
V-JEPA:   영상을 "이해한다" → 하지만 행동으로 연결 안 된다

[RT-2의 돌파]

RT-2:     세상을 보고 + 말을 이해하고 + 실제로 행동한다

RT-2의 작동 원리

핵심: 로봇 행동을 "언어"로 표현한다

RT-2의 가장 혁신적인 아이디어는 로봇의 행동을 텍스트 토큰으로 변환한 것입니다.

[기존 방식]
언어 모델: "사과를 집어" → 텍스트 출력: "네, 사과를 집겠습니다"
로봇 제어: 별도의 모터 제어 시스템 필요

[RT-2 방식]
입력: 카메라 이미지 + "사과를 집어"
출력: [1, 128, 91, 241, 5, 101, 127, 1]  ← 이것이 로봇 행동!
      (x이동, y이동, z이동, 회전x, 회전y, 회전z, 그리퍼, 종료)

각 행동은 256개 구간(bin)으로 양자화됩니다. 마치 "앞으로 3cm"를 "128번 토큰"으로, "그리퍼 닫기"를 "1번 토큰"으로 표현하는 것입니다.

비유: 외국에서 택시를 탈 때 말이 안 통하면 지도 위에 숫자로 "위도 37.5, 경도 127.0"이라고 쓰면 됩니다. RT-2도 마찬가지 — 로봇 행동을 숫자(토큰)로 쓰면, 언어 모델이 바로 이해할 수 있습니다.


아키텍처: 거인의 어깨 위에 서다

RT-2는 처음부터 만든 게 아닙니다. 이미 훈련된 거대 비전-언어 모델을 가져와서 로봇 데이터로 추가 훈련했습니다.

[RT-2의 두 가지 버전]

버전 1: PaLI-X 기반 (55B 파라미터)
  - Google의 이미지-텍스트 이해 모델
  - 이미지를 보고 질문에 답하는 능력

버전 2: PaLM-E 기반 (12B 파라미터)  
  - Google의 멀티모달 언어 모델
  - 이미 로봇 데이터를 일부 학습한 상태

공통: 웹 데이터(이미지+텍스트) + 로봇 데이터(행동)를 함께 학습

비유: 영어를 10년 배운 사람(PaLI-X)에게 운전을 가르치는 것과 같습니다. 이미 세상을 이해하는 능력이 있으니, 행동만 추가로 배우면 됩니다. 처음부터 "세상 이해"와 "운전"을 동시에 가르치는 것보다 훨씬 효율적입니다.


RT-2의 놀라운 능력들

1. 처음 보는 물건도 조작할 수 있다

RT-2는 로봇 훈련 데이터에 없었던 물건도 다룰 수 있습니다.

  • 로봇 훈련에서 "고무 오리"를 본 적 없지만 → 인터넷에서 본 적 있으니 → "노란 오리를 집어"라고 하면 집을 수 있음
  • RT-1 성공률 32% → RT-2 성공률 62% (새로운 물건에 대해 거의 2배)

2. 추상적 명령을 이해한다

"테이블에서 떨어지려는 가방을 집어"
→ 어떤 가방이 가장자리에 있는지 판단
→ 그 가방을 집는 행동 실행

"2 + 1 위치에 바나나를 놓아"
→ 2+1=3을 계산
→ 숫자 3이 적힌 위치를 찾음
→ 바나나를 거기에 놓음

이런 명령은 로봇 훈련 데이터에 단 한 번도 없었습니다. 인터넷에서 배운 "수학 지식"과 "공간 이해"를 로봇 행동에 적용한 것입니다.

3. Chain-of-Thought 추론 (생각의 사슬)

RT-2에 "먼저 계획을 세워"라고 하면, 행동 전에 이유를 설명합니다:

명령: "피곤한 사람에게 줄 음료를 집어"

RT-2의 사고 과정:
  Plan: "피곤한 사람에게는 에너지 드링크가 좋다"
  Action: [에너지 드링크를 집는 동작 토큰]

명령: "임시 망치로 쓸 수 있는 것을 집어"

RT-2의 사고 과정:
  Plan: "돌이 단단하고 무거워서 망치 대용으로 적합하다"
  Action: [돌을 집는 동작 토큰]

이것은 로봇이 상식 추론을 한다는 뜻입니다. "에너지 드링크는 피곤할 때 마신다"는 인터넷에서 배운 지식이고, 이걸 로봇 행동으로 연결한 겁니다.


RT-1 → RT-2: 무엇이 달라졌나?

RT-1 (2022) RT-2 (2023)
기반 처음부터 로봇 데이터로만 학습 웹 지식 + 로봇 데이터 결합
세계 지식 로봇이 본 것만 안다 인터넷의 지식을 활용
새로운 물건 32% 성공률 62% 성공률 (2배)
추상적 명령 못 함 "2+1 위치에 놓아" 가능
추론 불가 Chain-of-Thought 추론 가능
모델 크기 35M 파라미터 55B 파라미터 (1,500배)

비유: RT-1이 "운전면허 딴 초보 운전자"라면, RT-2는 "20년 운전 경력에 세계 여행까지 한 베테랑 운전자"입니다. 처음 가는 길에서도 경험으로 대처할 수 있습니다.


RT-2와 World Model의 연결

RT-2가 World Model 시리즈에서 중요한 이유:

[World Model의 3가지 요소]

1. 이해(Understanding): 세상이 어떻게 작동하는지 안다
   → JEPA, V-JEPA, Predictive Coding

2. 상상(Imagination): 행동의 결과를 미리 예측한다
   → World Models, Dreamer, Genie

3. 행동(Action): 실제로 세상에 개입한다
   → RT-2 ← 바로 여기!

RT-2는 World Model의 "출력 단자"입니다. 아무리 세상을 잘 이해하고 상상해도, 행동으로 옮기지 못하면 의미가 없습니다.

인간의 뇌도 마찬가지입니다:

  • 전두엽이 계획을 세우고 (World Model)
  • 운동피질이 실행 명령을 내리고 (Action Model)
  • 소뇌가 정밀하게 조정합니다 (Fine Control)

RT-2는 이 중 운동피질 + 소뇌에 해당하는 역할을 합니다.


RT-2의 한계

물론 아직 완벽하지 않습니다:

  1. 느리다: 55B 모델이라 실시간 반응이 어렵다 (1-3Hz, 초당 1-3번 행동)
  2. 한 팔만: 단일 로봇 팔 + 그리퍼만 지원 (양손 작업 불가)
  3. 단순 환경: 주로 테이블 위 물건 조작 (복잡한 환경은 미검증)
  4. 물리 이해 부족: Genie와 마찬가지로 물리 법칙을 "진짜" 이해하진 못함
  5. 데이터 의존: 13대 로봇, 17개월 수집 데이터에 의존

앞으로의 방향: 꿈의 로봇을 향해

RT-2 이후의 발전 방향:

RT-2 (현재)
  ↓
+ Genie의 세계 생성 → 무한한 시뮬레이션 환경에서 훈련
  ↓
+ V-JEPA의 이해력 → 더 깊은 물리 법칙 이해
  ↓
+ Hippocampus(해마) → 경험을 장기 기억으로 축적
  ↓
= 진짜 "세계를 이해하고 행동하는 AI"

지금까지 배운 모든 것들이 결국 하나의 시스템으로 합쳐져야 합니다. RT-2는 그 합류 지점의 핵심 조각입니다.


다음 시리즈에서는 Sora(OpenAI)를 다룹니다 — 영상 생성의 관점에서 World Model에 접근하는 또 다른 경로.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!