[ 트렌드] [World Model 개념 정리 #1] Embodied AI — 신체를 가진 인공지능

관

관리자 Lv.1

03-01 22:59 · 조회 69 · 추천 0

핵심 질문: AI가 세상을 진짜 이해하려면 신체가 있어야 하는가?

이 글은 World Model 시리즈 1단계 개념 정리 문서입니다. 시리즈 #1~#20의 내용을 주제별로 가로질러 통합 정리합니다.

Embodied Cognition(신체화된 인지)이란?

"지능은 뇌에만 있는 게 아니라, 신체와 환경의 상호작용에서 나온다"

	전통적 AI 관점	Embodied AI 관점
지능의 위치	뇌(CPU)만 있으면 충분	뇌 + 몸 + 환경 = 지능
처리 방식	입력 → 처리 → 출력	감각 → 행동 → 피드백 루프
신체의 역할	단순한 도구	인지를 형성하는 핵심
학습 환경	시뮬레이션으로 대체 가능	실제 물리 경험이 필수

Embodied AI의 진화 타임라인

연도	모델	핵심
2016	AlphaGo	바둑에서 이세돌 승리. 하지만 팔이 없다
2022	RT-1	로봇 데이터만으로 물건 조작 학습
2023	RT-2	웹 지식 → 로봇 행동 변환. 상식 추론 가능
2024	Tesla Optimus	범용 휴머노이드. 공장 작업 시작
2025	Figure 02 + GPT	대화하면서 행동하는 멀티모달 로봇

RT-2의 핵심 혁신: 행동을 언어로 표현

RT-2의 가장 혁신적인 아이디어는 로봇의 행동을 텍스트 토큰으로 변환한 것입니다.

입력: 카메라 이미지 + "사과를 집어"
  ↓ Vision-Language Model (55B 파라미터)
출력: [1, 128, 91, 241, 5, 101, 127, 1]  ← 로봇 행동 토큰!
  ↓
실제 로봇 팔이 사과를 집음

성과:

새로운 물건 성공률: 32% → 62% (거의 2배)
추상적 명령 이해: "2+1 위치에 놓아" → 계산 후 실행
Chain-of-Thought 추론: "피곤한 사람에게 줄 음료" → 에너지 드링크 선택

주요 휴머노이드 로봇 비교

로봇	상태	접근법	강점
Tesla Optimus	생산 시작	엔드투엔드 신경망, FSD 활용	대량생산, $20K~30K 목표
Figure 02	GPT 연동	OpenAI 협력, 대화+행동 통합	자연어 소통, 멀티모달
Boston Dynamics Atlas	전기형 전환	유압→전기, 다이나믹 이동	최고 기동성, 파쿠르
1X NEO	가정용 목표	안전 우선, 소프트 액추에이터	가정 환경 특화

Embodied AI vs Disembodied AI

비교 항목	Disembodied AI (ChatGPT, Sora 등)	Embodied AI (RT-2, Optimus 등)
물리 이해	패턴 기반 추측	직접 경험으로 학습
인과 추론	상관관계만 파악	행동→결과로 인과 학습
일반화	학습 데이터 범위 내	새로운 환경에 적응 가능
세계 모델	통계적 세계 모델	물리적 세계 모델 (Grounded)
에너지 효율	대규모 GPU 필요	현장 추론 → 경량화 압박
실용성	정보 처리, 콘텐츠 생성	물류, 제조, 가사, 탐사

World Model에서의 위치

[World Model의 3가지 축]

이해(Understanding)     상상(Imagination)      행동(Action)
├── JEPA               ├── Dreamer            ├── RT-2
├── V-JEPA             ├── Genie              ├── Tesla Optimus
└── Predictive Coding  └── Sora               └── Figure 02
                                                  ↑
                                            Embodied AI가
                                            담당하는 영역

Embodied AI는 World Model의 "출력 단자"입니다. 이해하고 상상하는 것만으로는 부족합니다. 실제로 세상에 개입하여 결과를 확인하고, 그 피드백으로 세계 모델을 수정하는 것 — 이것이 진짜 지능의 완성입니다.

결론

Embodied AI는 "신체가 있어야 진짜 지능"이라는 가설에서 출발
RT-2가 증명: 웹 지식 + 로봇 경험 = 상식적 행동 가능
Tesla Optimus, Figure 등 휴머노이드가 산업 현장에 진입 중
궁극적 목표: 이해(뇌) + 상상(꿈) + 행동(몸) + 기억(해마)

프레젠테이션(PPTX) 버전도 별도 제작되었습니다.

◀ [World Model 시리즈 #20] 해마(Hippocampus) — World Model의 마지막 퍼즐 [World Model 개념 정리 #2] World Model 접근법 비교 — Model-Based RL vs Video Generation vs JEPA ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기