[ 트렌드] [World Model 개념 정리 #1] Embodied AI — 신체를 가진 인공지능
관
관리자
Lv.1
03-01 22:59
·
조회 16
·
추천 0
핵심 질문: AI가 세상을 진짜 이해하려면 신체가 있어야 하는가?
이 글은 World Model 시리즈 1단계 개념 정리 문서입니다. 시리즈 #1~#20의 내용을 주제별로 가로질러 통합 정리합니다.
Embodied Cognition(신체화된 인지)이란?
"지능은 뇌에만 있는 게 아니라, 신체와 환경의 상호작용에서 나온다"
| 전통적 AI 관점 | Embodied AI 관점 | |
|---|---|---|
| 지능의 위치 | 뇌(CPU)만 있으면 충분 | 뇌 + 몸 + 환경 = 지능 |
| 처리 방식 | 입력 → 처리 → 출력 | 감각 → 행동 → 피드백 루프 |
| 신체의 역할 | 단순한 도구 | 인지를 형성하는 핵심 |
| 학습 환경 | 시뮬레이션으로 대체 가능 | 실제 물리 경험이 필수 |
Embodied AI의 진화 타임라인
| 연도 | 모델 | 핵심 |
|---|---|---|
| 2016 | AlphaGo | 바둑에서 이세돌 승리. 하지만 팔이 없다 |
| 2022 | RT-1 | 로봇 데이터만으로 물건 조작 학습 |
| 2023 | RT-2 | 웹 지식 → 로봇 행동 변환. 상식 추론 가능 |
| 2024 | Tesla Optimus | 범용 휴머노이드. 공장 작업 시작 |
| 2025 | Figure 02 + GPT | 대화하면서 행동하는 멀티모달 로봇 |
RT-2의 핵심 혁신: 행동을 언어로 표현
RT-2의 가장 혁신적인 아이디어는 로봇의 행동을 텍스트 토큰으로 변환한 것입니다.
입력: 카메라 이미지 + "사과를 집어"
↓ Vision-Language Model (55B 파라미터)
출력: [1, 128, 91, 241, 5, 101, 127, 1] ← 로봇 행동 토큰!
↓
실제 로봇 팔이 사과를 집음
성과:
- 새로운 물건 성공률: 32% → 62% (거의 2배)
- 추상적 명령 이해: "2+1 위치에 놓아" → 계산 후 실행
- Chain-of-Thought 추론: "피곤한 사람에게 줄 음료" → 에너지 드링크 선택
주요 휴머노이드 로봇 비교
| 로봇 | 상태 | 접근법 | 강점 |
|---|---|---|---|
| Tesla Optimus | 생산 시작 | 엔드투엔드 신경망, FSD 활용 | 대량생산, $20K~30K 목표 |
| Figure 02 | GPT 연동 | OpenAI 협력, 대화+행동 통합 | 자연어 소통, 멀티모달 |
| Boston Dynamics Atlas | 전기형 전환 | 유압→전기, 다이나믹 이동 | 최고 기동성, 파쿠르 |
| 1X NEO | 가정용 목표 | 안전 우선, 소프트 액추에이터 | 가정 환경 특화 |
Embodied AI vs Disembodied AI
| 비교 항목 | Disembodied AI (ChatGPT, Sora 등) | Embodied AI (RT-2, Optimus 등) |
|---|---|---|
| 물리 이해 | 패턴 기반 추측 | 직접 경험으로 학습 |
| 인과 추론 | 상관관계만 파악 | 행동→결과로 인과 학습 |
| 일반화 | 학습 데이터 범위 내 | 새로운 환경에 적응 가능 |
| 세계 모델 | 통계적 세계 모델 | 물리적 세계 모델 (Grounded) |
| 에너지 효율 | 대규모 GPU 필요 | 현장 추론 → 경량화 압박 |
| 실용성 | 정보 처리, 콘텐츠 생성 | 물류, 제조, 가사, 탐사 |
World Model에서의 위치
[World Model의 3가지 축]
이해(Understanding) 상상(Imagination) 행동(Action)
├── JEPA ├── Dreamer ├── RT-2
├── V-JEPA ├── Genie ├── Tesla Optimus
└── Predictive Coding └── Sora └── Figure 02
↑
Embodied AI가
담당하는 영역
Embodied AI는 World Model의 "출력 단자"입니다. 이해하고 상상하는 것만으로는 부족합니다. 실제로 세상에 개입하여 결과를 확인하고, 그 피드백으로 세계 모델을 수정하는 것 — 이것이 진짜 지능의 완성입니다.
결론
- Embodied AI는 "신체가 있어야 진짜 지능"이라는 가설에서 출발
- RT-2가 증명: 웹 지식 + 로봇 경험 = 상식적 행동 가능
- Tesla Optimus, Figure 등 휴머노이드가 산업 현장에 진입 중
- 궁극적 목표: 이해(뇌) + 상상(꿈) + 행동(몸) + 기억(해마)
프레젠테이션(PPTX) 버전도 별도 제작되었습니다.
◀
[World Model 시리즈 #20] 해마(Hippocampus) — World Model의 마지막 퍼즐
[World Model 개념 정리 #2] World Model 접근법 비교 — Model-Based RL vs Video Generation vs JEPA
▶
💬 0
로그인 후 댓글 작성
첫 댓글을 남겨보세요!