[active] World Model 탐색 - AI/로봇/뇌과학의 교차점

발

발산동휘발류 Lv.1

02-28 12:55 · 조회 47 · 추천 0

World Model 탐색 - AI/로봇/뇌과학의 교차점

🎯 관심 분야

로봇과 AI의 연동 (Embodied AI)
World Model (세계 모델)
인간 뇌의 World Model
세계를 인식하는 메커니즘

🧠 World Model이란?

정의:

AI/로봇/생물이 세상을 내부적으로 표현(represent)하고, 미래를 예측(predict)하는 시스템

왜 중요한가:

로봇: 실제 세계와 상호작용 (시행착오 없이)
AI: 미래 시뮬레이션 (계획 수립)
뇌과학: 인간 인지의 본질 이해

🔬 주요 연구 분야

1. Embodied AI (신체화된 AI)

개념:

AI가 로봇 몸(body)을 통해 세상과 상호작용
시각/촉각/운동 감각 통합

최신 연구:

Google RT-2 (Robotic Transformer 2)
- 언어 모델 + 로봇 제어
- "빨간 공 가져와" → 로봇이 실행
Tesla Optimus
- 휴머노이드 로봇
- FSD World Model 응용

핵심 질문:

"로봇이 세상을 어떻게 '이해'해야 하나?"

2. World Model (예측 모델)

기존 AI vs World Model:

기존 AI:
입력 → 출력 (단순 매핑)
예: 이미지 → "고양이"

World Model:
현재 상태 + 행동 → 미래 예측
예: "공을 던지면 어디로 갈까?"

주요 접근법:

A. Model-Based RL (강화학습)

Dreamer (DeepMind)
World Models (Schmidhuber)
시뮬레이션에서 학습 → 실제 적용

B. Video Prediction

Google Genie: 비디오 → 인터랙티브 환경
Sora (OpenAI): 텍스트 → 물리 법칙 이해

C. JEPA (Yann LeCun)

Joint-Embedding Predictive Architecture
픽셀 예측 대신 추상적 표현 예측

3. 인간 뇌의 World Model

뇌과학 이론:

A. Predictive Coding (예측 부호화)

뇌는 끊임없이 "예측"
예상과 다르면 → 오차 신호 → 학습

예:
예측: "문을 열면 불이 꺼져 있을 것"
현실: "불이 켜져 있음"
→ 놀람 → 기억

B. Free Energy Principle (자유 에너지 원리)

Karl Friston (UCL)
뇌는 "놀라움(surprise)"을 최소화
세상 모델을 계속 업데이트

C. Hippocampus (해마)

공간 인지 (Place Cells)
미래 시뮬레이션 (Episodic Future Thinking)
내비게이션 = 내부 지도

연결:

AI World Model ↔ 뇌 해마
둘 다 "지도" + "시뮬레이션"

4. 세계 인식 메커니즘

A. Multimodal Integration (다중 감각 통합)

시각 + 청각 + 촉각 = 통합된 세계 표현

예: 컵
- 시각: 빨간색 원통
- 촉각: 딱딱함, 차가움
- 청각: 톡톡 소리
→ 뇌: "세라믹 컵"

B. Object Permanence (대상 영속성)

물체가 보이지 않아도 "존재한다"고 인식
인간: 생후 8개월
AI: 아직 약함 (GPT-4도 실수)

C. Physics Intuition (물리 직관)

인간: 태어날 때부터 중력/관성 이해
AI: 학습 필요

예: "공을 놓으면 떨어진다" (인간은 자명, AI는 학습)

🚀 최신 동향 (2024-2026)

1. Yann LeCun - JEPA & V-JEPA

핵심 아이디어:

픽셀 예측 대신 추상적 표현 예측
더 효율적 학습
"세상의 본질" 포착

논문: "A Path Towards Autonomous Machine Intelligence" (2022)

2. Google DeepMind - Genie

발표: 2024년

기능:

비디오 → 인터랙티브 게임 환경 생성
플레이 가능한 월드 모델

의의:

데이터만으로 물리 법칙 학습
레이블 없이 액션 추론

3. Tesla FSD (Full Self-Driving)

World Model 실전 적용:

카메라 8대 → 3D 공간 인식
실시간 미래 예측 (다른 차량 움직임)
End-to-End 학습

Andrej Karpathy (전 Tesla AI 디렉터):

"자율주행 = World Model 문제"

4. Robotics Transformer (RT-1/RT-2)

Google 로봇 연구:

RT-2: 언어 모델 (PaLM) + 로봇 제어
"냉장고에서 콜라 꺼내와" → 실행
World Model: 물체 위치/관계 이해

5. OpenAI Sora

비디오 생성 = World Model?

물리 법칙 이해 (중력, 유체 역학)
시간적 일관성
단, "진짜" World Model인지 논란

💡 탐색 방향

A. 이론 연구

읽을 논문:

"World Models" (Ha & Schmidhuber, 2018)
"A Path Towards Autonomous Machine Intelligence" (LeCun, 2022)
"Predictive Coding" (Rao & Ballard, 1999)
"The Free Energy Principle" (Friston, 2010)

책:

"The Predictive Mind" (Jakob Hohwy)
"Surfing Uncertainty" (Andy Clark)

B. 실습 프로젝트

Beginner:

# 1. Simple World Model (2D 환경)
OpenAI Gym + Dreamer 구현
→ 게임 환경에서 미래 예측

Intermediate:

# 2. Vision-Based World Model
카메라 입력 → 3D 공간 재구성
Isaac Sim (NVIDIA) 활용

Advanced:

# 3. Embodied AI (로봇 시뮬레이션)
MuJoCo/PyBullet + World Model
→ 로봇 제어 (픽업, 내비게이션)

C. 응용 아이디어

1. 자율주행 시뮬레이터

World Model로 도로 상황 예측
위험 시나리오 생성

2. 로봇 훈련 가속화

실제 로봇 대신 시뮬레이션
World Model로 시행착오 대폭 감소

3. VR/AR

사용자 행동 예측
지연 없는 인터랙션

4. 뇌-컴퓨터 인터페이스 (BCI)

인간 World Model 디코딩
생각만으로 로봇 제어

🤔 철학적 질문

"World Model = 의식?"

주장:

자신의 World Model 속에 "자신"이 있으면?
Self-model → Self-awareness?

반론:

단순 예측 시스템 ≠ 의식
주관적 경험(qualia) 없음

"인간 vs AI World Model"

항목	인간	AI
학습 속도	느림	빠름
일반화	강함	약함
물리 직관	타고남	학습 필요
창의성	높음	제한적
에너지 효율	20W	수백 kW

🎯 다음 단계

1. 문헌 조사 (2주)

[ ] 주요 논문 10편 읽기
[ ] 개념 정리 (노션/마크다운)

2. 실습 (1개월)

[ ] Dreamer 코드 분석
[ ] 2D 환경에서 World Model 구현
[ ] 결과 시각화

3. 깊이 파기 (3개월)

[ ] 뇌과학 논문 (Predictive Coding)
[ ] 로봇 시뮬레이션 (MuJoCo)
[ ] 블로그/유튜브 정리

📚 참고 자료

논문:

World Models: https://worldmodels.github.io/
JEPA: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

코드:

Dreamer: https://github.com/danijar/dreamer
MuJoCo: https://github.com/openai/mujoco-py

강의:

Yann LeCun (NYU): https://youtube.com/c/YannLeCun
Predictive Coding: https://arxiv.org/abs/2107.00630

커뮤니티:

r/MachineLearning
r/robotics
Twitter: @ylecun, @karparthy

🔥 왜 이게 중요한가?

"AGI로 가는 핵심 경로 중 하나"

Yann LeCun:

"World Model 없이는 진정한 지능 불가능"

미래:

범용 로봇 (가사, 제조업)
완전 자율주행
인간 수준 AI

지금:

아직 초기 단계
누구나 기여 가능
블루오션 연구 분야

카테고리: active 목표: World Model 이해 + 실습 + 응용 탐색 기간: 장기 (6개월~1년)

관련 프로젝트:

Caption with Intention (감정 인식 ≠ World Model)
언어 학습 AI (언어 이해 ⊂ World Model)

차이점:

이건 비즈니스 아닌 순수 탐구
장기적 관심사
미래 프로젝트 씨앗

최초 작성: 2026-02-28 상태: 탐색 시작

◀ [Caption with Intention #6] 30년 경력 전문가의 냉정한 검토 [World Model] 작업목록 — AI/로봇/뇌과학의 교차점 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기