[ 트렌드] [World Model 개념 정리 #4] 세계 인식 메커니즘 — 다중감각 통합, 대상 영속성, 물리 직관

관

관리자 Lv.1

03-01 23:27 · 조회 48 · 추천 0

세계 인식 메커니즘 — 인간이 세계를 "아는" 세 가지 근본 능력

개념정리 시리즈 #4 — 다중감각 통합, 대상 영속성, 물리 직관. 이 세 능력이 없으면 World Model은 불가능합니다.

왜 "인식"이 중요한가?

AI가 세계를 이해하려면, 먼저 세계를 인식할 수 있어야 합니다. 인간은 태어난 후 2년 안에 세 가지 근본적인 인식 능력을 발달시킵니다:

능력	의미	발달 시기	AI 현황
다중감각 통합	5개 채널을 하나의 세계로 통합	출생~6개월	부분적
대상 영속성	보이지 않아도 존재한다	4~18개월	매우 약함
물리 직관	물리 법칙을 "느끼는" 능력	2.5~12개월	매우 약함

1. 다중감각 통합 (Multisensory Integration)

시각, 청각, 촉각, 후각, 미각 — 완전히 다른 5개 채널로 받아들이지만, 우리는 하나의 통합된 세계를 경험합니다.

3가지 핵심 원리

① 시간 원리 — 시각과 청각이 ~150ms 이내에 도착하면 "같은 사건"으로 통합. 영화 더빙이 통하는 이유.

② 공간 원리 — 같은 방향에서 오는 빛과 소리는 하나의 사건으로 묶임. 복화술이 작동하는 원리.

③ 역 효과성 — 단일 감각이 약할 때 다른 감각의 보조 효과가 극대화. 시끄러운 곳에서 입술을 보면 알아듣는 이유.

McGurk 효과 — 결정적 증거

"ba" 소리를 들으면서 "ga"를 말하는 입술을 보면, 뇌는 "da"를 듣습니다. 존재하지 않는 소리를 만들어내는 것 — 뇌가 감각을 능동적으로 통합한다는 강력한 증거.

뇌의 통합 영역

영역	통합 대상	손상 시
상측두구 (STS)	시각+청각 (언어)	McGurk 효과 소실
두정엽 (PPC)	시각+촉각+고유감각	신체 도식 장애
전전두엽 (PFC)	모든 감각 + 기억	맥락적 통합 실패
상구 (SC)	시각+청각 (방향)	소리 방향 정위 장애

2. 대상 영속성 (Object Permanence)

컵을 수건으로 덮으면 컵이 여전히 존재한다 — 이것은 배워야 하는 능력입니다.

Piaget의 발달 5단계

시기	단계	특징
0~4개월	1단계	영속성 없음. 사라지면 없는 것.
4~8개월	2단계	부분적. 반쯤 가려진 것만 찾음.
8~12개월	3단계	A-not-B 오류 — 장소 A에서 찾던 것을 B로 옮겨도 A에서 찾음
12~18개월	4단계	눈에 보이는 이동은 추적 가능
18~24개월	5단계	완전한 영속성 — 보이지 않는 이동도 추론

A-not-B 오류의 의미

이 "실수"는 뇌가 World Model을 구축하는 과정의 증거입니다:

기억 시스템 (A에서의 성공 경험) vs 지각 시스템 (B로 이동하는 걸 봄)이 갈등
전전두엽이 미성숙하여 기억을 억제하지 못함
AI에서도 동일: 학습된 패턴이 새 관찰을 이기는 현상 = 편향(bias)

AI에서의 현황

AI	대상 영속성	문제
Sora/Genie	❌ 매우 약함	물체가 가려지면 사라지거나 변형
JEPA	⚠️ 시도 중	표현 공간에서 연속성 유지 시도
SlotAttention	⚠️ 부분 성공	장면을 "슬롯"으로 분해하여 물체 추적

3. 물리 직관 (Intuitive Physics)

공을 던지면 어디에 떨어질지 — 뉴턴 방정식 없이도 직관적으로 아는 능력.

5가지 핵심 물리 직관

직관	내용	위반 감지 시기
연속성	물체는 연속적 경로로 이동	생후 2.5개월
고체성	두 물체는 같은 공간을 차지 불가	생후 3.5개월
지지	지지 없으면 떨어짐	생후 5개월
중력	아래로 떨어짐	생후 6개월
관성	움직이는 것은 계속 움직임	생후 7개월

AI vs 인간 비교

능력	인간	현재 AI	격차
블록 탑 안정성	~95%	~70%	중간
충돌 예측	직관적, ~100ms	학습 필요, 느림	큼
유체 역학	대략적 직관	매우 어려움	큼
새 상황 일반화	즉시 적용	재학습 필요	매우 큼

"5개월 된 아기도 이해하는 물리를, 가장 강력한 AI는 아직 제대로 배우지 못했다."

발달 순서 = AI 학습 순서의 힌트

인간의 인지 발달은 감각적 → 지각적 → 개념적 순서:

먼저 감각 데이터를 구분 (시각, 청각 분리)
그 다음 감각들을 통합 (다중감각)
그 다음 물리 법칙을 체득 (물리 직관)
마지막으로 보이지 않는 것을 추론 (대상 영속성, 인과)

AI도 이 순서를 따르는 커리큘럼 학습(Curriculum Learning)이 더 효율적일 수 있습니다.

5대 AI 미해결 과제

다중 모달 접지 — 진정한 감각 통합 (패턴 매칭이 아닌 인과적 통합)
대상 중심 표상 — 픽셀이 아닌 물체 수준의 처리
인과 추론 — 상관관계 ≠ 인과관계 이해
직관적 물리 엔진 — 시뮬레이션 없이 빠르게 물리를 "느끼기"
발달적 학습 — 인간처럼 단계적으로 쌓아가는 프레임워크

결론: 통합이 답이다

세 능력은 서로 연결되어 있습니다:

다중감각 통합 → 풍부한 물체 표상 → 대상 영속성의 기반
대상 영속성 → 시간에 걸친 추적 → 물리 법칙 학습의 전제
물리 직관 → 예측 가능한 세계 → 계획과 행동의 기반

진정한 World Model = 이 세 가지가 하나로 통합된 시스템

이것이 LeCun의 JEPA, Friston의 Active Inference, DeepMind의 Dreamer가 모두 향하고 있는 방향입니다.

🧠 인터랙티브 HTML 버전은 별도 파일로 제공됩니다 (감각 통합 체험 데모 포함). 🎉 1-2 개념정리 시리즈 4편 완료! 다음: 1-3 로드맵 시각화

◀ [World Model 개념 정리 #3] 뇌의 World Model — Predictive Coding, Free Energy Principle, 해마의 통합 [로드맵 시각화 1편] World Model 4축 관계도 — Embodied AI, World Model, 뇌과학, 인식 메커니즘의 통합 ▶

💬 0 로그인 후 댓글 작성

첫 댓글을 남겨보세요!

공유하기