LLM은 글을 잘 쓴다. 정말 잘 쓴다. 근데 컵을 탁자 끝에 올려놓으면 어떻게 되는지 물어보면? 정답은 맞히지만, 그 이유를 진짜로 ‘이해’하는 건 아니다. 언어 패턴을 학습한 거지, 중력이나 물리법칙을 내면화한 게 아니라는 얘기다. 챗GPT로 대표되는 거대 언어 모델(LLM)이 인상적인 건 맞다. 자연스러운 대화, 복잡한 질문 처리, 창의적 글쓰기, 코딩까지. 근데 그 배경에 깔린 물리적 세계나 인과관계를 진짜로 ‘이해’하냐고 물으면 대답이 달라진다. 여기서 등장하는 개념이 바로 세계모델(World Model)이다.
LLM의 두 얼굴 — 언어 천재, 세상 문외한
현재 LLM의 작동 원리는 단순하다. 방대한 텍스트에서 패턴을 학습하고, 주어진 프롬프트에 가장 그럴듯한 다음 단어를 예측한다. 이 방식으로 이전과는 비교 불가한 언어 능력을 만들어냈다.
- 잘하는 것: 자연어 처리, 번역, 요약, 콘텐츠 생성, 코딩 지원
- 못하는 것:
- 환각(Hallucination): 없는 정보를 그럴듯하게 지어낸다. 학습 데이터에 없던 상황이 나오면 추론 대신 창작을 한다. 이게 문제다.
- 상식 부족: ‘컵을 놓으면 깨진다’ — 이런 물리 세계 상식을 텍스트 패턴만으로 완전히 체득하기 어렵다. 언어로 설명할 순 있어도 실제로 ‘아는’ 건 다른 문제다.
- 계획·추론 능력: 복잡한 문제를 단계별로 풀거나, 행동의 결과를 시뮬레이션하는 데 취약하다. 세상이 어떻게 돌아가는지에 대한 내부 모델이 없기 때문이다.
책을 통째로 외웠지만, 그 내용이 실제 세계에서 어떻게 적용되는지는 모르는 상태. LLM의 현주소가 딱 그렇다.
세계모델이 뭔가 — AI가 세상을 배우는 방식
세계모델은 AI가 주변 환경을 내부적으로 표현하고 시뮬레이션하는 방식이다. 인간이 장애물 앞에서 무의식적으로 발걸음을 계산하고, 유리잔을 잡을 때 적절한 힘을 조절하는 것처럼 — 뇌 속에 이미 물리적 세계의 ‘모델’이 구축돼 있기 때문에 가능한 일이다. AI도 이런 내부 모델을 갖출 수 있냐, 가 핵심 질문이다.
MIT 테크놀로지 리뷰 보도를 보면 전문가들이 강조하는 것도 이 지점이다. AI가 언어의 벽을 넘어 외부 세계를 진짜로 이해하려면 내부 시뮬레이션 능력이 필수라는 것. 세계모델이 있으면 AI는 이런 질문에 답을 낼 수 있다.
- 「이 물체를 저기로 옮기면 무슨 일이 생기나?」
- 「내가 이 행동을 하면 3단계 후에 상황이 어떻게 바뀌나?」
- 「지금 보이지 않는 저 뒤에는 무엇이 있을까?」
단순한 패턴 예측이 아니라, 세상의 작동 원리를 이해하고 미래를 시뮬레이션하는 것. 이게 세계모델과 기존 LLM의 결정적 차이다.
왜 지금 세계모델인가
로봇공학, 자율주행, 게임 AI 분야에서는 이미 세계모델 개념을 적극 활용 중이다. 자율주행차가 전방 차량의 급정거를 0.1초 만에 예측해 브레이크를 밟을 수 있는 건 카메라 데이터만으로 작동하는 게 아니다. 환경을 내부적으로 모델링하고, 「이 차가 이 속도로 이 방향으로 움직이면 1초 후 어디 있을까」를 실시간으로 시뮬레이션하기 때문이다.
LLM에 세계모델 개념을 통합하려는 시도도 이어지고 있다. 텍스트만이 아니라 영상, 음성, 센서 데이터까지 학습해 물리적 세계를 이해하는 멀티모달 모델들이 그 방향이다. 솔직히 아직 갈 길은 멀다. 하지만 방향은 분명해지고 있다.
세계모델이 바꿀 것들
세계모델이 성숙하면 뭐가 달라질까. 몇 가지는 꽤 구체적으로 그려진다.
- 로봇: 「청소해줘」 한마디에 집 구조를 파악하고, 장애물을 피하며, 좁은 틈새까지 알아서 처리하는 수준. 지금 로봇 청소기와는 다른 차원이다.
- 의료: 환자의 상태 변화를 예측하고, 약물 투여 후 3시간 뒤 상태를 시뮬레이션해 치료 계획을 조정한다.
- 교육: 학생의 이해 수준을 실시간으로 모델링해, 다음에 어떤 개념을 어떻게 설명할지를 즉각 조정한다.
- 엔지니어링: 설계 변경이 전체 시스템에 어떤 연쇄 효과를 낳는지, 만들어보기 전에 시뮬레이션으로 검증한다.
결국 세계모델은 AI를 ‘언어 도구’에서 ‘실행 에이전트’로 바꾸는 핵심 기술이다. 이해하고, 예측하고, 행동하는 AI. 지금의 LLM이 답변을 생성한다면, 세계모델을 갖춘 AI는 행동을 계획한다.
아직 넘어야 할 산들
장밋빛 전망만 늘어놓기엔 현실적인 걸림돌이 있다. 몇 가지는 꽤 까다롭다.
- 데이터 문제: 물리 세계를 제대로 학습하려면 텍스트 외에 방대한 센서·영상 데이터가 필요하다. 수집도 어렵고, 레이블링은 더 어렵다.
- 계산 비용: 환경을 실시간으로 시뮬레이션한다는 건 연산량이 기하급수적으로 늘어난다는 뜻이다. 현재 하드웨어로는 한계가 있다.
- 일반화: 특정 환경에서 훈련된 세계모델이 전혀 다른 환경에서도 작동하냐는 게 아직 풀리지 않은 문제다. 공장 바닥에서 잘 돌아가던 로봇이 계단 앞에서 멈추는 것처럼.
이 문제들이 해결되는 속도가 세계모델의 실용화 시점을 결정한다. 연구는 빠르게 진행 중이다. 1~2년 안에 의미 있는 변화가 나올지, 5년은 걸릴지 — 이건 아무도 장담 못한다.
결국 뭘 봐야 하나
세계모델 분야에서 눈여겨볼 플레이어는 몇 있다. OpenAI, DeepMind, Meta AI — 대형 연구소들이 각자의 방식으로 접근 중이다. 학계에서는 Yann LeCun이 세계모델 기반 AI 아키텍처를 오래전부터 밀고 있다. 그의 주장은 간단하다. 인간 수준의 AI를 만들려면 LLM식 접근으론 한계가 있고, 물리 세계를 이해하는 세계모델이 필수라는 것.
동의하든 안 하든, 방향 자체는 맞다. AI가 텍스트의 세계에서 물리 세계로 발을 넓히는 과정. 세계모델은 그 이정표다.
