오픈소스 World Model의 로드맵(?) : Matrix-Game 3.0

Skywork AI가 4월 10일 공개한 Matrix-Game 3.0은 5B 규모의 모델로 720p 해상도에서 초당 40프레임, 그리고 분(minute) 단위의 기억 일관성을 동시에 달성한 최초의 오픈소스 Interactive World Model 입니다.

Google DeepMind의 Genie 3가 약 24FPS/720p을 폐쇄형으로 보여준 것을, Skywork는 코드와 가중치, 그리고 테크니컬 리포트까지 전부 공개하며 넘어섰다는 지점에서 단순한 기술 보고서가 아니라 월드모델 오픈소스 진영의 매우 중요한 성과라고 생각됩니다.

지난 2년간 영상 생성 모델은 “예쁜 10초 클립”에서 “플레이 가능한 세계”로 진화를 거듭해왔습니다. 하지만, World Model 이 실제 산업에 탑재되려면 세 가지 요구조건이 동시에 충족되어야 합니다.

첫째, 1분 뒤 같은 방으로 돌아왔을 때 그 방이 그 방이어야 한다는 장시간 공간·시간 일관성입니다.

둘째, 720p 이상·최소 24FPS 이상을 만족하는 고해상도 실시간 생성입니다.

셋째, 마우스·키보드 입력에 프레임 단위로 반응하는 정밀한 액션 제어입니다.

기존 오픈소스 작업들 – Matrix-Game 2.0, HY-GameCraft-2, Lingbot-World 등 – 은 이 중 둘을 잡으면 하나를 놓쳤습니다. Matrix-Game 3.0은 세 가지를 한 프레임워크 안에서 동시에 성립시킨 첫 공개 사례라는 점에서 의미가 있다고 리포트에서는 설명하고 있습니다.

– 핵심 기여 1: 산업 규모 데이터 엔진, “데이터가 곧 해자”라는 명제의 실증

구글의 Genie 3가 남긴 교훈은 대규모의 정밀한 주석이 있는 상호작용 비디오가 있으면 World Model 은 학습할 수 있다는 것입니다. 그런데 그런 데이터가 웹 스크래핑으로는 나오지는 않죠. Skywork의 해답은 세 개의 상호보완적 소스를 결합한 하이브리드 전략이었습니다.

우선 Unreal Engine 5 기반 합성 파이프라인을 구축했습니다. 1,000개 이상의 커스텀 UE5 씬 위에서, 렌더링 프레임마다 영상·캐릭터 위치·카메라 포즈·액션 정보를 완벽히 동기화해 기록했습니다. 시간 정렬 오차가 0이라는 의미입니다. 캐릭터 조립 시스템만으로도 옷·신발·헤어·액세서리 조합을 통해 1억 가지 이상의 변종을 런타임에 만들어낼 수 있습니다.

여기에 더해 GTA V, Red Dead Redemption 2, Palworld, Cyberpunk 2077, Hogwarts Legacy 같은 AAA 게임을 자동화된 녹화 시스템으로 캡처해 테라바이트급 데이터를 99% 이상의 정확도로 수집했습니다.

마지막으로 DL3DV-10K, RealEstate10K, OmniWorld-CityWalk, SpatialVid-HD 같은 실세계 영상 데이터셋을 통합했습니다.

이 세 가지를 엮어 만든 결과물은 단순한 영상이 아니라 영상·포즈·액션·프롬프트가 한 묶음으로 정렬된 학습 자원입니다.

“세계 모델이 원하는 형태”로 정제된 데이터라는 점이 핵심입니다. 여기서 말하는 “원하는 형태”란, 영상 안에서 카메라가 어떻게 움직였는지, 캐릭터가 어떤 버튼을 눌렀는지, 그 순간 화면에 담긴 장면은 어떻게 설명되는지가 프레임 단위로 완벽히 맞물려 있는 데이터를 말합니다.

“입력 → 시점 변화 → 결과 화면”의 인과 관계가 한 치의 어긋남도 없이 기록되어 있어야 모델은 비로소 “내가 이렇게 움직이면 세계는 이렇게 반응한다”를 학습할 수 있는데, 이런 수준의 정밀 주석은 유튜브 크롤링으로는 절대 얻을 수 없습니다.

그래서 Skywork의 파이프라인은 단순한 데이터 수집 도구가 아니라 World Model 경쟁의 승패를 가를 핵심 자산에 가깝습니다. 시뮬레이터만 쓰면 데이터가 너무 인공적이라 일반화가 안 되고, 게임 한 종만 쓰면 그 게임 스타일에 과적합되며, 실세계 영상만 쓰면 액션 주석이 부정확한데, Skywork는 이 세 가지를 서로의 빈틈을 메우도록 결합한 겁니다!

Unreal Engine으로 정밀한 액션-영상 정렬을 확보하고, AAA 게임으로 시각적 다양성을 더하고, 실세계 영상으로 현실 분포를 주입하는 식입니다.

오픈소스 커뮤니티가 Google DeepMind 같은 폐쇄형 프론티어 랩과 경쟁하려면 모델 아키텍처나 파라미터 수로 싸우는 게 아니라 바로 이 데이터 파이프라인 레이어에서 승부해야 한다는 것을 보여주고 있습니다. 중국은 참 대단합니다. 미국이 앞서가면, 어떤 방법으로도 따라잡으려 합니다. ㅋ

Genie 3가 어떤 알고리즘을 썼는지는 재현하기 어렵지만, 어떤 데이터가 필요한지는 이 리포트가 투명하게 보여주고 있고, 그 데이터를 만들어내는 인프라는 충분한 자본과 엔지니어링 역량만 있으면 누구나 구축할 수 있는 영역이라는 점에서, Skywork의 이번 공개는 피지컬ai의 뇌인 월드모델에 신경써야 하는 우리나라로서도 시사점이 큽니다.

– 핵심 기여 2: 이론적 일관성이 만든 안정성

Matrix-Game 3.0이 장기 일관성을 만들어낸 방식은 두 가지 아이디어로 요약됩니다.

첫 번째는 “불완전한 과거”를 학습 시점에 미리 가르치기입니다. 실시간 영상 생성 모델은 다음 프레임을 만들 때 직전 몇 프레임을 참고하는데, 학습할 때는 사람이 찍은 깨끗한 정답 영상을 참고하지만 실제 사용할 때는 방금 자기가 만들어낸 프레임을 다시 입력으로 받아야 합니다.

문제는 모델이 만든 프레임에 아주 미세한 오차 – 색이 살짝 어긋나거나 경계가 조금 흐릿한 – 가 반드시 있고, 그 오차가 섞인 프레임이 또 다음 프레임의 입력이 되면서 누적된다는 점입니다. 복사본을 복사하고 또 복사하면 100번째에는 원본을 알아볼 수 없게 되는 것과 같은 원리입니다.

Skywork의 해법은 “어차피 실전에서 지저분한 입력이 들어올 거라면, 학습할 때부터 지저분한 입력에 익숙해지게 만들자”는 것입니다.(쏘 쿨..) 학습 중 모델이 만들어내는 예측 오차를 버리지 않고 버퍼에 차곡차곡 쌓아두었다가, 과거 프레임을 입력으로 줄 때 이 오차를 일부러 섞어서 줍니다. 깨끗한 도로에서만 운전 연습을 시키는 게 아니라 일부러 패인 포장도로나 느슨한 핸들을 경험시켜서 어떤 조건에서도 똑바로 달리는 법을 가르치는 것과 같습니다. 그 결과 모델은 “지저분한 입력을 받아도 다음 프레임은 제대로 만들어내는” 자기 교정 능력을 학습 단계에서부터 습득하게 되고, 실전에서 오차가 누적되는 속도가 현격히 느려집니다. 분 단위 영상 생성에서도 장면이 무너지지 않는 비결이 바로 여기에 있습니다.

두 번째는 카메라 기반 기억 회수(Camera-Aware Memory Retrieval)입니다.

게임에서 마을 광장을 둘러보다가 30초 후에 다시 그 자리로 돌아왔다고 해봅시다. 분수대의 위치, 가게 간판의 색깔, 벤치의 배치가 아까와 똑같아야 자연스러운데, 대부분의 영상 모델은 이걸 못 합니다. 모델이 “참고”할 수 있는 과거 프레임은 보통 직전 몇 초에 불과하고, 그 이전 기억은 그냥 사라져버리기 때문입니다.

그래서 돌아와보면 분수대가 엉뚱한 모양이 되어 있거나, 간판이 다른 색으로 바뀌어 있습니다. Matrix-Game 3.0의 해법은 사람이 공간을 기억하는 방식과 비슷합니다. 지금 내가 동쪽을 바라보고 있다면, 과거 프레임 중에서 비슷한 위치에서 비슷한 방향을 찍은 장면을 찾아서 참고하자는 것입니다.

카메라의 위치와 시야가 얼마나 겹치는지를 기준으로 관련 프레임을 골라낸 뒤, 이것을 현재 생성 과정에 함께 합류시킵니다. 여기서 똑똑한 설계 하나가 더 있습니다.

이 회수된 기억을 별도의 외부 저장소에 두고 따로 처리하는 게 아니라, 최근 과거 프레임과 지금 만들고 있는 프레임, 그리고 멀리서 불러온 기억 프레임을 모두 하나의 공간에 놓고 함께 처리한다는 점입니다.

기억 담당 따로, 생성 담당 따로 두지 않고 한 방에서 한 세션에서 일하게 만든 것입니다. 덕분에 학습과 추론의 행동이 일관되고, 실시간 배포에도 구조가 단순해서 유리합니다. (구글의 롱 컨텍스트 전략과 일치하죠)

보통 장기 기억을 해결하는 방법은 두 가지입니다. 하나는 모델의 가중치 자체에 기억을 새겨넣는 것(재학습)이고, 다른 하나는 외부에서 관련 정보를 찾아와 컨텍스트로 넣어주는 것(검색 기반)입니다. Skywork는 구글처럼 후자를 택했습니다. 모델을 다시 학습시키지 않고 컨텍스트 설계만으로 장기 공간 일관성을 만들어낼 수 있다는 것을 실증한 겁니다.

– 핵심 기여 3: 실시간 40FPS를 만들어낸 세 가지 엔지니어링 레이어

여기서부터는 순수한 엔지니어링의 승부입니다. Matrix-Game 3.0의 40FPS는 세 가지 레이어의 누적 최적화로 만들어졌습니다. (진짜 다양한 시도를 많이 해보는 중국….)

*증류(Distillation) 단계에서는 느리지만 정확한 기반 모델을 빠른 소형 모델로 압축했습니다. 다만 기존 방식처럼 단일 구간만 학습시키는 대신, 여러 세그먼트를 연속으로 롤아웃하면서 실제 스트리밍 상황을 그대로 재현하는 방식을 썼습니다. 학습 과정과 실제 추론 과정의 행동 양식을 일치시킨 것입니다.

*시스템 최적화 측면에서 논문의 ablation 결과는 이렇습니다. 전체 파이프라인에서 각 요소를 제거했을 때, GPU 기반 메모리 회수를 빼면 33.4 FPS가 떨어지고, 경량 VAE(MG-LightVAE)를 빼면 14.2 FPS, INT8 양자화를 빼면 12.6 FPS가 떨어집니다. GPU 기여도가 압도적이라는 뜻입니다. 정확도를 약간 포기하는 대신 속도를 극대화한 알고리즘으로, 시간이 지날수록 쌓이는 메모리 후보를 효율적으로 처리한 것이 핵심입니다.

* 경량 VAE도 별도로 주목할 만한 성과입니다. 기존 Wan2.2 VAE 대비 75%까지 모델을 줄인 버전이 디코딩을 5.2배 가속하면서도 시각적 유사도(SSIM)는 0.99를 유지했습니다.

최종적으로 8개 GPU는 본체 모델 추론에, 1개 GPU는 VAE 디코딩에 할당하는 비동기 구조로 40FPS를 달성했습니다.

물론, 논문이 솔직하게 드러내진 않지만, 읽으면서 떠오르는 질문들도 있습니다. 28B 모델의 추론 비용은 공개되지 않았습니다. 얼마나 노가다를 했는지 모르죠. 40FPS는 어디까지나 5B 기준입니다. 복잡한 물리 상호작용 – 충돌, 파괴, 다중 에이전트 – 에서의 일관성에 대한 부분도 제한적입니다. 메모리 풀이 무한정 커질 때의 관리 전략도 간략히만 언급됐습니다. 그리고 Genie 3처럼 언어 지시로 이벤트를 주입하는 기능 “지금 비가 오게 해줘” 같은 건 아직 구현되지 않았습니다.

Matrix-Game 3.0은 기술리포트이기도 하지만 사실상 일종의 Roadmap Statement에 가깝습니다.

“World Model을 산업화하려면 데이터·모델링·배포를 한 팀이 동시에 밀어야 한다”는 명제를 실증했고, 그 과정에서 만든 모든 것을 공개했습니다.

Genie 3가 “이것이 가능하다”를 보여줬다면, Matrix-Game 3.0은 “이렇게 만들면 된다”를 보여줬습니다. 이 차이가, 앞으로 오픈소스 World Model 생태계가 어떻게 흘러갈지 궁금하게 합니다.

무언가 둔탁하지만, 중국은 어떻게든 기술을 따라잡습니다. 디스틸레이션이건 노가다건…. 월드모델은 점점 현실로 다가오고 있는 만큼 우리도 신경을 많이 써야할듯 하네요.

*출처 :

Project Page: https://matrix-game-v3.github.io/

HuggingFace: https://huggingface.co/Skywork/Matrix-Game-3.0

댓글 남기기 응답 취소