일관성+긴 AI비디오 생성 : Memory+Latent = StoryMem

StoryMem: Multi-shot Long Video Storytelling with Memory (2025.12.22) – 이 논문은 기존의 비디오 모델들이 해결하지 못했던 ‘장기적 일관성’ 문제를 해결하기 위한 논문입니다. 현재 AI 기반 비디오 생성 기술은 놀라운 속도로 발전하고 있죠. 하지만 그 화려함 이면에는 치명적인 한계가 존재합니다. 바로 ‘서사의 단절’입니다. 비디오 모델(Sora, Runway 등)은 단일 샷(Single-shot) 생성에는 탁월하지만, 1분 이상의 긴 영상을 만들거나 여러 개의 장면(Multi-shot)으로 구성된 영화적 서사를 구축할 때 주인공의 외형이 바뀌거나 배경이 일그러지고, 또 앞선 장면에서 정의했던 캐릭터의 외형, 옷차림, 배경의 세부 정보를 잊어버리는 ‘상태 없음(Stateless)’의 문제, 즉 ‘정체성 붕괴’ 현상을 겪습니다. 그래서 기술적 진보에도 불구하고, 여러 개의 장면(Shot)으로 구성된 긴 이야기를 일관성 있게 풀어내는 ‘스토리텔링’ 영역은 여전히 미지의 영역으로 남아 있는 부분이 있습니다.

StoryMem은 이러한 ‘망각의 벽’을 허물기 위해 제안된 프레임워크입니다. 이 논문은 비디오 생성을 단순한 이미지의 연속적 배열이 아닌, ‘기억(Memory)을 바탕으로 한 잠재 공간(Latent Space) 내의 추론 과정’으로 재정의합니다. 제가 요즘 가장 관심이 많은 mid-long term memory 그리고 Latent 문제를 다 다루고 있어서 흥미롭게 읽었습니다.

이 논문에서 가장 중점적으로 다루는 첫 번째 핵심 키워드는 Memory입니다. StoryMem은 모델이 생성한 과거의 정보를 무조건적으로 축적하는 것이 아니라, 인간의 뇌가 정보를 처리하는 방식과 유사한 ‘전략적 기억 시스템’을 채택했습니다.

1) 시맨틱 키프레임 선택을 통한 기억의 효율화

비디오는 보통 초당 수십 프레임의 방대한 데이터로 구성됩니다. 모든 프레임을 기억하는 것은 연산 자원의 낭비일 뿐만 아니라, 오히려 모델에게 불필요한 노이즈를 주입하여 생성 품질을 떨어뜨릴 수 있습니다. StoryMem은 이를 해결하기 위해 ‘시맨틱 키프레임 선택(Semantic Keyframe Selection)’ 메커니즘을 도입했습니다. 각 장면에서 캐릭터의 특징이 가장 잘 드러나거나, 서사 전개상 중요한 시각적 단서를 포함하고 있는 대표 프레임만을 선별하여 메모리 뱅크에 저장하는 방식입니다. 이를 통해 StoryMem은 최소한의 데이터로 최대한의 일관성을 유지할 수 있는 ‘기억의 압축’을 실현했습니다.

2) 자가 미적 필터링을 통한 기억의 신뢰성 확보

생성형 AI는 완벽하지 않기에, 생성 과정에서 일시적인 왜곡이나 할루시네이션이 섞인 프레임을 만들기도 합니다. 만약 이러한 ‘잘못된 프레임’이 메모리에 저장된다면, 이후 생성되는 모든 장면에 그 오류가 전이되는 치명적인 결과가 발생합니다. StoryMem은 이를 방지하기 위해 ‘미적 및 화질 필터링(Aesthetic Filtering)’ 과정을 거칩니다. 생성된 프레임의 품질을 스스로 평가해서, 충분히 논리적이고 미적으로 우수한 프레임만을 기억으로 승인하는 시스템을 갖춘 것입니다. 결과적으로 메모리 뱅크는 항상 고도로 정제된 ‘신뢰할 수 있는 정보’만을 유지하며, 전체 영상의 품질을 상향 평준화하는 기반이 됩니다.

3) 동적 업데이트를 통한 메모리 포화 방지

영상이 무한정 길어질 때 메모리 뱅크가 포화되어 연산 속도가 느려지거나 과거 정보가 뒤엉키는 것을 막기 위해, StoryMem은 지속적 업데이트(Continuous Update)와 ‘계층적 메모리’ 개념을 도입했습니다. 모든 기억을 평면적으로 쌓아두는 것이 아니라, 서사의 흐름에 따라 현재 장면과 관련성이 낮은 오래된 기억은 압축하거나 제거하고, 핵심적인 맥락은 상위 계층에 보존하여 효율적으로 관리합니다. 앗, 그러고보니 Google 의 Nested Learning 의 CMS(Continuum Memory System), 그러니까 단기,중기,장기 이 세가지 메모리 기반을 모델 내부에서 분리해 관리하는 구조와 유사합니다.

anywayn, 덕분에 길이에 제한이 없는 영상 생성 환경에서도 모델이 지치지 않고 일관된 서사를 유지할 수 있는 지능형 캐시 구조를 갖추게 되었다고 합니다.

두 번째 핵심 키워드인 Latent(잠재 공간)는 메모리에 저장된 정적인 기억이 실제 살아 움직이는 비디오로 변환되게 합니다. StoryMem은 이 잠재 공간을 창의적이고 정교하게 조작하여 기억을 주입합니다.

1) 잠재 공간 내의 직접 결합(Concatenation) 기술

보통의 모델들이 텍스트 프롬프트에만 의존하여 다음 장면을 생성하려 했다면, StoryMem은 메모리 뱅크에 보관된 핵심 프레임의 잠재 변수(Latent Variables)를 현재 생성 중인 노이즈 프레임과 직접 결합합니다. 잠재 공간은 데이터의 본질적인 특징만이 압축되어 있는 공간이므로, 여기서의 결합은 텍스트가 설명하기 힘든 주인공의 미세한 이목구비, 특유의 분위기, 옷감의 질감 등을 다음 장면으로 직접 전달하는 파이프라인이 됩니다. 모델은 텍스트라는 ‘언어적 가이드’와 잠재 변수라는 ‘시각적 증거’를 동시에 연산해서, 전에 만들어진 영상과 현재 만드는 영상이 논리적으로 연결된 결과물을 만들어냅니다.

2) Negative RoPE Shifts: 외형과 구도의 수학적 분리

기억을 주입할 때 발생하는 고질적인 문제 중 하나는, 모델이 너무 상세하게 이전 장면의 구도나 카메라 앵글까지 그대로 복제하려는 경향입니다. 이러다보면, 캐릭터의 일관성은 높여주지만, 영상의 연출을 단조롭게 만들수 있다고 합니다. StoryMem 연구진은 이를 해결하기 위해 위치 정보를 담당하는 RoPE(Rotary Positional Embedding)를 수학적으로 뒤트는(?) ‘Negative RoPE Shifts’ 기법을 제안했습니다.

이 기술의 핵심은 위치 정보를 담당하는 임베딩 값을 음수 방향으로 조정하여, 모델이 메모리로부터 “무엇(What, 외형)”은 가져오되 “어디(Where, 위치)”에 있는지는 무시하도록 만드는 것입니다. 그 결과, 주인공은 이전 장면과 똑같은 모습으로 등장하면서도 카메라는 자유롭게 움직이며 클로즈업이나 풀샷 등 다양한 연출을 시도할 수 있게 되었다고 합니다! 시각적 일관성과 영화적 역동성이라는 두 마리 토끼를 잡은 결정적인 기술적 성취입니다.

StoryMem은 단순한 영상 제작 도구의 발전을 넘어, AI가 가상 세계를 이해하고 시뮬레이션하는 월드 모델(World Models)의 핵심 엔진이 될 수 있을 것이라고 생각합니다 (개인적 의견)

1) 영속적 상태 유지를 통한 가상 시뮬레이션의 완성

월드 모델의 궁극적인 목표는 현실 세계의 물리 법칙과 인과관계를 학습하여 완벽한 가상 시나리오를 가동하는 것입니다. 월드 모델이 비전화되었을때, 이때 가장 중요한 요소는 ‘영속성(Persistence)’입니다. 화면 밖으로 사라진 사물이 다시 나타났을 때 이전과 같은 상태를 유지해야 하며, 과거의 사건이 현재에 미치는 영향이 끊임없이 계산되어야 합니다. StoryMem의 메모리 구조는 월드 모델이 이러한 상태 유지형 추론(Stateful Reasoning)을 수행할 수 있게 하는 강력한 도구입니다. 잠재 공간에 저장된 기억은 월드 모델 내에서 물리적 개체의 속성을 고정하고, 시간의 흐름에 따른 변화를 예측하는 신뢰할 수 있는 기준점이 될 수 있을 겁니다.

2) 데이터 기반 예측 지능의 고도화

StoryMem은 데이터를 단순히 저장하는 기록물로 보지 않고, 다음 단계를 예측하기 위한 ‘지능적 자산’으로 활용합니다. 월드 모델이 복잡한 환경에서 다음 상태를 예측할 때, 확률적 추측에만 의존하는 것이 아니라 축적된 메모리를 바탕으로 논리적이고 인과적인 시뮬레이션을 수행할 수 있음을 뜻합니다. 결과적으로 이러한 기술은 자율주행, 로보틱스, 기상 예측 등 정교한 시간적 맥락 이해가 필요한 모든 분야에서 AI의 성능을 비약적으로 끌어올릴 수 있는 잠재력을 지니고 있습니다.

StoryMem 논문은 비디오 생성 AI가 ‘단편적인 예측’의 단계를 지나 ‘장기적인 서사’를 구축하는 단계로 본격적으로 진입하기 시작했다는걸 보여줍니다. Memory와 Latent를 결합함으로써, AI는 인간처럼 과거를 기억하고 이를 바탕으로 일관된 결과를 낼 수 있게 된겁니다.

* 원문 : https://arxiv.org/pdf/2512.19539

댓글 남기기