DeepSeek Engram: GPU에서 메모리로 – 차세대아키텍처

1. 스케일 법칙의 한계와 아키텍처의 전환

ChatGPT 등장 전후로 LLM의 발전사는 Scale is All You Need 라는 스케일링 법칙(Scaling Law)에 의해 지배되어 왔죠. 모델의 파라미터 수를 수천억 개로 늘리고, 학습 데이터의 양을 무한대로 확장하며, 천문학적인 양의 GPU 연산 자원을 투입하면 성능이 정직하게 올라갔습니다. 그런데, 언제까지 늘리기만 할 수는 없는 노릇이고, 심각한 경제적, 공학적 임계점에 도달한게 사실입니다.

입력된 모든 토큰에 대해 모델 전체가 활성화되어 연산하는 전통적인 Dense 모델은 구조적인 비효율성을 안고 있을 수 밖에 없습니다. 예를 들어, “대한민국의 수도는?”이라는 아주 단순한 사실 관계 하나를 인출하기 위해서도 모델은 수십 개의 레이어와 수천억 개의 뉴런을 모두 깨워 복잡한 행렬 곱셈을 수행해야 합니다.

모델 파라미터가 늘어날수록, 이 단순한 작업에 드는 비용은 기하급수적으로 폭증하기 때문에, 간단한 단어 뜻을 찾기 위해 매번 전 직원을 소집하는 것과 같이 엄청난 자원 낭비죠.

그래서, 작년 초 DeepSeek은 MoE(전문가 혼합) 아키텍처를 통해, 입력된 토큰에 따라 필요한 일부 전문가 파라미터만 선별적으로 활성화하는 방식을 선보여서 전세계에 충격을 안겨줬습니다. 모든 파라미터를 연산하던 기존 Dense모델의 비효율을 극복하고, 거대 언어 모델 시장에서 Sparse 모델을 실질적인 주류 기술로 대중화시키는 결정적인 계기가 되었다고 봐도 과언이 아닙니다.

여기에, 이번 2026년 1월 12일 DeepSeek 연구진이 발표한 논문 <Engram: Inducting Sparse N-grams for Scalable Lookup>은 기존의 연산 중심 접근을 기억(Memory) 중심으로 전환하는 한단계 진화된 해법을 제시합니다. (일주일 동안 논문이나 기사 끊었더니 이제 이 중요한 논문을 봤습니다. ㅠㅠ)

핵심은 간단합니다.

“지식을 비싼 연산 장치(GPU)로 매번 계산해서 만들어내지 말고, 저렴하고 거대한 외부 메모리에 저장해두고 필요할 때 즉시 꺼내 쓰자(Lookup)”

즉, 최신 GPU 따위 필요없어!!!!!!!! 미국이 안줘도, 우리는 아키텍쳐 진화로 승부한다!!!! 이말입니다.

그동안 MoE의 등장으로 Sparse(희소) 모델이 주류로 부상했음에도, 높은 정확도가 요구되는 공공·행정·비즈니스 영역에서는 여전히 Dense(밀집) 모델이 신뢰받고 있었습니다. 그러나 Engram은 Sparse 모델의 고질적 약점이었던 ‘지식 정확도’를 획기적으로 보완함으로써, 효율성뿐만 아니라 성능 면에서도 Dense 모델을 대체할 수 있음을 증명하며 AI 아키텍처의 패러다임을 근본적으로 바꾸려 하네요.

(독파모 플젝 진행중이니, 새로운 또 이런 아키텍쳐를 응용해서 내재화 하는 트랙도 과기정통부가 만들어줬으면 좋겠습니다. )

2. Engram의 핵심 메커니즘 : 3단계 파이프라인

Engram 아키텍처는 고전적인 통계 모델인 N-gram을 현대 신경망 기술과 결합하여 다음의 3단계 파이프라인으로 구현되었습니다.

① 1단계: 고전적 N-gram의 현대화 (Modernization via Compression)

특정 단어 조합(N-gram)이 나타날 때, 복잡한 신경망 연산을 거치지 않고 해시 테이블에서 즉시 임베딩을 찾아오는게 N-gram의 장점입니다. 그런데, N-gram은 특정 단어 조합이 학습 데이터에 존재하지 않으면 그 확률을 0으로 처리하는 데이터 희소성(Sparsity) 문제와 조합이 늘어날수록 메모리가 폭증하는 문제로 인해 유연한 문맥 파악이 중요한 딥러닝 시대에서 도태되었습니다. 예를 들어, ‘Machine Learning’과 ‘machine learning’은 사람이 보기에 같은 의미지만, 컴퓨터는 대소문자와 공백의 차이로 인해 완전히 다른 단어로 인식했습니다. 그래서 메모리 공간을 이중으로 낭비하게 만들었던 겁니다.

Engram은 이를 해결하기 위해 어휘 투영 층(Vocabulary Projection Layer)을 도입했습니다. 입력된 텍스트를 정규화(Normalization)하고, 표기법이 달라도 본질적인 의미가 같다면 하나의 ‘정규 ID(Canonical ID)’로 매핑합니다.

[예시] 사용자가 ” Artificial Intelligence”(공백 포함, 대문자)라고 입력하든, “artificial intelligence”(소문자)라고 입력하든, Engram은 이를 내부적으로 동일한 ID #9201로 변환합니다.

이 과정을 통해 128k 크기의 토크나이저 기준 실질적인 어휘 공간을 약 23% 압축했습니다. 저장 공간을 아끼는 것을 넘어, 흩어져 있던 지식의 파편들을 하나의 주소로 통합하여 학습 효율을 극대화하는 데 목적이 있습니다.

② 2단계: $O(1)$ 비용의 정적 지식 검색 (Scalable Lookup)

Engram은 방대한 지식을 신경망 파라미터가 아닌 외부의 임베딩 테이블(Embedding Table)에 저장합니다. RAG 와 비슷하지만 다릅니다. RAG는 외부 DB에서 찾은 정보를 다시 텍스트로 변환하여 입력창(Context Window)에 넣어줘야 하므로 모델이 이를 읽는 추가 연산이 발생합니다. 반면, Engram은 DB에 저장된 임베딩 벡터 그 자체를 신경망 중간에 직접 주입(Injection)하므로, 다시 읽을 필요 없이 즉각적으로 사고 과정에 통합됩니다. 그러니까, RAG가 외부 도서관에서 책을 가져와 눈앞에 펼쳐주고 “이거 읽고 대답해”라고 하는 거라면, Engram 은 지식의 의미를 뇌세포에 전기 신호로 직접 쏴주며, “야, 이거 기억나지?” 라고 직관을 주는것과 같다고 보면 됩니다. 즉, RAG는 입력(input)을 보강해주지만, Engram은 사고 과정 자체를 보강해준다는 점에서 다릅니다.

입력된 N-gram 패턴이 들어오면, 복잡한 신경망 탐색 과정을 거치지 않고 해시 함수(Hash Function)를 통해 즉시 메모리 주소를 계산합니다.

[예시] 문맥상 “The capital of France is”라는 입력이 들어왔을 때, 모델은 “capital of France”라는 3-gram을 해시 함수에 넣습니다. 그러면 곧바로 0xA1F3이라는 메모리 주소값이 튀어나옵니다. 이 주소에는 “Paris”, “City”, “Europe” 등의 의미가 압축된 벡터가 저장되어 있습니다.

데이터가 100만 개든 1조 개든, 해시 계산 한 번이면 데이터의 위치를 찾을 수 있으므로 시간 복잡도는 $O(1)$로 일정합니다. $O(1)$ 는 상수시간복잡도로, 데이터가 아무리 늘어나도, 처리 속도는 변하지 않고 항상 똑같이 빠르다는 말입니다. 옆에 펼쳐둔 백과사전의 해당 페이지를 1초 만에 펼쳐보는(Lookup) 것과 같습니다. 해시 충돌(Hash Collision)을 방지하고 다양한 관점의 정보를 동시에 가져오기 위해 여러 개의 해시 함수를 사용하는 멀티 헤드(Multi-head) 구조를 채택하여 안정성을 확보했다고 합니다.

③ 3단계: 문맥 인식 게이팅 (Context-Aware Gating)

단순 검색의 가장 큰 위험성은 문맥(Context)을 모른다는 점이죠. 단순히 단어만 보고 정보를 가져오면 엉뚱한 노이즈가 될 수 있습니다. Engram은 이를 해결하기 위해 게이팅 메커니즘(Gating Mechanism)을 도입했습니다.

[예시] “Apple”이라는 단어에 대한 정보를 Engram에서 가져왔다고 가정해 봅시다. 이 정보에는 ‘맛있는 과일’과 ‘글로벌 IT 기업’의 속성이 섞여 있습니다.

상황 A: 현재 문장의 문맥이 “Tim Cook is the CEO of…”라면, 모델은 검색된 정보 중 ‘IT 기업’ 속성과의 연관성이 높다고 판단하여 게이트를 엽니다(Open, $\alpha \approx 1$).

상황 B: 현재 문장의 문맥이 “He ate a red…”라면, ‘IT 기업’ 정보는 문맥과 충돌하므로 게이트를 닫아(Close, $\alpha \approx 0$) 정보를 차단하거나, ‘과일’ 속성만 선별적으로 받아들입니다.

이렇게 Engram은 무조건 정보를 주입하는 것이 아니라, 모델이 “이 정보가 지금 문맥에 맞는가?”를 스스로 판단하여 선별적으로 수용하는 지능형 메모리 시스템이라고 하네요.

3. 연산과 기억의 분리(Decoupling)

이 논문의 가장 중요하고, 또 가장 큰 기여는 ‘지식 처리’를 ‘추론 연산’에서 구조적으로 분리해냈다는 점입니다. 기존의 MoE(Mixture-of-Experts) 모델조차도 지식을 인출하기 위해 전문가 신경망(FFN)이라는 연산 자원을 소모했습니다. 하지만 Engram은 순수 메모리 룩업으로 대체함으로써, 값비싼 GPU 자원을 아끼고 상대적으로 저렴한 메모리를 활용할 수 있는 길을 열었습니다. (결국 GPU없어서 혁신이 ㅋ)

연구진은 ‘희소성 할당의 최적 비율’을 실험적으로 규명했습니다. 전체 파라미터를 100% 연산 모델(MoE)로 채우는 것보다, 약 20%를 Engram 메모리로 전환하고 나머지 80%만 연산에 할당했을 때 모델의 성능이 가장 뛰어났습니다. “무조건적인 연산 확장이 능사가 아니라, 적절한 메모리 Offloading이 전체 지능을 높인다” 를 보여준 겁니다.

그래서, Dense(정확도) vs. Sparse(효율성) 논쟁이 다시 또 Engram때문에 복잡해지고 있습니다. 기존에는 “Dense 모델은 정확하지만 비싸고, Sparse 모델은 싸지만 성능이 떨어진다”는 것이 통념이었죠. 하지만 동일한 연산 비용(Iso-FLOPs)이라는 현실적인 제약 조건 하에서, Engram 기반의 Sparse 모델은 Dense 모델을 모든 지표에서 압도한 것으로 나타났습니다. (물론 파라미터를 똑같이 하면, 당연히 Dense가 정확도에서는 우위)

이 논문 실험 결과, Engram-27B 모델은 Dense-4B 모델보다 MMLU(지식) 점수가 11.8점이나 높았습니다. 지식뿐만 아니라 BBH, 수학, 코딩 등 순수 추론 능력에서도 성능이 향상되었다고 합니다.

즉, Engram이 초기 레이어에서 단순 사실 관계 처리를 전담해주자, 모델의 백본 신경망이 단순 암기 노동에서 해방되어 복잡한 논리적 추론에 온전히 집중할 수 있게 된 인지적 오프로딩(Cognitive Offloading)효과 때문입니다.

4. 구글의 중첩 학습 vs. DeepSeek Engram

이 논문 보다가, 갑자기 구글의 중첩학습(Nested Learning)이 생각났습니다. 두 아키텍쳐 모두 결국 메모리의 중요성을 강조하는건데요, 두 아키텍처 모두 데이터를 연산 장치(GPU)와 가까운 곳에 배치하여 속도를 높인다는 원리는 같아 보이는데, 어떤 데이터를, 어떤 방식으로 가져다 놓느냐가 다릅니다.

먼저, 구글의 방식은 일종의 공유 화이트보드 시스템입니다. CMS라는 거대 공유 메모리 공간을 중앙에 두고, 여러 모델이 실시간으로 새로운 지식을 학습하여 그곳에 쓰기(Write) 작업을 수행합니다. 방금 들어온 따끈따끈한 정보나 사용자의 최신 맥락을 단기 메모리에 빠르게 업데이트하고 모든 모델이 이를 즉시 동기화하여 공유하는 구조입니다. 이 방식은 실시간성과 개인화에는 탁월하지만, 수많은 모델이 동시에 메모리에 접근해 데이터를 수정해야 하므로 이를 뒷받침할 HBM이나 고속 인터커넥트 같은 초고가 인프라가 필수적입니다.

반면, DeepSeek의 Engram은 거대한 인덱스 잘되어있는 도서관 시스템입니다. 구글처럼 실시간으로 지식을 쓰고 지우는 복잡한 동기화 과정 대신, 검증된 방대한 지식들을 $O(1)$의 속도로 읽기(Read)만 수행하도록 설계되었습니다. 도서관의 수천만 권의 책에 미리 주소를 매겨두고, 필요한 순간에 주소만 찍어 바로 벡터를 인출하는 방식입니다. Engram의 결정적인 차별점은 다음에 무엇을 읽을지 미리 알 수 있는 프리패칭(Prefetching)이 가능하다는 것입니다. 덕분에 굳이 비싼 HBM이 아니더라도!!!!! 상대적으로 느린 일반 DRAM이나 CXL 기반의 메모리 풀에 지식을 쌓아두고 GPU 연산 시간에 맞춰 미리 가져다 놓는 것만으로도 충분한 성능을 낼 수 있습니다.

구글이 막대한 자본을 투입해 ’실시간으로 진화하는 집단 지성’을 지향한다면, DeepSeek의 Engram은 아키텍처의 영리한 설계를 통해 ‘저비용으로 방대한 지식을 인출하는 효율 극대화’에 집중합니다.

그러니까. 구글의 중첩학습은 실시간 정보, 새로운 지식 등을 동적 문맥이 가능하고, 딥씩의 Engram은 정적인 지식으로 변하지 않는 지식을 쌓아두는거죠.

5. HBM을 넘어 범용 메모리의 시대로 가면 우리는 어떻게 될까?

Engram 이 정말 아키텍쳐의 선두에 서게 되면, HBM은 큰 필요 없어집니다. GPU 에서 메모리로 전장이 바뀌는건 우리에게 좋은거 같지만? 중요한건 Engram 아키텍처가 고가의 HBM에만 의존하지 않는다는 것입니다.

Engram은 값비싼 HBM 대신, 상대적으로 저렴하고 용량이 큰 일반 서버용 DRAM이나, 심지어 SSD(낸드 플래시)를 지식 저장소로 활용해도 성능 저하가 거의 업습니다.

HBM 으로 그나마 세계 AI 반도체 시장에서 목소리 키우는 우리로서는 위기라고 봐야합니다. 그러면 이제 어떤 준비를 해야할지 고민해봐야합니다.

Engram은 지식 저장을 위해 비싼 HBM 대신 저렴한 일반 메모리를 활용하는 결정론적 프리패칭(Deterministic Prefetching) 기술을 핵심으로 하는데여, 문맥을 파악해 필요한 지식 주소를 미리 알아내고, GPU가 연산하는 동안 상대적으로 느린 DRAM이나 SSD에서 데이터를 미리 불러와 대기시키는 방식입니다. 이 아키텍처 덕분에 고가의 GPU와 HBM 수급에 어려움을 겪는 상황에서도, 아키텍처의 혁신만으로 Dense 모델급의 정확도와 거대한 지식 용량을 확보할 수 있게 된거죠.

그렇다면, 우리는 우리가 강점을 가진 HBF(High Bandwidth Flash)와 CXL 기반 메모리에서 승부를 봐야합니다. 모든 지식을 DRAM에 쏟아붓는 방식은 전력 소모와 비용 면에서 지속 불가능하지만, Engram 아키텍처에서는 지식의 90%에 해당하는 롱테일(Long-tail) 정보를 HBF와 같은 고성능 낸드 계층에 배치하여 경제성을 극대화할 수 있습니다.

중국이 DRAM에 다 때려박으려 해도, 비용 문제로 롱테일 지식은 포기하거나 RAG(느린 검색)에 의존해야 합니다. 그런데 우리는 수십 TB급의 HBF를 통해 전 세계의 모든 미세한 지식을 모델의 Engram 영역에 넣어버릴 수 있습니다.

기본 상식은 비슷해도, 전문 지식과 디테일에서 압도적인 격차를 내는 모델을 가능케 하는 것이 바로 HBF입니다. 그러니까, 우리나라가 단순히 더 빠른 메모리를 만드는 경쟁을 넘어, 수 테라바이트(TB)급의 지식을 가장 저렴하고 효율적으로 공급하는 AI 지식 창고 시장도 차지할 수 있음을 의미합니다

중국산 낸드 100개를 쓰는 것보다 한국산 HBF 1개를 쓰는 것이 전력과 속도 면에서 유리하다는 걸 입증해내야죠.

HBM+HBF+SRAM 까지 전부 생산이 가능한 우리나라로서는 이렇게 패키징화하여, 단기/중기/장기 로 구분하여 모델이 메모리를 적절히 활용할수 있는 구조를 만들도록 하는 통합적 설계로 가야할거 같습니다.

Screenshot
Screenshot
Screenshot

댓글 남기기