구글이 지난 11월 7일 블로그를 통해, Nested Learning 을 소개했습니다. Nested Learning 은 “학습을 여러 시간축으로 나누는 인간 논의 방식” 을 따라했습니다.

구글 블로그 출처 : https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

가장 단순하게 표현하면, 모델이 학습하는 속도와 기억하는 방식을 여러 layer로 나누는 학습 구조입니다. 지금까지의 인공지능은 하나의 시간축에서 하나의 최적화 방식으로 파라미터를 업데이트해왔습니다. 매 스텝마다 전체 모델이 똑같은 방식으로 갱신되는 방식입니다. 우리가 공부를 할 때, 수학, 영어, 과학을 동시에 조금씩 매일 공부하는 것과 같은 구조죠.

하지만, 인간의 학습은 일률적이지 않습니다. 아니 일률적일 수가 없습니다. 어떤 지식은 즉시 습득하고 바로 잊어버리지만, 어떤 개념은 반복적 경험을 통해 장기기억으로 넘어갑니다. 저 같은 경우, 학교때 그렇게 열심히 공부했어도 미분방정식은 다시 풀기 어렵지만, 반복적으로 외워버린 독일어 die-der-den-die 같은 독일어 정관사 변화는 아직까지 그냥 기계적으로 나오는데, 뭐 이런 거라고 할 수 있겠습니다.

어떤 기술은 빠르게 변하는 경험 기반 지식이며, 어떤 지식은 느리게 변하는 구조적 지식입니다. Nested Learning은 이러한 인간 학습 원리를 따라 했다고 합니다. 즉, 학습의 속도가 다른 여러 레벨을 동시에 운용하는 구조입니다.

예를 들어 단기 메모리는 매 초마다 업데이트되지만, 중기 메모리는 몇 분에 한 번, 장기 메모리는 몇 시간 또는 며칠에 한 번 업데이트됩니다. 이러한 다층 학습은 동일한 모델 안에서 서로 다른 시간척도를 가지며 작동합니다. “빠른 학습기(fast learner)”와 “느린 학습기(slow learner)”가 공존하는 구조라고 봐야합니다.

Nested Learning은 단순한 기술적 아이디어를 넘어 인공지능이 망각을 최소화하고 자신을 안정적으로 발전시킬 수 있는 구조적 해결책입니다. 특히, 인간을 따라한다는 인공지능의 목표를 한걸음 더 나아가게 한거죠.

과거의 catastrophic forgetting을 완화하면서, 새로운 지식을 받아들이면서도 기존 지식을 유지할 수 있는 기반을 제공합니다. 다시 말하면, Nested Learning은 “기억하지만, 스스로 조정하는 AI”로 가는 중요한 계기라고 생각됩니다.

정리해보면, (정리를 좋아합니다. 제가 이해해야 해서)

Nested Learning 의 두가지 축은

1) 다층 시간축 학습(Multi-time-scale learning) : 빠른 업데이트 레벨, 중간 속도 레벨, 느린 업데이트 레벨 등 학습속도가 서로 다른 레이어들을 한 모델안에서 동시에 운용하는 구조

2) CMS(Continuum Memory System) : 단기,중기,장기 이 세가지 메모리 기반을 모델 내부에서 분리해 관리하는 구조

트랜스포머와 비교: “단일 시간축의 트랜스포머 vs 다층 시간축의 Nested Learning”

다들 아시는것처럼, 트랜스포머는 현대 AI의 절대 표준입니다. Self-attention 구조는 언어, 이미지, 코드, 음성, 멀티모달 등 거의 모든 영역에서 영향력을 행사해왔습니다. 하지만 트랜스포머는 본질적으로 단일 시간축(single time-scale)의 학습기라고 봐야합니다.

트랜스포머의 학습 구조는 단순화하면 다음과 같은 특징을 가집니다.

모든 파라미터는 동일한 step에서 동일한 빈도로 업데이트
메모리는 시퀀스 기반의 단기 기억(attention) 중심
장기적 지식은 모두 파라미터 내부에 고정 형태로 저장됩니다.

새로운 지식을 학습하려면 전체 모델을 다시 학습시키거나 LoRA,SFT 등을 통해서 개선됩니다. 그러다보니, 망각이 쉽게 발생합니다.

Nested Learning은 이 구조적 한계를 정면으로 보완합니다.

트랜스포머가 가진 “단일 업데이트 주기” 구조를 “다중 업데이트 주기”로 확장
일부 모듈은 매 step 업데이트되지만, 일부는 느리게 업데이트
기억 구조도 단기·중기·장기 메모리로 구분
자기수정(self-modifying) 아키텍처가 가능하여 스스로 학습 전략을 조정

이 차이는 단순한 성능 변화가 아니라 지능 구조 자체가 진짜 인간처럼 변화한 것이라고 보는게 맞습니다. 트랜스포머가 기계적인 학습 구조였다면, Nested Learning은 생물학적이고 인지적 학습 구조에 더 가깝습니다. Nested Learning은 ‘뇌의 계층적 학습 구조’에 가까운 방식인 겁니다.

구글의 연구는 GPU 탈중심? TPU 중심으로 가는 흐름인가?

그런데, Nested Learning을 좀 살펴보면 이 방식이 GPU보다 TPU에 훨씬 자연스럽게 맞는 구조라는 점이 분명히 드러납니다. 이번에 Gemini-3 pro 나온 이후, 성능과 속도 모든면에서 ChatGPT 를 능가했습니다. 샘알트먼도 자신들이 따라가야 한다고 인정했구요. 그런데, 구글은 모델 학습에 GPU를 거의 쓰지 않습니다. 자기들이 개발한 TPU를 쓰죠. 그러다보니 제가 이번 글에서 언급한것처럼, TPU 기반의 Context Window 극대화 전략을 씁니다. GPU를 써서 메모리 고립 문제가 있는 ChatGPT가 HBM 자원을 효율적으로 쓰기 위해, RAG 방식을 더 고도화하는 것과 비교되죠(물론 둘다 RAG 나 Context Window 쓰지만, 방점을 어디에 두냐 이런 말입니다.^^)

그러면, 구글이 발표한 Nested Learning 에서도 “구글이 왜 이런 연구를 하는가?”라는 질문이 자연스럽게 따라옵니다. Nested Learning은 GPU에서도 구현은 가능하지만 비효율적이며, TPU에서는 구조적으로 매우 더더 효율적으로 보입니다.

구글은 트랜스포머를 만든 회사이면서 TPU를 만든 회사이기도 합니다. 트랜스포머 혁명 이후 전 세계는 GPU 중심 생태계를 구축했지만, 구글은 줄곧 TPU 중심 구조가 가진 장점을 강조해왔습니다. 저한테는 Nested Learning은 GPU의 약점을 드러내고 TPU의 구조적 우위를 부각시키는 연구로 보입니다.

리서치를 해보니, TPU는 다음과 같은 이유로 Nested Learning에 적합합니다.

전체 computational graph를 컴파일러(XLA)가 단일 단위로 최적화
다층 업데이트처럼 irregular한 구조도 전역 최적화가 가능
메모리 계층이 통합되어 있어 CMS(Continuum Memory System) 접근에 적합
빠른 레벨과 느린 레벨의 비동기 업데이트를 효율적으로 처리

저도 이게 무슨 소리이낙 하고, 이거저거 더 찾아보면서 정리해봤는데요,

풀어서 좀 얘기해보면, TPU가 Nested Learning에 적합한 이유는, 학습 구조를 “부분 조각”으로 나누어 처리하는 GPU와 달리 TPU는 모델 전체를 하나의 거대한 계산 그래프로 보고 한 번에 최적화하기 때문입니다.

GPU에서는 각 연산이 작은 커널 단위로 끊겨 실행되고, 빠르게 업데이트되는 블록과 느리게 업데이트되는 블록이 섞이면 커널 실행이 불규칙해져 병목이 커진다고 합니다. 메모리 계층도 분산되어 있어서 단기·중기·장기 기억을 오가는 CMS 구조와 잘 맞지 않아 매번 데이터를 이리저리 옮겨야 합니다.

반면 TPU는 XLA 컴파일러가 모델 전체 그래프를 통째로 최적화하여, irregular한 구조라도 단계별로 다시 이어 붙여 자연스러운 스케줄로 재배치합니다. 또한 메모리 계층이 단순하고 통합되어 있어 여러 시간축의 기억 구조(CMS)를 부드럽게 연결할 수 있고, 빠른 레벨과 느린 레벨의 비동기 업데이트를 GPU처럼 여러 커널로 쪼개지 않고 하나의 일정(schedule) 안에서 처리합니다. 결국 GPU는 “한 번에 같은 일을 많이 하는 구조”에 최적화되어 있지만, TPU는 “각기 다른 일을 각각의 속도로 처리하는 구조”를 전체 시스템 차원에서 조정할 수 있어, Nested Learning처럼 복잡한 다시간축 학습을 훨씬 안정적이고 효율적으로 실행할 수 있습니다.

결국, 제가 볼때는 Nested Learning이 TPU 기반으로 시연된 것은 우연이 아니라 미래 AI 학습 구조가 TPU 중심 아키텍처에서 구현되고, 이 중심으로 이동할 수 있음을 보여주는 구글의 기술적 선언인거 같습니다.

TPU를 구글이 고집하는 이유, GPU 와 다르게 TPU에서는 메모리 중심의 Context Window 를 강조해왔던 부분. 이런 것들을 보면 다 구글은 이유가 있었던 겁니다.

구글의 목표가 GPU를 버리는 것이라기 보다는 GPU 혼자서 감당할 수 없는 차세대 학습 방식을 먼저 제시하고, 그 구조에 TPU가 최적이라는 사실을 보여주는 겁니다. (아 그게 똑같은말인거 같기도 하네요 ㅋ)

그러면, GPU 중심 패러다임은 과연 지속 가능한가?

GPU는 지난 10년간 AI 혁명의 중심이었습니다. 그러나 GPU는 dense하고 규칙적이며 단일 시간축을 따라 움직이는 연산에 최적화된 장치라고 봐야 합니다. 물론 GPU도 여기에 맞게 계속 진화하고 있긴 합니다.

월드모델은 점점 더 긴 시퀀스와 장기 기억을 요구합니다. (그래서 한국의 메모리가 더 중요…HBM, HBF) 그리고, 에이전트는 비동기적 의사결정과 상호작용을 수행합니다. 구글의 SIMA2, Genie3 등은 외부 환경과 비정형 학습을 전제로 합니다.

GPU의 본질은 “앞으로 가”라는 명령에 맞춰 오와 열을 맞춰 병렬로 걷는 것이라고 볼 때, 에이전트 시대에서는 각각 에이전트가 지멋데로 왔다갔다 하는데, 그러다보니 GPU는 동기화가 깨지고, 다른 코어가 작업을 마칠때까지 기다리는 idle 이 급증할 수 밖에 없습니다. 엄청난 비효율을 초래하죠. 좀 오버하자면요.

GPU 는 Batch Processing 중심으로 “야 데이터 100개 가져와, 내가 한번에 빠르게 처리해줄게” 이고, 에이전트는 “지금 당장 1개 데이터 처리해야해” 이고, 월드모델 같은 경우도 실시간성이 중요한데, GPU는 구조적으로 배치를 모아서 처리하는 방식에 최적화되어 있어서 inference latency 를 줄이는데 한계가 있다고 합니다.

이런 문제때문에, training 시대에서 inference 시대로 넘어가면서, 각 빅테크들이 전용 추론칩을 만들고 있고, 그런거죠.

그런데, Nested Learning은 multi-time-scale 구조를 필요로 합니다. AI는 단일 시간축에서 다층 시간축의 지능 구조로 이동하고 있어서, 이런 건 GPU의 장점을 약화시키고 GPU가 싫어하는 workload를 더 중요시하게 됩니다.

따라서, GPU는 사라지지 않겠지만, AI의 복잡한 학습 구조를 단독으로 감당하는 GPU 패러다임은 지속 가능하지 않지 않을까요.

GPU는 대규모 패턴 학습 및 고밀도 연산을 담당하고, TPU나 NPU는 추론, 장기기억 및 기억 검색, 비정형 데이터 처리, 초저지연 의사결정 (월드모델) 등을 하면서, 역할이 분화될 수 있을것 같습니다.

# GPU vs TPU vs NPU in Nested Learning

Nested Learning을 기준으로 하드웨어별 특징을 정리해보니 이렇습니다.
(by ChatGPT 5.1)

① 연산의 규칙성

GPU: 규칙적이고 대규모 병렬 연산에 최적
TPU: irregular 연산도 컴파일 수준에서 정리
NPU: 그래프 기반 irregular compute에 강함

② 다층 업데이트 구조

GPU: 커널 반복 실행으로 병목 발생
TPU: 전역 스케줄링으로 효율적
NPU: 비동기 파이프라인 처리 최적

③ 메모리 흐름

GPU: 메모리 계층 불균일, irregular flow에 취약
TPU: 단일 메모리 구조로 CMS와 잘 맞음
NPU: memory routing 구조적 강점

④ 자기수정(self-modifying) 아키텍처

GPU: 오버헤드 큼
TPU: 그래프 단위 최적화 가능
NPU: 구조적으로 적합

결론적으로 Nested Learning의 자연스러운 실행 환경은 다음 순서에 가깝습니다.

TPU → NPU → GPU 순입니다.

Nested Learning은 단순 연산의 반복이 아니라 ‘서로 다른 속도와 구조를 가진 다층 신경망이 유기적으로 조율되어야 하는 과정’입니다. 이 관점에서 TPU는 거대한 그래프 전체를 하나의 시스템으로 보고(Context Window 중심 전략에서도 나타나죠) 미리 최적화하여 병목 없이 흐름을 제어하는 ‘이상적인 지휘자’ 역할을 수행하므로 가장 효율적입니다.

NPU는 불규칙하고 비동기적인 데이터 흐름을 하드웨어적으로 유연하게 뚫어주는 역할을 하기 때문에 구조적 적합성이 높습니다.

반면 GPU는 복잡하고 가변적인 상호작용을 경직된 ‘군대식 줄 세우기(Dense Kernel 반복)’로 처리하려다 보니, 연산보다 메모리를 정리하고 기다리는 시간(오버헤드)이 더 길어져 가장 비효율적입니다.

GPU도 가능하지만 효율은 크게 떨어집니다.

메모리 강국인 우리나라! 결국 메모리 만세

결국, 구조적 특성상 Nested Learning은 메모리 구조가 핵심입니다. 우리나라는 HBM과 D램을 통해 글로벌 메모리 반도체 시장에서 독보적 위치를 차지하고 있습니다. HBM은 90%가 넘죠. 하지 지금까지 메모리는 “GPU의 부속품”으로 취급되어 왔습니다. 엔비디아가 스펙이나 기타 등등 다 결정하니까요.

Nested Learning 시대에는 메모리가 부속품이 아니라 핵심 구조물이 됩니다. Nested Learning에서 제안된 CMS(Continuum Memory System)는 단기·중기·장기 기억을 연결하는 구조입니다. 이 구조는 서로 다른 메모리 요구를 갖습니다.

단기 기억: 빠른 read/write
중기 기억: caching·routing
장기 기억: 안정적 보존

우리나라 강점은 바로 여기에 존재합니다. 메모리가 AI 구조의 진짜 중심이 되는 시대가 오고 있으며, 그 시대는 한국이 주도권을 가질 수 있는 시대입니다.

우리의 강점인 HBM, 저전력 고집적 D램, 패키징 기술, 메모리 근접연산(CNM), 메모리 내 연산(CIM) 등은 모두 Nested Learning 구조에서 중요성이 커집니다. Nested Learning은 “메모리 중심 AI 시대의 시작”이며, 한국은 이 변화에서 중심적 위치를 확보할 수 있습니다.

기존 폰 노이만 구조의 치명적 약점인 ‘메모리 장벽(Memory Wall)’은 비단 연산기와 메모리 사이뿐만 아니라, 빠른 기억(DRAM)과 느린 기억(Storage) 사이의 거대한 속도 단절에서도 발생합니다. Nested Learning이 요구하는 CMS(연속적 메모리 시스템)에서, 세계모델의 방대한 데이터를 담을 ‘장기 기억’이 느린 SSD에 갇혀 있다면 병목은 해결되지 않습니다.

바로 이 지점에서 우리나라가 선도하는 HBF(High Bandwidth Flash)는 기존 낸드(NAND)의 한계를 넘어 DRAM에 버금가는 대역폭을 제공함으로써, 테라바이트(TB) 급의 거대 지식을 지연 없이 연산 파이프라인으로 쏘아 올려줍니다. 즉, HBM과 PIM으로 연산의 병목을 깨고, HBF로 용량과 로딩의 병목을 동시에 허무는 것입니다. 이는 단기(HBM)·중기(CXL/PIM)·장기(HBF) 기억을 아우르는 ‘모든 기억의 경로(Memory Hierarchy)’를 우리나라 기술이 물리적으로 완성한다는 의미이며, 이것이야말로 Nested Learning 시대에서 우리나라가 주도할 수 있는 진정한 ‘메모리 주권’이라고 생각합니다.

RAG와 Context Window 그리고 Nested Learning

Nested Learning은 모델 내부의 기억 구조 변화이지만, 동시에 RAG와 Context Window 문제를 재해석하게 만드네요.

긴 문맥을 처리하기 위해 window를 기계적으로 늘리는 방식은 고비용입니다. RAG는 외부 문서를 검색하는 방식으로 의존성이 큽니다. 그리고, LLM은 읽을 수는 있어도 기억을 구조화하여 저장하지 못합니다.

그런데, Nested Learning은 내부적으로 장기 기억과 단기 기억을 구분하여 “모델 스스로 저장하고 진화하는 구조”를 만듭니다.

Nested Learning은 window가 아니라 기억 계층을 확장합니다. 즉, “많이 읽는 모델”이 아니라 “잘 기억하는 모델”로 진화합니다.

결국, 구글이 추구해오던 Context Window 중심의 메모리 전략은 유효하지만, 한단계 더 나아가는 겁니다.

Nested Learning 은 기억, 즉 메모리를 모델 안으로 통합하려 하려 합니다. context window 전략과 유사하지만, 또 다릅니다. 외부 데이터베이스 의존없이, 모델 자체가 걸어다니는 도서관이자, 스스로 진화하는 월드모델이 되려는 겁니다. 외부 통신없이도 실시간 판단하는 온디바이스 AI와 자율 에이전트를 만들 수 있기 때문이죠.

이제 구글은 단순히 문맥창을 늘리는데 그치지 않고, 모델 내부에서 기억을 끊임없이 순환시키고 재구조화하는(Nested Loop) 연산에 최적화된 방향으로 진화해나갈 것으로 보입니다.

RAG도 진화할 수 있습니다. 기존에는 외부 문서를 불러오는 단순 retrieval 중심이었지만, Nested Learning과 결합하면 “외부 장기 기억” 역할로 확장될 수 있습니다.

Nested Learning 구조에서 AI는 단기 기억(대화) 중 중요한 정보를 선별하여 외부 DB(RAG)에 다시 기록할 수 있습니다. 예를 들어, “오늘 A라는 민원이 들어왔는데, 기존 B매뉴얼로는 해결이 안 되더라”라는 경험적 지식(Empirical Knowledge)이 RAG 시스템에 업데이트됩니다. 그러면 RAG는 보다 정교화해지겠죠. 이게 ‘외부 장기 기억’ 입니다.

기존의 단일 RAG가 모든 데이터를 벡터 DB에 떄려넣고 뒤섞었다면, Nested Learning 관점에서 RAG는 ‘속도가 다른 두 개의 RAG’가 서로 견제하고 협력하는 구조가 될 수 있습니다.

예를 들어, Fast RAG 는 민원, SNS 피드백, 트렌드 등 계속 변화하는 내용들을 벡터 DB에 넣고, 단기/중기 기억으로 쓰고, Slow RAG는 헌법, 법령, 업무 메뉴얼(잘 안변하는), 보안 규정 등은 지식그래프에 넣어서 장기 기억으로 사용할 수 있을 겁니다.

결국, 구글은 Attention is all you need 로 병렬 구조의 트랜스포머를 만들어냈지만, 병렬 구조의 GPU에게 하드웨어 주도권을 내줬고, 모델에서는 OpenAI의 LLM 물량공세에 밀렸지만, TPU와 제미나이로 나름 잘 방어해왔습니다.

이제는 이 Nested Learning 을 통해 반격에 나서는 것이라고 생각합니다.
GPU 독점체제도 깨뜨리고,
LLM 도 깨뜨리고,
또, Post 트랜스포머 인 Nested Learning 을 통해 모델 전체의 구조도 지배하려 하는것입니다.

어찌보면 엔비디아 종속보다 더 무섭죠
TPU 쓰려면 GCP 써야하니까요

요즘 보면, 구글이 결국 승자 일 것이라는 얘기를 많이 합니다.
AI for GOOD 을 다양한 방법으로 실현하고 있는 구글을 응원하지만, 너무 또 한쪽에 쏠리는 건 우려가 되서, 다른 진영의 반격이 또 기대됩니다.

Nested Learning과 Post GPU, 춘추전국시대

트랜스포머와 비교: “단일 시간축의 트랜스포머 vs 다층 시간축의 Nested Learning”

구글의 연구는 GPU 탈중심? TPU 중심으로 가는 흐름인가?

그러면, GPU 중심 패러다임은 과연 지속 가능한가?

메모리 강국인 우리나라! 결국 메모리 만세

RAG와 Context Window 그리고 Nested Learning

댓글 남기기 응답 취소