지난 10여 년간 인공지능의 성장 공식은 단순했다. 더 큰 모델, 더 많은 파라미터, 더 높은 FLOPs(모델 학습에 투입되는 연산량)를 추구했다. 그래픽처리장치(GPU)를 얼마나 확보했는지가 곧 경쟁력으로 받아들여졌고, 국가 전략 역시 GPU 확보와 같은 연산 자원 선점에 집중되어 왔다. 그런데 최근 연구 흐름과 시스템 아키텍처를 살펴보면, 인공지능(AI)이 다음 단계로 도약하기 위해 풀어야 할 핵심 과제가 연산(Compute)에서 메모리(Memory)로 이동하고 있음을 확인할 수 있다. 이제 승부는 “얼마나 빨리 계산하느냐”가 아니라 “무엇을, 어떤 형태로, 어디에 기억하고, 어떻게 꺼내 쓰느냐”로 바뀌고 있는 것이다.
사실 대형언어모델(LLM)이 커지면 커질수록 실제 성능과 비용을 좌우하는 요소는 연산량보다 데이터 이동이다. 가중치, 추론 과정에서 생성되는 캐시, 중간 상태들이 메모리 계층을 오가며 발생시키는 지연이 전체 성능을 결정하기 때문인데, 연산 자원을 아무리 늘려도 필요한 데이터가 제때 공급되지 않으면 성능은 곧바로 한계에 부딪힌다. 이른바 메모리 장벽(memory wall)이다. 특히 긴 문맥 추론, 다중 세션, 에이전트 기반 상호작용처럼 ‘기억을 오래 유지하고 반복적으로 활용하는’ 작업이 늘수록 메모리의 중요성은 더 커진다.
이런 배경에서 최근 AI 연구들은 공통된 결론에 도달하고 있다. 더 계산하기보다, 더 잘 기억하자는 것이다. 이를 상징적으로 보여주는 사례가 지난 1월 12일 발표된 딥시크의 엔그램(Engram) 연구다. 이 연구에서는 대규모 언어모델이 이미 여러 번 등장한 정적 지식과 패턴까지 GPU에서 반복 계산하는 구조가 비효율적이라고 지적한다. Engram은 자주 쓰이는 정보를 반복해서 처음부터 다시 연산하지 않고, 해시 기반 메모리에 저장해 두었다가 필요할 때 바로 불러오는 방식을 제안한다. 반복적이고 예측 가능한 정보는 메모리가 처리하고, GPU는 새로운 입력에 대한 동적 추론에 집중하도록 역할을 재배치하는 것이다. 중요한 부분은 GPU를 더 쌓지 않고도 메모리를 전략적으로 활용해 시스템 효율을 높일 수 있음을 보여주고 있다는 점이다.
(중략)
연산의 시대가 끝난다는 말은 연산이 중요하지 않다는 뜻이 아니다. 다만 앞으로의 경쟁은 연산을 얼마나 더 쌓느냐가 아니라, 기억을 얼마나 정교하게 설계하느냐에서 갈린다는 말이다. 메모리의 시대는 이미 시작됐다. 그리고 전환기마다 주도권은 다시 배분된다. 우리나라가 단순한 ‘좋은 부품을 만드는 나라’에 머무를지, 아니면 AI 아키텍처를 함께 정의하는 공동 설계자로 도약할지는 지금의 선택에 달려 있다.
출처 : IT조선(https://it.chosun.com)
* 기사 원문 : https://it.chosun.com/news/articleView.html?idxno=2023092155623