엔비디아의 29조 원 그록(Groq) 인수, 시장의 오해와 실체

엔비디아(NVIDIA)가 크리스마스 이브에 AI 반도체 스타트업 그록(Groq)의 IP와 핵심 인력을 200억 달러(약 29조 원)에 인수했습니다. 이번 딜을 두고, 추론이 확대되면서, GPU는 학습, LPU는 추론이라는 구도가 확립되었다는 해석도 있고, LPU가 추론시장을 주도할 것이라는 얘기들도 있습니다. 추론이 중요한 피지컬AI에서도 LPU 중요성이 높아진다는 얘기, 그리고 그록의 기술이 도입되면 HBM(고대역폭메모리)의 필요성이 줄어들 것이라는 전망도 나옵니다.

물론 저는 반도체 전문가는 아니지만, 제 생각에는 이번 딜의 본질은 추론 칩의 교체가 아니라 엔비디아의 시스템 통제권 강화와 방어적 전략인것 같습니다.

– GPU는 학습, LPU는 추론?

그런데, LPU는 독립적 프로세서(Processor)라기보다, CPU의 통제를 받아서 작동하는 연산 가속기입니다. 전처리는 CPU가, 핵심연산은 LPU가, 후처리는 CPU가 하는 구조입니다. 게다가 그록의 LPU 칩 하나로는 현재 우리가 쓸만한 AI 모델을 아예 구동조차 할 수 없습니다. (NPU는 가능합니다)

그록 칩 하나에 들어가는 SRAM 용량은 230MB 수준입니다. 라마 3 70B 돌리려면 최소 140GB 이상의 메모리는 필요합니다. 그록 칩 하나로는 거대 모델의 1/600 도 담을 수 없죠. 그래서 낱개로 안팔고, 최소 576개의 칩을 연결한 거대한 랙 단위로만 판매하거나 서비스합니다. 무슨 말이냐면, LPU는 부품이지 완제품이 아닙니다,

이 부분을 많이들 오해하고 계신거 같습니다

그록이 보여준 퍼포먼스는 LPU 칩 하나의 능력이 아니라, 수백 개의 LPU와 이를 제어하는 고성능 CPU, 그리고 이들을 연결하는 광케이블 시스템 전체가 만들어낸 결과죠.

NPU는 싱글칩으로 AI 모델을 구동할 수 있을까요? 네, 있습니다. NPU가 스마트폰, 자동차, 로봇 등 엣지 디바이스에서 주력이 될 수 있는 결정적 이유입니다. 그룩의 LPU는 속도 저하 막으려고, 모든 데이터를 SRAM에 다 떄려넣고, 외부 메모리 컨트롤러는 배제했습니다. NPU는 외부의 HBM 등과 데이터를 주고받을 수 있는 메모리 컨트롤러를 내장하고 있죠.

그래서, 하고 싶은 말은 LPU는 부품이자 완제품이 아니라는 겁니다. 그렇기 때문에, 오히려 엔비디아와의 결합이 설득력 있습니다. 엔비디아가 다 가지고 있기 때문에, 그록의 LPU 를 부품으로 끼워넣기에 완벽한 조건이죠.

그러니까, LPU는 추론이라는 얘기를 제대로 표현하려면, LLM에서 LPU 수백개 + 고성능 CPU 가 빠른 엔진으로서 성과를 보인다. 가 맞죠. latency 가 중요한 관점에서는요.

– LPU가 피지컬 AI 시대의 추론을 담당?

‘텍스트 생성 AI’와 ‘피지컬 AI’의 작동 원리 차이를 간과한 시각입니다. 챗봇과 달리 로봇이나 자율주행 같은 피지컬 AI의 추론은 단일 과정이 아니며, LPU가 독점할 수 없는 구조를 가집니다.

피지컬 AI의 추론 과정은 크게 세 단계로 구분됩니다.

첫째, 인지(Perception) 단계입니다. 카메라와 라이다 등 센서에서 들어오는 방대한 비정형 데이터를 실시간으로 처리해야 합니다. 이는 행렬 연산과 이미지 처리에 능한 GPU나 범용성을 가진 NPU가 담당해야 하는 영역이며, 언어 처리에 특화된 LPU가 수행하기 어렵습니다. (GPU, NPU, TPU 가능, LPU 어려움)

둘째, 판단(Reasoning) 단계입니다. 입력된 정보를 바탕으로 상황을 분석하고 다음 행동을 결정합니다. 트랜스포머 모델 연산에 최적화된 LPU가 강점을 가지는 유일한 영역입니다. (LPU 1등, GPU, NPU, TPU 가능)

셋째, 제어(Actuation) 단계입니다. 모터의 전압을 조절하고 물리적 움직임을 제어하는 영역으로, 이는 실시간 제어 칩(MCU)의 영역입니다. (GPU, NPU, TPU 가능, LPU 어려움)

따라서 “LPU가 추론을 담당한다”는 건 좀 오버인거 같습니다. LPU는 판단 영역의 병목을 해결하는 가속기 역할을 할 뿐이며, 시스템의 완결성을 위해서는 감각과 제어를 담당하는 다른 칩과의 결합이 필수적입니다. 당연히, 미래의 추론 환경은 LPU의 대세가 아니라, 각 기능에 최적화된 이종 칩 간의 협업 구조가 될 수 밖에 없습니다.

** LPU가 Transformer 기반 추론생성/지연 최적화 가 강점이라 그럴 수 밖에 없습니다.

– SRAM이 HBM을 대체할 수 없는 물리적/경제적 이유

그록의 SRAM기술이 도입되면 HBM의 의존도가 사라질 것이라는 전망 또한 반도체의 경제성과 물리적 집적도를 고려하지 않은 주장입니다.

그록은 칩 내부에 SRAM을 탑재하여 데이터 처리 속도를 획기적으로 높였습니다. 그러나 SRAM은 HBM 대비 면적당 데이터 저장 용량이 현저히 적고, 생산 비용은 수십 배 이상 높습니다. 현재의 LLM이나 향후 등장할 모델들을 전부다 SRAM에 때려넣고 구동하려면 수천 개의 칩을 연결해야 하며, 데이터센터 구축 비용을 비현실적인 수준으로 올립니다. 엔비디아가 기술을 인수한다고 해서 SRAM의 물리적 집적도가 급격히 늘어나는 것은 아닙니다.

따라서 엔비디아의 전략은 HBM을 배제하는 것이 아니라 ‘메모리 계층의 최적화’일 것입니다. SRAM을 초고속 캐시로 활용하여 연산 지연 시간을 줄이고, 대용량 데이터 저장은 여전히 HBM에 맡기는 구조입니다. 메모리 기업에게 위기가 아니라, 더욱 고도화된 메모리 계층 구조에 대응해야 하는 전략적 변화로 봐야한다고 생각합니다.

추론이 본격화되면 속도(Latency)와 용량(Capacity)가 계층적으로 분화해나갈겁니다.

추론이 본격화되서 GPU가 쓸모 없어진다는 것도 말이 안되구요. 상대적으로 저전력인 NPU가 효율성이 있긴 하고, LPU가 속도를 맡겠지만, 추론의 종류에 따라 달라지지 LPU가 장악한다? 저는 조금 말이 안된다고 생각합니다.

추론이 본격화되면 인간의 뇌처럼 ‘초단기(SRAM/LPU) – 단기(HBM/GPU) – 장기(HBF)’ 기억 장치로 역할이 계층적 분화될 것입니다. 즉각적인 반사 신경이 필요한 ‘빠른 메모리(SRAM)’와, 속도는 HBM보다 느려도 방대한 맥락(Context)을 저렴하게 유지해야 하는 ‘거대 플래시 메모리(HBF)’가 공존하는 구조로 재편됨에 따라, 메모리 반도체 산업은 단순한 공급 경쟁을 넘어 용도별 계층화(Tiering)라는 새로운 질적 성장 국면에 진입할 것입니다. (아 제 책에다 쓰고 있는 내용을 여기다 가져왔네요 ㅠㅠ)

그런데, 피지컬AI에서의 추론은? 앞서 설명한것처럼 또 다른 얘기입니다.

– 그렇다면, 29조 원 베팅의 진짜 이유는?

매출 규모가 작은 그록에 29조 원이라는 기업 가치가 매겨진 진짜 이유는 하드웨어 성능이 아닌 소프트웨어 기술 그리고 엔비디아의 전략적 방어라고 생각합니다.

첫째, 결정론적(Deterministic) 컴퓨팅 기술의 확보입니다. 현재의 GPU 기반 데이터센터는 수만 개의 칩이 병렬로 연결될 때 연산 시간이 미세하게 변동하는 지터(Jitter) 현상이 발생합니다. 안전이 최우선인 로봇이나 자율주행 분야에서는 이 미세한 불확실성이 치명적입니다. 그록이 보유한 컴파일러 기술은 소프트웨어가 하드웨어의 연산 타이밍을 완벽하게 통제하여 이 불확실성을 제거합니다. 엔비디아는 이 기술을 차세대 시스템에 적용하여 ‘확정적 신뢰성’을 확보하려는 것으로 보입니다.

둘째, 인재 확보를 통한 경쟁 억제입니다. 그록의 창업자 조너선 로스는 구글의 TPU를 설계한 핵심 인물입니다. 엔비디아는 이들이 구글, 아마존 등 경쟁 진영에 합류하여 엔비디아 생태계를 위협하는 독자적인 추론 표준을 만드는 것을 막기 위해 선제적으로 인수를 단행했습니다. 즉, 이는 경쟁사의 잠재적 위협 요소를 제거하고 자사의 기술적 해자를 강화하기 위한 전략적 선택으로 보입니다.

—————————————

이번 인수는 LPU가 GPU를 대체하거나, 추론을 독점하거나, HBM을 무용지물로 만드는 사건이 아니라고 봅니다, 엔비디아가 GPU 생태계의 약점인 실시간 추론의 지연성과 시스템의 불확실성을 소프트웨어적으로 보완하여, AI 인프라 전체의 장악력을 높이려는 방어적 전략의 일환으로 보는게 맞다고 봅니다.

SRAM 을 쓰는 LPU가 추론을 독점하고, 피지컬AI의 추론의 선두주자가 되서, 우리 메모리 기업들이 어려워지고, 추론의 대세는 LPU 다! 라는 해석을 경계하고자 이렇게 글을 정리합니다. 결국은 메모리 시대, 추론 시대, 피지컬AI 시대엥서는 단순한 칩 성능 경쟁을 넘어 시스템 아키텍쳐의 통합과 최적화가 경쟁의 핵심일겁니다.

* 노트북lm 은 언제쯤 한글이 완벽해질까요 ㅜ

댓글 남기기