Learning to Reason in 13 Parameters (by META)

LLM의 미세조정(Fine-tuning)을 지배해 온 것은 단연 LoRA(Low-Rank Adaptation)였습니다. 수십억 개의 파라미터를 전부 재학습하는 비효율을 획기적으로 줄여주었지만, 여전히 수백만 개의 파라미터와 랭크(Rank) 행렬 연산이 필요하다는 점은 변함이 없었습니다.

그런데 2026년 2월 4일, Meta(FAIR) 연구진이 발표한 <Learning to Reason in 13 Parameters> 논문은 우리가 당연하게 여겨왔던 이 ‘최소한의 용량’을 훨씬 더 줄여버렸습니다.

이 연구의 핵심은 단순합니다. Qwen-2.5 8B 모델을 기준으로, 단 13개의 스칼라 파라미터(Scaling Factor), 용량으로 치면 고작 26바이트만 학습시켜 GSM8K와 같은 복잡한 수학 추론 벤치마크에서 91%라는 SOTA급 성능을 달성했습니다.

그런데, 기술적 관점에서 더 주목해야 할 부분은, 이 13개의 파라미터가 작동한 방식과 SFT(지도학습)의 실패 원인에 대한 분석입니다.

연구진은 초기에 우리가 흔히 사용하는 SFT 방식으로 접근했습니다. 하지만 결과는 처참했습니다. 13개의 파라미터로는 CoT(Chain-of-Thought) 데이터가 가진 복잡한 추론 경로의 분포(Distribution)를 전혀 근사해내지 못했습니다. 당연한 결과였죠. 수백만 토큰의 정답 시퀀스를 Memorization하기에 13개의 자유도는 물리적으로 턱없이 부족한 용량이기 때문입니다. 그러니까, 가르치려(Teach) 했을 때 모델은 배우지 못했습니다.

그런데 반전은 강화학습(RL)을 하면서 일어났습니다. 정답의 경로를 외우게 하는 대신, 단순히 결과를 맞히면 보상을 주는 방식으로 목적함수를 변경하자 모델의 성능이 급격히 상승했습니다. RL이 13개의 파라미터를 ‘지식 저장소’가 아닌 ‘네비게이션 도구’로 활용한겁니다.

8B 모델의 거대한 Latent Space 안에는 이미 논리적 추론을 수행할 수 있는 회로가 존재하지만 평소에는 비활성화되어 있거나 묻혀 있을 뿐인데, RL은 시행착오를 통해 이 잠재된 회로를 활성화하는 최적의 스위치 조합을 찾아낸 것입니다. 13개의 파라미터는 새로운 연산 능력을 더하는 가중치가 아니라, 모델이 추론 모드(Reasoning Mode)로 진입하게 만드는 게이트(Gate) 혹은 밸브(Valve) 역할을 수행한 셈입니다.

13개의 밸브가 조합을 통해 길은 안내한거죠.

그래서 이 논문은 거대 모델 튜닝의 본질이 지식의 주입(Injection)에서 *원.래.가.지.고.있.던 능력의 발현(Elicitation)으로 이동하고 있음을 강력하게 시사합니다. 데이터의 양보다 탐색의 전략이, 파라미터의 크기보다 그 위치와 역할(Inductive Bias)이 더 중요해진겁니다.

비즈니스 및 엔지니어링 관점에서의 함의 또한 큽니다. 26바이트라는 용량은 전송 비용이 사실상 ‘0’에 수렴함을 의미합니다. 향후 온디바이스(On-device) 환경에서 수천 개의 서로 다른 전문 페르소나를 실시간으로 스위칭하며 사용하는 Extreme PEFT시대를 예고합니다. 거대한 GPU 클러스터 없이도, 정교하게 설계된 보상 함수와 극소수의 파라미터 튜닝만으로 도메인 특화 모델을 만들어낼 수 있다는 가능성, 이것이 바로 이 13개의 파라미터가 던지는 진짜 함의라고 봅니다.

한번들 읽어볼만 합니다!

* 원문 출처 : https://arxiv.org/abs/2602.04118

댓글 남기기