훈련없는 학습 (Learning without Training)

오늘날의 머신러닝, 특히 딥러닝 모델은 본질적으로 방대한 데이터를 바탕으로 한 통계적 최적화 과정에 크게 의존하고 있습니다. Empirical Risk 를 최소화하기 위해 경사 하강법같은 훈련 방식을 사용하지만, 그러다보니 Local minimum 에 빠지거나 수렴이 느려지는 등 태생적인 불안정성을 안고 있습니다.

그러다보니 이러한 최적화 기반 훈련은 결과의 도출 과정을 설명하기 어려운 ‘블랙박스’ 문제를 야기시키 기도 합니다.

수학자 라이언 오다우드(Ryan O’Dowd)가 발표한 2026년 2월 20일 논문 <훈련 없는 학습(Learning Without Training)>은 이러한 기존의 훈련(Training)중심 패러다임에서 벗어나, 조화 분석과 근사 이론을 바탕으로 데이터로부터 직접 모델을 구성하는 혁신적인 대안을 제시합니다.

그러니까, 기존 AI가 안개 속에서 정답이라는 산 정상(최적값)을 찾아가는 과정이었다면, 이 논문은 수학적 설계도(근사 이론)를 이용해 정답으로 가는 길을 즉석에서 만들어 버리는 겁니다.

이 논문의 첫 번째 혁신은 고차원 데이터의 차원의 저주를 해결하는 매니폴드(Manifold) 학습 없는 매니폴드 학습입니다. 기존에는 데이터가 존재하는 저차원 기하학적 구조(매니폴드)를 먼저 추정하는 복잡한 단계를 거쳐야 했으나, 본 연구는 이를 과감히 생략합니다. 대신 국소화된 커널(Localized Kernels)이라는 수학적 도구를 사용해, 매니폴드의 구조를 전혀 모르더라도 오직 차원(Dimension) 정보 하나만으로 목표 함수를 즉시 정확하게 근사해 냅니다.

저도 공부하는 김에 쉽게 설명을 하자면, 구겨진 100만 화소짜리 사진은 수학적으로 100만 차원의 데이터입니다. 하지만, 사진 속 사람의 얼굴은 눈, 코, 입의 위치 같은 몇십 개의 핵심 특징(저차원)만으로도 충분히 설명이 가능합니다. 겉보기엔 엄청나게 복잡한 고차원 공간에 흩어져 있는 데이터라도, 사실 그 안에는 데이터가 존재하는 진짜 저차원 구조(이걸 매니폴드라고 부릅니다)가 숨어있습니다. 기존 AI는 이 데이터를 분석하기 위해 먼저 구겨진 종이를 쫙 펴는 작업(매니폴드 학습)을 하느라 엄청난 컴퓨팅 자원과 시간을 소모해야만 했습니다.

그런데, 이 논문에서는 얘기하고 있는 매니폴드 학습 없는 매니폴드 학습은 구겨진 종이를 힘들게 쫙 펴는 예비 작업 없이, 그게 원래 ‘2차원 종이’라는 정보 하나만으로 돋보기(국소화된 커널)를 들이대어 정답을 즉시 읽어내는 초효율적 기술론입니다. 내 주변의 지형(수학적 커널)과 그 지도가 몇 차원인지(차원 정보)만 가지고 곧바로 목적지(목표 함수)를 찾아낸다는 뜻입니다.

예전에 올렸던 meta 의 논문이 수십억 개의 지도를 새로 그리는 대신, 단 13개의 밸브(스위치)만을 조절해 모델 내부에 이미 잠재된 추론 경로를 찾아낸 것과 유사합니다.

<Learning to Reason in 13 Parameters>

https://www.facebook.com/share/p/1AAwa7hSE6

두 번째 성과는 지식을 이식하는 국소적 전이 학습(Local Transfer Learning)의 재정의입니다. 모델 전체를 재학습시키는 기존의 전이 학습과 달리, 이 연구는 데이터를 하나의 공간에서 다른 공간으로 수학적으로 들어 올리는(Lifting) 과정을 제안합니다. 특히 전체 데이터가 아닌 특정 영역의 데이터만으로도 두 공간 사이의 결합 거리를 계산해 지식을 전이할 수 있어, 자원 소모를 극적으로 줄였습니다.

그러니까, 모든 데이터를 처음부터 다시 가르치는 대신, 공간과 공간 사이의 휘어진 정도(차이)만 수학적으로 계산해 기존 지식을 새로운 곳으로 가볍게 옮겨 심는 기술입니다.

meta의 13 parameters 논문에서 “전부 뜯어고치지 마!!!” 라면서, 수십억 개 가중치를 놔두고, 딱 13개의 밸브만 조절해 원래 능력을 발현시킨거라면,

이 논문에서는 “”처음부터 다시 가르치지 마!!!!” 라고 하면서, 전체 데이터를 재학습하지 않고, 공간 사이의 차이값(Lifting)만 계산해 지식을 옮기는 것입니다.

무엇보다 가장 중요한 성과는 분류(Classification)문제에 대한 발상의 전환입니다. 기존 AI는 불연속적인 데이터를 분류하기 위해 수많은 라벨링 데이터와 반복 훈련을 요구했습니다. 하지만 오다우드는 분류 문제를 겹쳐 있는 파동 속에서 발원지를 찾아내는 신호 분리(Signal Separation) 문제로 치환했습니다. 논문에서 개발한 MASC 알고리즘은 라벨링이 전혀 없는 상태에서 데이터의 밀도가 높은 지지집합(Support)을 스스로 파악합니다. 그리고 각 군집에서 가장 정보 가치가 높은 단 하나의 핵심 데이터 포인트만 쿼리(Query)하여 군집 전체를 완벽하게 분류해 냅니다.

기존의 분류방식이 사실상 라벨링 노가다였죠. 제미나이에게 적절한 사례를 들어 설명하라고 하니 이렇게 정리해주네요.

“왁자지껄한 시장통에서 친구 찾기”

기존의 분류 방식, 그러니까 라벨링 노가다는 시장에 있는 1,000명의 사람에게 일일이 다가가서 “넌 상인 or 손님?”라고 묻고 명찰을 붙여주는 방식으로, 라벨링 데이터가 엄청나게 필요하고, 사람이 중간에 섞여 있으면 분류가 매우 어려워지거나 불가능합니다.

이에 비교해서, 이 논문의 방식은 신호 분리입니다. 눈을 감고 소리에 집중해서, 시장통의 소음(데이터) 속에서 미세하게 다른 목소리 톤(파동)을 감지합니다.

“아, 저쪽 구석에는 전부 비슷한 톤을 가진 100명이 모여 있네?”라고 목소리의 발원지(지지집합)를 먼저 파악합니다. 그런 다음, 그 무리 중 딱 한 명에게만 가서 묻습니다. “상인이세요?” 그가 “네”라고 답하면(단 하나의 쿼리), 수학적으로 같은 파동 무리에 속한 100명 전체를 즉시 상인으로 분류해 버립니다.

이러면 정확성이 떨어질수도 있는거 아니냐? 는 의심에 논문은 실험으로 증명해줍니다. 논문 내 실험에 따르면, 무작위로 추출해 학습시킨 모델보다 MASC 알고리즘을 통해 핵심 지점만 쿼리했을 때의 정확도가 표준편차의 9배 이상(9.03 sigma) 더 높게 나타났습니다.

이 쯤에서 도대체 이 논문의 저자가 누군지 궁금해졌습니다.

라이언 오다우드는 이 논문이 바로 2026년 수학 박사학위 논문인데요, 근사 이론의 대가, 흐루시케슈 므하스카(Hrushikesh Mhaskar) 교수가 그의 지도교수라고 합니다. 므하스카 교수는 이 논문에서 제안한 ‘훈련 없는 직접 근사 패러다임’의 이론적 토대를 닦은 인물이라고 하네요…

그래서 이 논문이 주목받고 있는 것 같습니다.

마지막으로, 정리해보자면,

이 논문이 중요한 것은, 인공지능 패러다임이 방대한 데이터를 반복 학습하여 정답을 찾는 물량 공세의 시대를 지나, 데이터와 모델의 본질적인 수학적 구조와 최적의 위치를 정확히 타격하는 방향으로 진화하고 있다는걸 다시 한번 보여준 사례이기 때문이라고 봅니다.

Meta가 단 13개의 파라미터(위치)만으로 잠재된 추론 능력을 깨웠듯, 이 논문은 복잡한 훈련 과정 없이도 데이터가 존재하는 기하학적 구조를 활용해 즉각적으로 해답을 구성(Construction)할 수 있음을 수학적으로 입증했습니다. 결국 파라미터의 크기보다 구조적 역할이 성능을 결정한다는 것은, 막대한 인프라 투입 없이도 확정적인 수렴 보장(Convergence Guarantees)이 가능한 투명하고 효율적인 AI를 만들수 있고, 곧 차세대 AI 전략의 핵심 방향성이 될 수 있을 것 같네요.

아 그리고, 중국도 좋아할듯 합니다. ㅋㅋ GPU 클러스터를 동원해 수십억 개의 파라미터를 역전파(Backpropagation)로 업데이트하는 대신……데이터 라벨링 비용이 극심한 환경에서 MASC 알고리즘을 통해 단 몇 개의 핵심 포인트만으로 전체 군집을 정확히 분류해내는 기법은 리소스가 제한된 온디바이스나 윈도우 기반 엣지 컴퓨팅 환경에서도 고성능 AI를 구축해야 하는 개발자들에게 ‘훈련 비용 제로’에 가까운 극강의 실용성을 제공할 수 있을것 같습니다.

p.s. : 이 논문 수학 박사학위 논문이라 너무 어렵습니다. 아니 몇페이지 넘기다가 그냥 포기가 되더라구요…논문 원문 보시려면 AI 도움 받으시길 적극 추천드립니다.

* 논문 출처 : https://www.alphaxiv.org/abs/2602.17985

댓글 남기기