AI 내부 회로를 해부하기 위한 새로운 해석 패러다임을 제시하는 OpenAI 의 연구가 11.13일자로 OpenAI 블로그에 올라왔네요.
간단히 말하면, 중요하다고 판단된 소수의 가중치만 남기고 나머지는 모두 제거해 연결 구조를 극도로 단순화함으로써, 각 뉴런의 역할이 명확하고 회로가 몇 개에서 수십 개 노드 수준으로 해부 가능한 Sparse LLM을 만들고, 이렇게 찾은 구조를 Bridges를 통해 Dense LLM과 대응시켜 Dense 모델의 작동 원리를 간접적으로 추적하는 방식입니다.
LLM이 압도적으로 많은 가중치와 거대한 계산 구조를 바탕으로 고성능을 발휘하고 있고, 수십억 단위의 파라미터가 촘촘하게 연결된 이 dense한 구조는, 인간이 작성한 어떤 알고리즘보다도 유연하고 강력한 패턴 추론 능력을 갖추게 하는 핵심 기반이죠.
Transformer 구조가 혁신적이었던 이유도, 이런 방대한 차원의 표현 공간에서 다중 개념을 동시에 처리하는 능력을 제공했기 때문입니다.
그러나 같은 이유 때문에, dense한 LLM 내부는 해석 불가능한 혼합 상태(superposition)의 영역으로 변해버렸다고 지적합니다. 하나의 뉴런이 여러 개념을 동시에 담당하고, 수많은 연결선이 서로 영향을 주고받으며 복잡하게 얽혀 있어, 특정 뉴런이 무슨 기능을 하는지, 특정 출력이 어떤 내부 경로를 통해 만들어졌는지 명확히 파악하기 어렵습니다. 가중치가 많아질수록 성능은 증가하지만, 설명 가능성은 정반대로 사라지는 구조입니다.
이 난제를 해결하기 위한 접근으로 OpenAI가 제시한 것이 Sparse Transformer입니다. Sparse 모델은 학습 과정에서 대부분의 가중치를 강제로 0으로 만들어, 정확히 말하면 소수의 중요한 가중치를 ‘그대로 남기고’, 나머지는 전부 정확히 0으로 만들어, 연결을 끊는 방식을 사용합니다.
이렇게 하면 학습 가능한 연결 자체가 극도로 제한되기 때문에, 각 뉴런이 복잡한 정보를 뒤섞어 표현하기 어렵고, 결국 하나의 단순하고 깨끗한 기능을 담당하는 방향으로 학습이 수렴하게 됩니다. 복잡한 배선으로 얽힌 기계를 최소 부품만 남기고 정리한 듯, 내부 회로가 선명하고 깔끔한 형태로 드러나는 것입니다.
Sparse 모델의 목적은 더 똑똑한 모델을 만드는 것이 아닙니다. 오히려 dense 모델보다 능력이 떨어지며, 최첨단 작업을 수행하기에는 부족한 점도 많습니다. 하지만 Sparse 모델은 그 대신 뉴런,채널,attention head의 역할을 완전히 해부할 수 있는 ‘모델 생물종(model organism)’ 역할을 수행합니다.
생물학에서 초파리나 선충이 인간을 직접 해부할 수 없을 때 사용하는 모델 생물로 쓰이듯, Sparse 모델은 복잡한 dense 모델의 기본적인 회로 구조를 이해하기 위해 만들어진 실험용 플랫폼입니다. 이 모델에서는 문자열의 따옴표를 닫는 기능, 리스트의 중첩 깊이를 세는 기능, 변수의 타입을 추적하는 기능이 각각 몇 개의 뉴런과 몇 개의 연결로 구성되는지 실제 회로 형태로 볼 수 있습니다. Dense 모델에서는 절대 불가능한 수준의 해부도가 Sparse 모델에서는 손에 잡힐 정도로 명확하게 드러납니다.
근데 이게 무슨 의미가 있나? 여기까지는 그렇지만 중요한건 Bridges 에 있습니다.
실제 세계에서 사용하는 모델은 Sparse가 아니라 Dense죠. 연구용 모델에서 회로를 해부한 뒤, 이 결과를 어떻게 실제 거대 모델에 적용할 수 있을까?
이 질문에 대한 해법으로 OpenAI 연구가 제안하는 것이 Bridges 입니다. Bridges는 Dense 모델과 Sparse 모델 각각의 레이어 사이에 일종의 일대일 변환기를 두어, 두 모델의 표현 공간을 서로 연결하는 기술입니다.
각 레이어의 residual stream을 sparse 공간과 dense 공간 사이에서 변환하도록 학습함으로써, Sparse 모델의 의미 있는 뉴런 방향이 Dense 모델에서도 대응되는 위치를 갖도록 정렬합니다.
이 구조가 제대로 학습되면 매우 중요한 효과가 나타난다고 합니다. Sparse 모델에서 특정 뉴런을 조작하면, Bridges가 이 뉴런의 변화를 Dense 모델의 대응되는 표현 방향으로 정확히 전달합니다. 결국 Dense 모델의 출력도 변경됩니다.
논문에서는 이 과정을 실험적으로 검증하여, Sparse 모델의 “quote type classifier” 뉴런을 조작하면 Dense 모델이 실제로 큰따옴표 대신 작은따옴표를 출력하도록 영향을 받는 것을 보여주고 있습니다. Sparse 모델에서 해석된 회로가 Dense 모델 내부에도 구조적으로 존재한다는 강력한 간접 증거이며, Sparse 모델이 Dense 모델의 “투명화 도구”로 기능할 수 있음을 시사하는 부분입니다.
이 기술이 성숙하면 AI 안전과 신뢰성 측면에서 매우 큰 변화가 예상됩니다. Dense 모델 자체는 해석하기 어렵지만, Sparse 모델을 해부해 회로 단위의 기능을 파악한 뒤, Bridges를 통해 Dense 모델에서 그와 대응되는 feature direction을 찾아낼 수 있습니다. 이렇게 되면 Dense 모델 내부에서 속임수, 목표 변경, 장기 계획, 위험한 의도성 같은 패턴을 회로 단위로 감지할 수 있게 됩니다. 이는 지금까지 어떤 해석 가능성 기법도 제공하지 못했던 수준의 내부 감시 능력이며, AI 안전 연구의 질적 도약을 의미한다고 OpenAI 는 주장합니다.
정부,국방,공공 분야에서도 매우 중요한 의의를 갖습니다. 고위험 AI 시스템은 “왜 이런 결정을 내렸는가?”, “어떤 내부 회로가 어떤 판단을 내리도록 영향을 주었는가?”와 같은 질문에 응답할 수 있어야 하는데,
Sparse-Dense 매핑이 제대로 가능해지면, Dense 모델의 특정 회로 방향이 위험하게 활성화될 때 실시간으로 감지하고 차단하는 회로 기반 안전 인증 체계를 구축할 수 있습니다. 국가 차원의 AI 규제, 공공 서비스용 고신뢰 모델 개발, Sovereign AI 전략에도 직접 연결되는 기술적 기반이 될수 있겠죠.
Dense 모델을 직접 해부할 수 없다면, 그보다 작고 투명한 모델 생물을 이용해 간접적으로 해석하는 이 전략이 중요한거 같습니다.
- OpenAI 블로그 : https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
- 논문 : https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf