Agentic Reasoning for Large Language Models (by Meta, Google deepmind, Amazon 등)

2026년 1월 18일 발표된 따끈따끈한 <Agentic Reasoning for Large Language Models> 논문입니다. 학계와 산업계의 최전선에 있는 연구진이 대거 참여한 대규모 프로젝트인데요, 주요 참여 기관을 보면, UIUC(일리노이대 어바나-샴페인)를 주축으로, Meta(메타), Amazon(아마존), Google DeepMind(구글 딥마인드), Yale(예일대), UCSD 등 입니다.
(다만, 공동저자들의 이름을 보니..다 중국계로…..^^)

이 논문은 특정 기업의 기술 보고서가 아니라, 2025년까지의 에이전트 연구 흐름을 집대성하고 미래 방향(Roadmap)을 제시하는 체계적인 서베이(Systematic Survey) 논문이라고 보면 될 것 같습니다. (무려 135페이지)

연구 배경을 보면 뭐 간단합니다.
LLM은 수학문제 풀이나 코딩같은 닫힌 세계(Closed world)에서는 높은 성과를 보였지만, 현실세계는 실시간으로 정보가 변하고 복잡한 상호작용이 끊임없이 일어나는 Open-Ended 이기 때문에 기존의 정적인 LLM이 동적인 환경에서 추론의 깊이를 유지하거나 일관된 행동을 수행하는 데 명확한 한계가 있다는 지적에서 출발했습니다.

결론부터 보면, 그래서 AI 모델의 패러다임을 단순히 다음 단어를 예측하는 수동적 예측기에서, 목표 달성을 위해 스스로 계획하고 행동하며 학습하는 자율적 추론 에이전트(Autonomous Reasoning Agent)로 전환해야 한다는 것입니다.

이 논문의 구성을 보면,에이전트 기술을 그냥 마구 나열하는 대신, 환경의 역동성에 따라 세 가지 Layer 로 분류하고, 이를 구현하는 두 가지 최적화 모드로 교차 분석하는 매트릭스 구조를 취했습니다.

– 3가지 레이어는 기초에이전트 추론 -> 자가진화 에이전트 추론 -> 집단다중에이전트 추론 으로 구성되어 있고,

– 2가지 최적화 모드는 인-컨텍스트(In-context, 추론 시간 설계) vs 사후 학습(Post-training, 모델 가중치 학습) 으로 나누어져 있습니다.

1. 에이전트 아키텍쳐의 3단계 진화

제1레이어: 기초 에이전트 추론 (Foundational Agentic Reasoning)

가장 먼저, 단일 에이전트가 복잡한 과제를 해결하기 위해 갖춰야 할 기초 체력은 계획(Planning), 도구 사용(Tool Use), 그리고 검색(Search) 능력으로 정의됩니다.

과거의 AI가 질문에 즉답을 했다면, 에이전트적 AI는 먼저 계획을 수립합니다. 거대한 목표를 실행 가능한 하위 작업으로 쪼개고(Decomposition), 그 순서를 정합니다.

이때 단순히 순차적인 사고(Chain-of-Thought)를 넘어, 생각의 나무(ToT)나 몬테카를로 트리 탐색(MCTS)과 같은 알고리즘을 도입합니다. 에이전트가 여러 가지 가능성을 미리 시뮬레이션해보고 최적의 경로를 선택하거나, 막다른 길에 다다랐을 때 되돌아가는(Backtracking) 능력을 갖추게 된 것을 의미하죠. 더 나아가, 자연어의 모호성을 피하기 위해 PDDL 같은 형식 언어나 코드로 계획을 생성하여 실행 가능성을 수학적으로 검증하기도 합니다.

또한, 에이전트는 여러 한계를 도구 사용을 통해 확장합니다. ReAct 프레임워크처럼 “생각하고, 도구를 쓰고, 결과를 관찰하는” 루프를 내재화하거나 , Toolformer와 같이 학습 단계에서부터 API 호출을 본능처럼 익히게 됩니다. AI가 단순히 ‘뇌’만 있는 존재를 넘어서, 계산기, 코드 실행기, 웹 브라우저라는 ‘손과 발’을 갖게 된거죠.

정보 습득 방식 또한 변하는데, 기존의 RAG가 주어진 문서를 수동적으로 읽는 것이었다면, 에이전트 검색(Agentic Search)은 능동적입니다. 에이전트는 스스로 “정보가 충분한가?”, “검색어가 적절했는가?”, “이 정보는 신뢰할 수 있는가?”를 끊임없이 되물으며 검색 전략을 실시간으로 수정합니다. 여기에 지식 그래프(Knowledge Graph)를 결합하여 단순한 텍스트 매칭이 아닌 개념 간의 연결 고리를 추론하는 구조적 검색까지 수행하게 됩니다. (GraphRAG 나 langchain 활용한 loop, dynamic RAG 등이죠)

제2레이어: 자가 진화 에이전트 (Self-Evolving Agentic Reasoning)

두 번째 단계는 에이전트가 배포된 이후에도 경험을 통해 스스로 똑똑해지는 과정입니다. 피드백(Feedback)과 메모리(Memory)가 핵심 역할을 합니다.
자가 진화 에이전트는 한 번의 실행으로 만족하지 않고, Reflexion 모델처럼, 자신의 결과물을 스스로 비평(Self-Critique)하고 수정하는 반성적 사고를 수행합니다. 또한, 코드 컴파일러나 수학 증명기 같은 외부 도구가 “에러”라는 명확한 신호를 보내면, 이를 바탕으로 즉시 재시도하거나 전략을 수정하는 검증기 주도(Validator-Driven) 학습을 수행합니다.

이 과정에서 얻은 경험과 교훈들은 날라가지 않고 에이전트 메모리에 저장됩니다. 단순한 대화 로그가 아니라, 성공했던 문제 해결 패턴(Workflow)이나 실패 원인에 대한 교훈을 지식 그래프나 계층적 요약 형태로 구조화하여 저장하는 것입니다.

에이전트는 이렇게 축적된 경험을 유사한 미래 과제에 적용함으로써, 시간이 지날수록 점점 더 노련한 전문가로 성장합니다. 심지어 무엇을 기억하고 무엇을 망각할지 결정하는 행위 자체도 강화 학습(RL)을 통해 최적화됩니다.

제3계층: 집단 다중 에이전트 추론 (Collective Multi-Agent Reasoning)

마지막 단계는 개별 에이전트의 한계를 넘어, 여러 에이전트가 협업하는 조직을 구성하는 것입니다.

(제가 전에 주장했었던 Orchestra RAG 같은 거로 보입니다. 그리고 langchain 의 deep agent 그러니까 조직화된 구조를 통해서 메인 에이전트와 서브 에이전트가 협업하는, 그리고 파일 시스템에 작업중 생성된 산출물을 공유저장소에 저장하여 컨텍스트를 유지하는 그런 구조입니다, )

RAG의 다음 진화 – 오케스트라 RAG(Orchestra RAG)

이 단계에서 에이전트들은 명확한 역할(Role)을 부여받습니다. 전체를 조율하는 리더, 실무를 담당하는 워커, 결과물을 검증하는 비평가, 정보를 관리하는 메모리 관리자 등으로 기능이 분화됩니다. 특히 법률 분야를 예로 들어보면, 접수원, 분야별 전문 변호사, 판례 분석가, 가상의 판사 등으로 역할이 세분화되어 전문성을 극대화할 수 있습니다.

협업의 방식 또한 정교해집니다. 단일 모델이 갖는 편향이나 환각을 줄이기 위해, 서로 다른 관점을 가진 에이전트들이 치열하게 토론(Debate)하고 투표나 합의를 통해 결론을 도출합니다. 예를 들어, 공격 측 에이전트와 방어 측 에이전트가 논쟁을 벌이면 제3의 에이전트가 이를 중재하여 가장 합리적인 결론을 내리는 식입니다.

그리고, 개별 에이전트뿐만 아니라, 에이전트 팀 자체가 공진화(Co-evolution)합니다. 협업 과정에서 비효율적인 소통 방식이 발견되면 이를 스스로 수정하고, 팀 전체가 공유하는 메모리를 업데이트하여 조직 전체의 노하우를 자산화하는 겁니다,

2. 모델의 고도화 전략 – 2가지 실행전략

이 논문에서는 에이전트를 고도화하기 위한 전략을 단편적인 기술 나열이 아닌, 추론 시점의 최적화(In-context Reasoning)와 학습 시점의 최적화(Post-training Reasoning)라는 두 가지 축으로 구분하여 체계화하고 있습니다. 에이전트의 지능을 높이기 위해 더 깊게 생각하게 만들 것인가(추론), 아니면 뇌 구조 자체를 재설계할 것인가(학습)에 대한 전략적인 선택과 통합 입니다.

1) 인-컨텍스트 추론 (In-context Reasoning)

첫 번째 전략인 인-컨텍스트 추론은 모델의 가중치를 물리적으로 수정하지 않고, 추론 시간(Inference-time)에 투입하는 연산 자원을 늘려 성능을 극대화하는 방식입니다 논문은 이 과정을 단순한 프롬프트 엔지니어링의 차원을 넘어, 추론 자체를 하나의 통합된 탐색(Search)과 오케스트레이션 (Orchestration)의 문제로 정의합니다. (그봐! 오케스트라 RAG! 내말이 맞지? 라고….ㅋㅋ)

가장 중요한 변화는 추론 시간 탐색(Inference-Time Search)의 도입입니다. 논문에서는 에이전트의 추론을 최적의 생각과 행동이 연결된 하나의 궤적(Trajectory)을 선택하는 문제로 봅니다.

기존의 선형적인 생각의 사슬(CoT)이 가진 한계를 극복하기 위해, 생각의 나무(ToT)나 몬테카를로 트리 탐색(MCTS)과 같은 알고리즘이 결합됩니다.

( 이전에 쓴 글 참고하세요 ㅋㅋ)

CoT 의 진화, 탈언어화와 검증으로

이렇게 해서, 에이전트는 바둑 AI처럼 미래를 내다보고(Lookahead), 현재의 사고 과정이 유망한지 평가(Valuation)하며, 막다른 길에 다다르면 되돌아가는(Backtracking) 고차원적인 사고를 잠재 공간(Latent Space) 내에서 수행하게 됩니다. 복잡한 법률 검토나 다단계 정책 시뮬레이션에서 발생할 수 있는 논리적 오류를 실행 이전에 사전에 차단하는 강력한 기제가 됩니다.

나아가 구조적 오케스트레이션(Structured Orchestration)을 통해 사고의 과정을 모듈화합니다. ReWOO 프레임워크는 ‘계획 수립’과 ‘정보 관찰’을 의도적으로 분리하여, 에이전트가 전체 청사진을 먼저 그린 후 필요한 정보가 확보될 때만 실행하도록 강제함으로써 효율성을 높입니다. 또한, Reflexion과 같은 언어적 강화 학습(Verbal RL) 기법은 에이전트가 실패 경험을 단기 메모리에 저장하고, 이를 텍스트 형태의 교훈으로 변환하여 다음 추론에 반영하게 함으로써 별도의 재학습 없이도 스스로를 교정하는 자가 치유 능력을 부여합니다.

2) 사후 학습 추론 (Post-training Reasoning)

인-컨텍스트 추론이 즉각적인 성능 향상을 위한 전략이라면, 사후 학습 추론은 모델 자체가 계획 수립, 도구 사용, 자기 교정과 같은 에이전트적 사고방식을 본능적으로 수행하도록 내재화(Internalization)하는 근본적인 체질 개선 전략입니다. 주목받았던 DeepSeek-R1이나 OpenAI o1과 같은 모델들이 바로 이 방식을 채택하고 있죠,

이 전략의 핵심은 과정(Process) 중심의 강화 학습(Reinforcement Learning)입니다. 논문은 단순히 결과(Outcome)만 맞히면 보상을 주던 기존 방식에서 벗어나, 올바른 추론 과정 자체에 보상을 주는 것이 필수적임을 강조합니다.

특히 GRPO(Group Relative Policy Optimization) 알고리즘을 강조하는데요, 기존 PPO 알고리즘이 별도의 비평가(Critic) 모델을 학습시켜야 하는 비용과 불안정성을 가졌던 반면, GRPO는 모델이 생성한 여러 답변 그룹 내에서 상대적인 우열을 가려 보상을 책정합니다.

모델이 외부의 절대적인 기준 없이도 집단 내에서 더 나은 추론 경로를 스스로 발견하도록 유도하여, 수학적 풀이나 법률 논리 구성과 같이 과정의 정합성이 중요한 영역에서 비약적인 성능 향상을 이끌어냈다고 합니다.

또, 궤적 기반 미세 조정(Trajectory-based SFT)을 통해 성공적인 에이전트의 사고 과정을 모방 학습합니다. 기존의 (질문, 정답) 쌍 학습을 넘어, (질문, 생각, 도구 호출, 결과, 정답)으로 이어지는 전체 궤적을 학습시킴으로써, 모델은 “이 상황에서는 검색을 먼저 해야 한다”는 판단력을 가중치 레벨에서 갖추게 됩니다.더 나아가, 데이터 부족 문제를 해결하기 위해 모델이 스스로 문제를 출제하고 검증된 고품질 궤적을 다시 학습하는 자가 진화 훈련(Self-Evolving Training), 즉 메타 학습 루프(Meta-Learning Loop)를 구축함으로써 외부의 개입 없이도 지속적으로 성장하는 자가 증식적 지능을 실현합니다.

3. 실무 응용 분야

그리고, 논문에서는 앞에서 설명한 기초(Foundational), 자가 진화(Self-evolving), 집단(Collective)이라는 3단계 계층 구조를 통해, 각 전문 영역에서 어떻게 자율적 전문가로 활약하고 있는지, 어떻게 활용될 수 있는지 다섯 가지 핵심 분야로 나누어 제시합니다.

1) 수학 탐구 및 바이브 코딩 (Math Exploration & Vibe Coding)

가장 먼저 변화가 감지되는 곳은 수학과 코딩 분야입니다. 에이전트는 정해진 답을 내놓는 기계가 아니라, 사용자와 함께 탐구하고 적응하는 파트너로 진화하고 있습니다.

특히 바이브 코딩(Vibe Coding)에서는 모델이 단순히 코드를 생성하는 것을 넘어, 사용자와 여러 번의 대화를 주고받으며 프로그램을 함께 설계하고 수정하는 상호작용적 패러다임으로 진화하고 있다고 설명합니다. 기초적으로는 코드를 짜고 컴파일러의 피드백을 받아 검증하지만 , 더 나아가 런타임 결과를 보고 스스로 디버깅하거나 최적화하는 자가 진화 능력을 보여줍니다 . 또한, 여러 에이전트가 모듈을 공유하며 복잡한 코드베이스를 공동으로 개발하는 집단 지성의 면모도 갖추어 나가고 있다고 설명하고 있습니다.

2) 과학적 발견 에이전트 (Scientific Discovery Agents)

과학 분야에서 에이전트는 가설 설정부터 실험 실행까지 연구의 전 과정을 가속화하는 ‘AI 과학자’의 역할을 맡습니다 . 연구 목표를 단계별로 계획하고, 시뮬레이터나 실험 장비를 직접 제어하며, 방대한 최신 문헌을 검색해 필요한 지식을 습득합니다 .

중요한 점은 실험 결과에 따라 스스로 가설을 정교화하거나 프로토콜을 수정하는 피드백 루프를 갖추어 나가고 있다는 것입니다 . 더 복잡한 목표를 달성하기 위해 여러 에이전트가 역할을 분담하고 지식을 공유하며 공동으로 추론하는 모습은 크게 낯설지 않죠.

3) 로봇 에이전트 (Embodied Agents)

로봇 에이전트는 장기적인 계획을 수립하고, 도구를 활용해 주변 환경을 인식하며 물체를 조작합니다 . 이 과정에서 에이전트의 메모리와 반성 기능은 필수적인데, 로봇은 새로운 환경에 적응하고 지속적인 상호작용을 통해 자신의 제어 정책을 미세하게 조정하며 성능을 높여갑니다.

또한, 여러 대의 로봇이 서로의 인식을 공유하고 협력하여 복잡한 물리적 작업을 수행하는 집단 추론 능력도 발전하고 있습니다. (이 부분이 매우 중요한듯 합니다. 과거에는 따로따로 다 학습해야 했죠. 최근의 로봇들은 이러한 집단 학습과 추론으로 흘러가고 있습니다)

4) 헬스케어 및 의료 에이전트 (Healthcare & Medicine Agents)

의료 분야에서 에이전트는 증상 선별부터 치료 계획 수립까지 임상 의사결정의 전 과정을 지원합니다. 안전과 법적 문제는 일단 차치하고(당연한 거니까), 에이전트는 환자의 상태를 진단하고 생의학 지식 베이스를 활용해 정보를 분석합니다 . 특히 환자 개개인의 진료 기록 등의 문맥을 기억하는 메모리와 피드백 시스템을 통해, 장기적인 치료 과정에서 변화하는 상태에 맞춰 임상 계획을 수정하는 자가 진화 능력을 보여줍니다 . 나아가 의사와 에이전트가 공동으로 계획을 세우거나, 여러 전문 모델이 앙상블을 이루어 협진하는 형태의 집단 지성 시스템도 구현되고 있습니다.

5) 자율 웹 탐색 및 연구 에이전트 (Autonomous Web Exploration & Research Agents)

마지막으로, 에이전트는 웹 브라우저와 GUI 환경에서 정보를 탐색하고 복잡한 연구를 수행하는 ‘디지털 노동자’로 거듭나고 있습니다 . 온라인 리소스를 탐색하거나 소프트웨어 인터페이스를 조작하고, 과학적 워크플로우를 오케스트레이션합니다 .

환경을 인식하고 목표를 추론하여 도구를 활용해 작업을 실행하는 것은 기본이며 , 피드백과 메모리를 통해 시간이 지날수록 행동을 개선하는 자가 진화 능력을 갖추고 있습니다 . 또한 개별 에이전트의 역량을 넘어, 조정과 전문화를 통해 복잡한 과업을 창발적으로 해결하는 협업 시스템으로 발전하고 있죠.

4. 향후 과제

마지막으로 논문에서는 상용화를 위해 반드시 넘어야 할 6가지 기술적, 사회적 난제들을 지적합니다

1) 사용자 중심 에이전트 추론 및 개인화 (User-centric Agentic Reasoning and Personalization)

모든 사람에게 똑같은 답을 주는 에이전트는 당연히 한계가 있습니다. 창의성과 정확성, 일관성의 문제죠. 미래의 에이전트는 사용자를 환경의 일부로 간주하고, 다중 턴 상호작용을 통해 진화하는 사용자의 의도를 파악해야 합니다 . 사용자의 특성과 선호도를 모델링하여 맞춤형 추론을 제공하면서도, 단기적인 과제 수행과 장기적인 사용자 만족 사이의 균형을 맞추는 것이 중요한 과제입니다 .그런데, 개인적인 생각은 요즘 llm을 보면, 지나친 개인화와 맞춤형 추론때문인지, 정작 객관적 답변을 못하고 억지 답변을 하는 문제도 있어서 그 밸런스를 맞추는게 중요할 거 같네요.

2) 확장된 상호작용에서의 장기적 에이전트 추론 (Long-horizon Agentic Reasoning)

수천 단계에 걸친 긴 작업 과정에서 에이전트가 오류를 범하지 않도록 하는 것은 당연히 매우 어렵습니다 . 현재 기술로는 오류가 복리처럼 늘어나는 경향이 있을 수 밖에 없기 때문에, 긴 컨텍스트의 흐름 속에서 수많은 도구 호출과 메모리 업데이트 중 어떤 행동이 성공이나 실패에 기여했는지를 정확히 파악하여 보상을 할당(Credit Assignment)하는 기술이 절실합니다.

3) 월드 모델을 활용한 에이전트 추론 (Agentic Reasoning with World Models)

에이전트가 근시안적인 추론에 빠지지 않으려면, 행동의 결과를 미리 시뮬레이션해볼 수 있는 월드 모델(World Model)이 필요합니다 . 현재는 임시방편적인 표현에 의존하거나 훈련 데이터가 부족해 일반화에 한계가 있는데, 끊임없이 변화하는 환경 속에서 에이전트와 월드 모델을 함께 훈련(구글의 sima2가 그렇게 하고 있죠)시키고, 이게 실제 계획의 신뢰성을 얼마나 높여주는지 검증하는 것이 과제입니다.

4) 다중 에이전트 협업 추론 및 훈련 (Multi-agent Collaborative Reasoning and Training)

역할을 나누어 협업하는 것이 강력한 패러다임이라는건 증명되었지만 , 대부분의 협업 구조는 여전히 사람이 수동으로 설계하고 있는 것이 사살입니다. 그룹 차원에서 누가 얼마나 기여했는지 평가하는 신용 할당 문제도 해결되지 않았습니다 . 부분적으로만 정보를 알 수 있거나 적대적인 상황에서도 에이전트들이 유연하게 협력할 수 있도록 하는 정책 학습이 필요합니다.

5) 잠재 에이전트 추론 (Latent Agentic Reasoning)

사람의 언어가 아닌, 에이전트 내부의 잠재 공간(Latent Space)에서 계획하고 소통하는 방식은 효율성을 크게 높일 수 있습니다 . 하지만 이 경우 에이전트가 무슨 생각을 하는지 사람이 해석하거나 제어하기 어려워집니다 . 내부의 추론 과정이 외부로 드러나지 않을 때 실패 원인을 어떻게 진단할 것인지, 그리고 이 잠재 추론을 인간의 목표와 어떻게 정렬(Align)시킬 것인지가 중요한 연구 주제입니다 .

6) 에이전트적 추론의 거버넌스 (Governance of Agentic Reasoning)

에이전트는 도구를 사용해 현실 세계에 물리적, 디지털적 영향을 미칩니다. 따라서 기존 LLM의 안전성 문제를 넘어, 장기적 계획에 따른 부작용이나 실제 행동 실행에 따른 위험을 통제해야 합니다 . 실패의 원인이 여러 구성 요소에 걸쳐 있어 책임 소재를 따지기 어려운 만큼 , 에이전트 수준의 정책과 생태계 전반을 아우르는 포괄적인 거버넌스 프레임워크 구축이 시급합니다.

결론적으로 정리해보면, AI가 단순히 텍스트를 생성하는 ‘정적인 모델’을 넘어, 스스로 계획하고 도구를 사용하며 동료 에이전트와 협업하여 복잡한 현실 문제를 해결하는 ‘자율적 행위 주체(Autonomous Agent)로 진화했고, 향후 AI 의 핵심 경쟁력은 단순히 더 큰 모델을 보유하는 것을 넘어, 계획-실행-학습의 루프를 갖춘 정교한 에이전트 시스템과 이들이 유기적으로 작동하는 협업 생태계를 누가 더 효율적으로 구축하느냐에 달려 있다고 겁니다.

우리나라도 지금 정부가 빨리 준비해야할 다음 스테이지가 어디인지 제시해주는 것 같습니다. 결국은 모델을 넘어서서 생태계로, 독자적 성능보다는 상호운용성을 통한 연결성이 가야할 방향이라고 봅니다.

* 원문 : https://arxiv.org/abs/2601.12538

댓글 남기기 응답 취소