훈련없는 학습 (Learning without Training)

오늘날의 머신러닝, 특히 딥러닝 모델은 본질적으로 방대한 데이터를 바탕으로 한 통계적 최적화 과정에 크게 의존하고 있습니다. Empirical Risk 를 최소화하기 위해 경사 하강법같은 훈련 방식을 사용하지만, 그러다보니 Local minimum 에 빠지거나 수렴이 느려지는 등 태생적인 불안정성을 안고 있습니다. 그러다보니 이러한 최적화 기반 훈련은 결과의 도출 과정을 설명하기 어려운 ‘블랙박스’ 문제를 야기시키 기도 합니다. 수학자 라이언 … 더 읽기

GLM-5: from Vibe Coding to Agentic Engineering

GLM-5 테크리포트가 2월 17일에 올라왔네요. 이 테크리포트는 제목 <GLM-5: from Vibe Coding to Agentic Engineering> 처럼, AI가 단순히 인간의 프롬프트로 코드 조각을 짜주던 수동적인 바이브 코딩(Vibe Coding) 시대에서, AI 스스로 전체 소프트웨어 개발 과정을 기획, 구현, 검증, 수정하는 주도적인 에이전트 기반 엔지니어링(Agentic Engineering)시대로의 전환을 제시하고 있습니다. 이를 위해 비용은 확 줄이면서 긴 문맥을 이해하는 고효율 … 더 읽기

Gemini를 활용한 과학 연구 가속화: 사례 연구 및 공통 기법

2월 3일 발표된 <Accelerating Scientific Research with Gemini: Case Studies and Common Techniques> 은 Google Research와 CMU, Harvard, MIT 등 유수 대학의 연구진 30여 명이 참여하여, Gemini Deep Think(추론 강화 모델)가 실제 과학 난제 해결에 어디까지 기여할 수 있는지 검증한 연구입니다. 기존 AI가 코딩 보조나 텍스트 요약에 그쳤다면, 이 연구는 AI가 전문가 수준의 수학적 증명, … 더 읽기

Learning to Reason in 13 Parameters (by META)

LLM의 미세조정(Fine-tuning)을 지배해 온 것은 단연 LoRA(Low-Rank Adaptation)였습니다. 수십억 개의 파라미터를 전부 재학습하는 비효율을 획기적으로 줄여주었지만, 여전히 수백만 개의 파라미터와 랭크(Rank) 행렬 연산이 필요하다는 점은 변함이 없었습니다. 그런데 2026년 2월 4일, Meta(FAIR) 연구진이 발표한 <Learning to Reason in 13 Parameters> 논문은 우리가 당연하게 여겨왔던 이 ‘최소한의 용량’을 훨씬 더 줄여버렸습니다. 이 연구의 핵심은 단순합니다. Qwen-2.5 … 더 읽기

Agentic Reasoning for Large Language Models (by Meta, Google deepmind, Amazon 등)

2026년 1월 18일 발표된 따끈따끈한 <Agentic Reasoning for Large Language Models> 논문입니다. 학계와 산업계의 최전선에 있는 연구진이 대거 참여한 대규모 프로젝트인데요, 주요 참여 기관을 보면, UIUC(일리노이대 어바나-샴페인)를 주축으로, Meta(메타), Amazon(아마존), Google DeepMind(구글 딥마인드), Yale(예일대), UCSD 등 입니다.(다만, 공동저자들의 이름을 보니..다 중국계로…..^^) 이 논문은 특정 기업의 기술 보고서가 아니라, 2025년까지의 에이전트 연구 흐름을 집대성하고 미래 방향(Roadmap)을 … 더 읽기

DeepSeek Engram: GPU에서 메모리로 – 차세대아키텍처

1. 스케일 법칙의 한계와 아키텍처의 전환 ChatGPT 등장 전후로 LLM의 발전사는 Scale is All You Need 라는 스케일링 법칙(Scaling Law)에 의해 지배되어 왔죠. 모델의 파라미터 수를 수천억 개로 늘리고, 학습 데이터의 양을 무한대로 확장하며, 천문학적인 양의 GPU 연산 자원을 투입하면 성능이 정직하게 올라갔습니다. 그런데, 언제까지 늘리기만 할 수는 없는 노릇이고, 심각한 경제적, 공학적 임계점에 도달한게 … 더 읽기

Dense vs Sparse, 모델 진화 방향은?

오늘 네이버에서 독자 파운데이션 모델로 HyperCLOVA X SEED Think 32B, HyperCLOVA X Omni 8B 두가지 모델을 오픈소스로 공개했네요. 이 중 32B 모델은 dense 모델이라고 합니다. 그런데, 어떤 분이 MoE와 같은 sparse 구조가 아니라 왜 dense 로 한거지? 라고 하시는데.. deepseek 때문에 sparse 구조가 트랜드처럼 되버렸지만, dense 모델은 여전히 중요합니다. 그래서 생각난 김에 정리해봤습니다. “이제 dense … 더 읽기

일관성+긴 AI비디오 생성 : Memory+Latent = StoryMem

StoryMem: Multi-shot Long Video Storytelling with Memory (2025.12.22) – 이 논문은 기존의 비디오 모델들이 해결하지 못했던 ‘장기적 일관성’ 문제를 해결하기 위한 논문입니다. 현재 AI 기반 비디오 생성 기술은 놀라운 속도로 발전하고 있죠. 하지만 그 화려함 이면에는 치명적인 한계가 존재합니다. 바로 ‘서사의 단절’입니다. 비디오 모델(Sora, Runway 등)은 단일 샷(Single-shot) 생성에는 탁월하지만, 1분 이상의 긴 영상을 만들거나 … 더 읽기

Nested Learning과 Post GPU, 춘추전국시대

구글이 지난 11월 7일 블로그를 통해, Nested Learning 을 소개했습니다. Nested Learning 은 “학습을 여러 시간축으로 나누는 인간 논의 방식” 을 따라했습니다. 가장 단순하게 표현하면, 모델이 학습하는 속도와 기억하는 방식을 여러 layer로 나누는 학습 구조입니다. 지금까지의 인공지능은 하나의 시간축에서 하나의 최적화 방식으로 파라미터를 업데이트해왔습니다. 매 스텝마다 전체 모델이 똑같은 방식으로 갱신되는 방식입니다. 우리가 공부를 할 … 더 읽기

해석 가능 AI를 위한 Sparse 모델 by OpenAI

AI 내부 회로를 해부하기 위한 새로운 해석 패러다임을 제시하는 OpenAI 의 연구가 11.13일자로 OpenAI 블로그에 올라왔네요. 간단히 말하면, 중요하다고 판단된 소수의 가중치만 남기고 나머지는 모두 제거해 연결 구조를 극도로 단순화함으로써, 각 뉴런의 역할이 명확하고 회로가 몇 개에서 수십 개 노드 수준으로 해부 가능한 Sparse LLM을 만들고, 이렇게 찾은 구조를 Bridges를 통해 Dense LLM과 대응시켜 Dense … 더 읽기

AsyncThink : LLM의 다음 진화, 스스로 생각을 조직하는 인공지능 (by MS research)

10월 30일자, Microsoft Research 가 발표한 논문은, LLM이 단일 개체로 사고하던 기존 방식에서 벗어나, 여러 내부 에이전트가 협력적으로 사고하는 ‘Agentic Organization’ 개념을 제안했습니다. 핵심 개념은 AsyncThink(Asynchronous Thinking) 입니다.AsyncThink는 하나의 모델 안에서 Organizer 와 작업자Worker 를 가상적으로 설정하고, 이들이 Fork–Join 구조를 통해 병렬적으로 사고하도록 만듭니다.(그림을 봐야 좀더 이해가 쉽습니다..) Organizer 는 문제를 분석하고 하위 과제를 나누며, … 더 읽기