autoresearch

autoresearch는 LLM 에이전트가 자율적으로 ML 연구를 수행하게 하는 프레임워크 (by Andrej Karpathy)
사람이 자는 동안 GPU 1대로 수십~수백 개의 실험을 자동 반복하는 야간 자율 연구 시스템
코드 수정 → 학습 → 평가 → 수용/거부의 실험 루프를 AI가 독립적으로 운영하는 패러다임

해당 개념이 필요한 이유

기존 ML 연구는 연구자가 직접 코드를 수정하고, 학습을 실행하고, 결과를 평가하는 수동 반복 작업에 막대한 시간이 소요됨
5분짜리 실험 하나를 위해 코드 수정 → 실행 → 대기 → 분석의 전체 사이클에 연구자의 주의력이 묶임
밤 시간 등 유휴 GPU 시간을 활용하여 연구 생산성을 극적으로 높일 수 있음

AS-IS

sequenceDiagram
    autonumber
    participant R as 연구자
    participant C as 코드 (train.py)
    participant G as GPU

    R->>C: 코드 수정 (아키텍처/하이퍼파라미터)
    R->>G: 학습 실행
    G-->>R: 결과 대기 (5분~수시간)
    R->>R: 결과 분석 및 판단
    R->>C: 다음 실험을 위한 코드 수정
    Note over R,G: 연구자가 모든 단계에 관여 → 병목

TO-BE

sequenceDiagram
    autonumber
    participant H as 연구자
    participant A as LLM Agent
    participant C as train.py
    participant G as GPU

    H->>A: program.md 작성 (연구 방향 지시)
    loop 자율 실험 루프 (무한 반복)
        A->>C: 코드 수정
        A->>A: git commit (autoresearch/tag)
        A->>G: uv run train.py (5분 고정)
        G-->>A: val_bpb 결과
        alt 개선됨
            A->>A: 변경 유지, results.tsv 기록
        else 악화됨
            A->>A: git reset으로 되돌림
        end
    end
    H->>A: (다음 날 아침) 결과 확인
    Note over H,G: 연구자는 자고 있고, Agent가 밤새 실험

3가지 핵심 파일 구조

autoresearch의 전체 시스템은 딱 3개의 파일로 구성된다. 이 극단적인 단순함이 핵심 설계 철학이다.

program.md — 연구 지시서

사람이 작성하는 마크다운 형식의 연구 계획서. LLM 에이전트가 이 파일을 읽고 연구 방향을 이해한다.

무엇을 최적화할지 (val_bpb 최소화)
어떤 파일을 수정할 수 있는지 (train.py만)
어떤 파일을 절대 수정하면 안 되는지 (prepare.py, pyproject.toml)
실험 결과를 어떻게 기록할지 (results.tsv)

핵심 지시: “Do NOT pause to ask the human if you should continue… The loop runs until the human interrupts you, period.”

train.py — 유일한 수정 대상

에이전트가 수정할 수 있는 유일한 파일. GPT 모델 정의, 옵티마이저, 학습 루프를 모두 포함한다.

구성 요소	세부 사항
모델 아키텍처	Transformer, 8-layer, Sliding Window Attention (SSSL 패턴)
어텐션	Flash Attention v3 + Rotary Embeddings
활성화 함수	ReLU-squared: `F.relu(x).square()`
옵티마이저	MuonAdamW (Muon + AdamW 하이브리드)
시퀀스 길이	2048 tokens
어휘 크기	32,768 tokens (train) / 8,192 (tokenizer)
학습 정밀도	bfloat16 mixed precision
컴파일	`torch.compile(dynamic=False)`

prepare.py — 불변의 인프라

데이터 준비와 평가 함수를 담당하는 절대 수정 불가 파일.

데이터셋: climbmix-400b-shuffle (HuggingFace)
BPE 토크나이저 학습 (rustbpe 기반, GPT-4 스타일 정규식)
evaluate_bpb() 함수 제공 — 모든 실험의 평가 기준

자율 실험 루프의 작동 원리

에이전트는 다음 6단계를 사람의 개입 없이 무한 반복한다:

1. program.md 읽기 → 연구 방향 파악
2. train.py 수정 → 아키텍처/하이퍼파라미터 변경
3. git commit → autoresearch/<tag> 브랜치에 기록
4. uv run train.py → 5분 고정 학습 실행
5. grep "val_bpb" run.log → 결과 추출
6. 판단 → 개선이면 유지, 악화면 git reset

시간당 약 12개, 하룻밤에 약 100개의 실험이 가능하다.

5분 고정 시간 예산의 설계 의도

모든 실험이 정확히 300초(5분)의 wall-clock time으로 제한된다. 이는 단순한 편의가 아니라 핵심 설계 결정이다.

공정한 비교: 아키텍처 A와 B가 동일한 시간 안에서 어떤 val_bpb를 달성하는지 비교 가능
플랫폼 최적화: 고정 시간이므로 해당 GPU에서 가장 효율적인 모델 크기/구조를 자연스럽게 탐색
빠른 반복: 5분이면 충분히 의미 있는 학습이 가능하면서도 하룻밤에 수백 회 반복 가능
진행률 기반 스케줄링: progress = total_training_time / TIME_BUDGET로 LR warmup/warmdown을 시간 비율로 제어

val_bpb — 단일 평가 지표

Validation bits per byte. 모델이 검증 데이터를 얼마나 잘 압축하는지를 나타내는 지표.

크로스엔트로피 손실을 bits-per-byte 단위로 변환
어휘 크기와 무관하게 공정 비교 가능 (32K vocab vs 8K vocab 비교 가능)
낮을수록 좋다 — 모델이 데이터를 더 잘 이해하고 있다는 의미
모든 실험의 유일한 성공/실패 판단 기준

단순함 우선 원칙

program.md에 명시된 핵심 철학: “동일한 0.001 val_bpb 개선이라도, 코드를 삭제해서 얻었다면 유지하고, 20줄을 추가해서 얻었다면 버린다.”

에이전트의 코드 수정은 단일 파일(train.py)로 제한
diff가 리뷰 가능한 수준으로 유지됨
복잡한 분산 학습, config 시스템, 외부 프레임워크 없음
의존성 최소화로 에이전트가 코드를 완전히 이해할 수 있음

MuonAdamW 하이브리드 옵티마이저

train.py의 기본 옵티마이저는 Muon과 AdamW 두 가지 전략을 결합한다:

파라미터 유형	옵티마이저	Learning Rate
Embedding 레이어	AdamW	0.6
Unembedding (lm_head)	AdamW	0.004
레이어별 스칼라	AdamW	0.5
2D 행렬 (어텐션/MLP)	Muon	orthogonalization 기반

Muon은 Newton-Schulz 직교화와 NorMuon 분산 감소를 사용하며, Cautious weight decay (그래디언트와 파라미터의 곱이 ≥ 0일 때만 적용)를 도입한다.

Explorer

날짜별 보기

2026년 (148)

2025년 (8)