모델·에이전트 벤치마크

개발 철학과 작업 습관(설계·코드스타일·테스트/디버깅)을 기준으로, 개별 모델과 에이전트 오케스트레이션을 공정하게 비교·기록하여 상황별 라우팅 근거를 확보하기 위한 것이다.

AS-IS: 벤치마크 없이 사용할 때

공신력 있는 기준이 없어 “사람들이 좋다고 하는 모델”을 그대로 사용
“에이전트가 꼭 필요해?” → 한 모델로 전부 처리하려는 경향
agent/skill, 토큰/비용 구조를 모른 채 사용 → 품질/시간/비용이 뒤섞여 판단

sequenceDiagram
  autonumber
  participant Dev as Developer
  participant Single as Single Model
  Dev->>Single: 임의 프롬프트로 요청(기준 없음)
  Single-->>Dev: 결과(품질/시간/비용 미기록)
  Note over Dev,Single: 주관/체감으로 판단 → 재현·설득 어려움

TO-BE: 벤치마크 후 사용할 때

“평가 축(1~8) + 시간/비용”을 공통 기준으로 확보
작업 단계별 라우팅 예: 계획(A 모델) / 개발·테스트(B 모델) / 검색·참조(C 모델)
실행 로그(벽시계 시간, iteration 수, 토큰/비용)와 산출물 근거(설계안/테스트/커맨드)를 함께 기록 → 재현·설득 가능

sequenceDiagram
  autonumber
  participant Dev as Developer
  participant Plan as 계획용 모델(A)
  participant Exec as 실행용 모델(B)
  participant Search as 검색용 모델(C)
  participant Log as Usage/Cost Logger

  Dev->>Plan: 설계/명세 수립(경계, UseCase 분해, 테스트 전략)
  Plan-->>Dev: 계획 산출물(근거 포함)
  Dev->>Exec: 구현/테스트/리팩터 수행
  Exec-->>Dev: 코드/테스트 결과
  Dev->>Search: 레퍼런스/예시 검색·정리
  par 기록
    Exec->>Log: 시간/iterations/토큰/비용 기록
  and 검증
    Exec->>Exec: 빌드/테스트/린트 커맨드 실행
  end

왜 “평가 축(1~8) + 시간/비용”을 모두 보나

아키텍처/설계: MVVM 경계·DI·의존성 방향이 어긋나면 유지보수 비용 급증
코드스타일/컨벤션: 영어 KDoc, 네이밍, 패키징 일관이 가독성과 PR 속도 좌우
테스트: JUnit5 + Mockito + coroutines-test(runTest + StandardTestDispatcher) 준수가 회귀 방지·flaky 회피의 기반
디버깅: 재현→원인→검증 루프가 명확해야 수정 신뢰도 확보
리팩터 안정성: 최소 변경/영향 범위 통제가 안 되면 숨어있는 결함 유입
요구사항 명세화: 모호함을 질문/AC로 해소하지 않으면 번복·재작업 발생
생산성: 벽시계 시간·iteration 수로 실제 속도·탐색 비용을 계량화
도구 활용: 빌드/린트/테스트 커맨드의 적절한 사용은 품질 가속 장치
비용: 토큰→모델사 단가 매핑으로 금액 추정·ROI 판단 가능

참고 문서(‘기준 축’ 앵커)

Arena : https://arena.ai/
SWE-bench: https://www.swebench.com/

메모

참고 문서의 Arean에서 모델 간 비교
SWE-bench에서 평가값 참고

Oh! Heepie Day! 🐢

Explorer

날짜별 보기

2026년 (44)

2026.02.21 (5)

2026.02.18 (1)

2026.02.17 (3)

2026.02.16 (4)

2026.02.12 (5)

2026.02.10 (3)

2026.02.09 (1)

2026.02.05 (9)

2026.01.28 (1)

2026.01.09 (1)

2026.01.08 (5)

2026.01.07 (1)

2026.01.06 (2)

2026.01.05 (1)

2026.01.03 (2)

2025년 (4)

2025.12.26 (1)

2025.07.27 (1)

2025.06.20 (2)

모델·에이전트 벤치마크

AS-IS: 벤치마크 없이 사용할 때

TO-BE: 벤치마크 후 사용할 때

왜 “평가 축(1~8) + 시간/비용”을 모두 보나

참고 문서(‘기준 축’ 앵커)

Graph View

Table of Contents