콘텐츠로 이동

Agent 벤치마크 개요

에이전트 시스템의 성능을 주관적으로 평가하면 편향이 생깁니다. “잘 동작하는 것 같다” 는 느낌은 실제 성능 변화를 측정하지 못합니다. 벤치마크는 재현 가능하고 비교 가능한 숫자 를 제공합니다.

그러나 벤치마크를 맹목적으로 따르는 것도 위험합니다. 특정 벤치마크에서 높은 점수를 얻기 위해 해당 데이터셋에만 최적화된 harness를 만들면, 실제 운영 환경에서 기대 이하의 성능이 나올 수 있습니다. 벤치마크는 신호이지 목표가 아닙니다.

벤치마크측정 영역형식샘플 수업데이트
SWE-bench Verified실제 GitHub 이슈 해결코드 수정 후 테스트 통과500개 (인간 검증)정적
SWE-bench Pro데이터 오염 방지, 다양성더 어려운 실제 이슈미공개정적
SWE-bench-Live최신 이슈 (오염 없음)SWE-bench 동일월별 추가월간
Terminal-BenchCLI 멀티스텝 워크플로샌드박스 터미널 환경200+정기
AgentBench다차원 에이전트 능력웹, DB, OS, 게임 등1,000+버전별
GAIA일반 AI 어시스턴트멀티모달, 멀티스텝450+정적

SWE-bench는 실제 오픈소스 프로젝트의 GitHub 이슈를 에이전트가 해결하는 방식으로 평가합니다. 에이전트가 코드를 수정하면 해당 프로젝트의 테스트 스위트가 자동으로 실행되어 통과 여부를 확인합니다.

SWE-bench Verified (2024): 원래 SWE-bench에서 인간 검증자가 500개 샘플을 선별했습니다. 잘못 라벨링된 이슈, 해결 불가능한 이슈를 제거해 더 신뢰할 수 있는 측정값을 제공합니다.

SWE-bench Pro (2025): 두 가지 문제를 해결합니다. 첫째, 데이터 오염 — 훈련 데이터에 포함된 이슈는 모델이 해결 방법을 암기했을 수 있습니다. 둘째, 단순성 — 원래 SWE-bench 이슈 중 많은 수가 한두 줄 수정으로 해결됩니다. Pro는 더 복잡하고 다양한 이슈를 포함합니다.

SWE-bench-Live (2025~): 매월 새로운 GitHub 이슈를 추가합니다. 2026년 2월에는 Windows 지원도 추가되었습니다. 데이터 오염 문제를 구조적으로 해결합니다.

Stanford와 협력해 개발된 Terminal-Bench는 샌드박스 CLI 환경 에서 멀티스텝 워크플로를 평가합니다. 파일 조작, 패키지 설치, 설정 파일 수정, 서비스 시작/중지 등 실제 개발자 작업을 포함합니다.

LangChain이 Terminal Bench 2.0에서 52.8% → 66.5% 로 성능을 향상시킨 것은 주목할 만합니다. 이 개선은 모델 교체 없이 harness만 수정 해서 달성했고, 순위는 Top 30에서 Top 5로 올랐습니다. Harness 설계가 얼마나 중요한지 보여주는 강력한 증거입니다.

AgentBench 는 에이전트 능력을 여러 차원에서 측정합니다.

  • 운영체제 조작 (파일 시스템, 프로세스 관리)
  • 데이터베이스 쿼리 및 수정
  • 웹 브라우징 및 정보 추출
  • 코드 실행 환경
  • 게임 환경 (전략적 추론)

GAIA (General AI Assistant) 는 멀티모달, 멀티스텝 질문으로 일반 AI 어시스턴트 능력을 평가합니다. 웹 검색, 파일 분석, 계산, 코드 실행을 조합한 복잡한 작업을 포함합니다.

벤치마크측정하지 못하는 것
SWE-bench장기 프로젝트, 아키텍처 결정, 협업 능력
Terminal-Bench창의적 코드 설계, 문서화, 코드 리뷰
AgentBench실제 프로덕션 환경의 복잡성
GAIA도메인 특화 전문성
모든 벤치마크비용 효율성, 레이턴시, 안전성, 사용자 만족도