Agent 벤치마크 개요

왜 벤치마크가 필요한가

에이전트 시스템의 성능을 주관적으로 평가하면 편향이 생깁니다. “잘 동작하는 것 같다” 는 느낌은 실제 성능 변화를 측정하지 못합니다. 벤치마크는 재현 가능하고 비교 가능한 숫자 를 제공합니다.

그러나 벤치마크를 맹목적으로 따르는 것도 위험합니다. 특정 벤치마크에서 높은 점수를 얻기 위해 해당 데이터셋에만 최적화된 harness를 만들면, 실제 운영 환경에서 기대 이하의 성능이 나올 수 있습니다. 벤치마크는 신호이지 목표가 아닙니다.

주요 벤치마크 비교

벤치마크	측정 영역	형식	샘플 수	업데이트
SWE-bench Verified	실제 GitHub 이슈 해결	코드 수정 후 테스트 통과	500개 (인간 검증)	정적
SWE-bench Pro	데이터 오염 방지, 다양성	더 어려운 실제 이슈	미공개	정적
SWE-bench-Live	최신 이슈 (오염 없음)	SWE-bench 동일	월별 추가	월간
Terminal-Bench	CLI 멀티스텝 워크플로	샌드박스 터미널 환경	200+	정기
AgentBench	다차원 에이전트 능력	웹, DB, OS, 게임 등	1,000+	버전별
GAIA	일반 AI 어시스턴트	멀티모달, 멀티스텝	450+	정적

SWE-bench 시리즈

SWE-bench는 실제 오픈소스 프로젝트의 GitHub 이슈를 에이전트가 해결하는 방식으로 평가합니다. 에이전트가 코드를 수정하면 해당 프로젝트의 테스트 스위트가 자동으로 실행되어 통과 여부를 확인합니다.

SWE-bench Verified (2024): 원래 SWE-bench에서 인간 검증자가 500개 샘플을 선별했습니다. 잘못 라벨링된 이슈, 해결 불가능한 이슈를 제거해 더 신뢰할 수 있는 측정값을 제공합니다.

SWE-bench Pro (2025): 두 가지 문제를 해결합니다. 첫째, 데이터 오염 — 훈련 데이터에 포함된 이슈는 모델이 해결 방법을 암기했을 수 있습니다. 둘째, 단순성 — 원래 SWE-bench 이슈 중 많은 수가 한두 줄 수정으로 해결됩니다. Pro는 더 복잡하고 다양한 이슈를 포함합니다.

SWE-bench-Live (2025~): 매월 새로운 GitHub 이슈를 추가합니다. 2026년 2월에는 Windows 지원도 추가되었습니다. 데이터 오염 문제를 구조적으로 해결합니다.

Terminal-Bench

Stanford와 협력해 개발된 Terminal-Bench는 샌드박스 CLI 환경 에서 멀티스텝 워크플로를 평가합니다. 파일 조작, 패키지 설치, 설정 파일 수정, 서비스 시작/중지 등 실제 개발자 작업을 포함합니다.

LangChain이 Terminal Bench 2.0에서 52.8% → 66.5% 로 성능을 향상시킨 것은 주목할 만합니다. 이 개선은 모델 교체 없이 harness만 수정 해서 달성했고, 순위는 Top 30에서 Top 5로 올랐습니다. Harness 설계가 얼마나 중요한지 보여주는 강력한 증거입니다.

AgentBench와 GAIA

AgentBench 는 에이전트 능력을 여러 차원에서 측정합니다.

운영체제 조작 (파일 시스템, 프로세스 관리)
데이터베이스 쿼리 및 수정
웹 브라우징 및 정보 추출
코드 실행 환경
게임 환경 (전략적 추론)

GAIA (General AI Assistant) 는 멀티모달, 멀티스텝 질문으로 일반 AI 어시스턴트 능력을 평가합니다. 웹 검색, 파일 분석, 계산, 코드 실행을 조합한 복잡한 작업을 포함합니다.

각 벤치마크의 한계

벤치마크	측정하지 못하는 것
SWE-bench	장기 프로젝트, 아키텍처 결정, 협업 능력
Terminal-Bench	창의적 코드 설계, 문서화, 코드 리뷰
AgentBench	실제 프로덕션 환경의 복잡성
GAIA	도메인 특화 전문성
모든 벤치마크	비용 효율성, 레이턴시, 안전성, 사용자 만족도