Agent 벤치마크 개요
왜 벤치마크가 필요한가
섹션 제목: “왜 벤치마크가 필요한가”에이전트 시스템의 성능을 주관적으로 평가하면 편향이 생깁니다. “잘 동작하는 것 같다” 는 느낌은 실제 성능 변화를 측정하지 못합니다. 벤치마크는 재현 가능하고 비교 가능한 숫자 를 제공합니다.
그러나 벤치마크를 맹목적으로 따르는 것도 위험합니다. 특정 벤치마크에서 높은 점수를 얻기 위해 해당 데이터셋에만 최적화된 harness를 만들면, 실제 운영 환경에서 기대 이하의 성능이 나올 수 있습니다. 벤치마크는 신호이지 목표가 아닙니다.
주요 벤치마크 비교
섹션 제목: “주요 벤치마크 비교”| 벤치마크 | 측정 영역 | 형식 | 샘플 수 | 업데이트 |
|---|---|---|---|---|
| SWE-bench Verified | 실제 GitHub 이슈 해결 | 코드 수정 후 테스트 통과 | 500개 (인간 검증) | 정적 |
| SWE-bench Pro | 데이터 오염 방지, 다양성 | 더 어려운 실제 이슈 | 미공개 | 정적 |
| SWE-bench-Live | 최신 이슈 (오염 없음) | SWE-bench 동일 | 월별 추가 | 월간 |
| Terminal-Bench | CLI 멀티스텝 워크플로 | 샌드박스 터미널 환경 | 200+ | 정기 |
| AgentBench | 다차원 에이전트 능력 | 웹, DB, OS, 게임 등 | 1,000+ | 버전별 |
| GAIA | 일반 AI 어시스턴트 | 멀티모달, 멀티스텝 | 450+ | 정적 |
SWE-bench 시리즈
섹션 제목: “SWE-bench 시리즈”SWE-bench는 실제 오픈소스 프로젝트의 GitHub 이슈를 에이전트가 해결하는 방식으로 평가합니다. 에이전트가 코드를 수정하면 해당 프로젝트의 테스트 스위트가 자동으로 실행되어 통과 여부를 확인합니다.
SWE-bench Verified (2024): 원래 SWE-bench에서 인간 검증자가 500개 샘플을 선별했습니다. 잘못 라벨링된 이슈, 해결 불가능한 이슈를 제거해 더 신뢰할 수 있는 측정값을 제공합니다.
SWE-bench Pro (2025): 두 가지 문제를 해결합니다. 첫째, 데이터 오염 — 훈련 데이터에 포함된 이슈는 모델이 해결 방법을 암기했을 수 있습니다. 둘째, 단순성 — 원래 SWE-bench 이슈 중 많은 수가 한두 줄 수정으로 해결됩니다. Pro는 더 복잡하고 다양한 이슈를 포함합니다.
SWE-bench-Live (2025~): 매월 새로운 GitHub 이슈를 추가합니다. 2026년 2월에는 Windows 지원도 추가되었습니다. 데이터 오염 문제를 구조적으로 해결합니다.
Terminal-Bench
섹션 제목: “Terminal-Bench”Stanford와 협력해 개발된 Terminal-Bench는 샌드박스 CLI 환경 에서 멀티스텝 워크플로를 평가합니다. 파일 조작, 패키지 설치, 설정 파일 수정, 서비스 시작/중지 등 실제 개발자 작업을 포함합니다.
LangChain이 Terminal Bench 2.0에서 52.8% → 66.5% 로 성능을 향상시킨 것은 주목할 만합니다. 이 개선은 모델 교체 없이 harness만 수정 해서 달성했고, 순위는 Top 30에서 Top 5로 올랐습니다. Harness 설계가 얼마나 중요한지 보여주는 강력한 증거입니다.
AgentBench와 GAIA
섹션 제목: “AgentBench와 GAIA”AgentBench 는 에이전트 능력을 여러 차원에서 측정합니다.
- 운영체제 조작 (파일 시스템, 프로세스 관리)
- 데이터베이스 쿼리 및 수정
- 웹 브라우징 및 정보 추출
- 코드 실행 환경
- 게임 환경 (전략적 추론)
GAIA (General AI Assistant) 는 멀티모달, 멀티스텝 질문으로 일반 AI 어시스턴트 능력을 평가합니다. 웹 검색, 파일 분석, 계산, 코드 실행을 조합한 복잡한 작업을 포함합니다.
각 벤치마크의 한계
섹션 제목: “각 벤치마크의 한계”| 벤치마크 | 측정하지 못하는 것 |
|---|---|
| SWE-bench | 장기 프로젝트, 아키텍처 결정, 협업 능력 |
| Terminal-Bench | 창의적 코드 설계, 문서화, 코드 리뷰 |
| AgentBench | 실제 프로덕션 환경의 복잡성 |
| GAIA | 도메인 특화 전문성 |
| 모든 벤치마크 | 비용 효율성, 레이턴시, 안전성, 사용자 만족도 |