Agent Harness란 무엇인가?

왜 지금 Agent Harness인가?

2026년 현재, AI 코딩 에이전트는 더 이상 실험적 도구가 아닙니다. OpenAI는 단 3명의 엔지니어로 5개월 만에 100만 줄 이상의 프로덕션 코드를 작성했다고 밝혔습니다. 이 성과는 더 강력한 모델이 아니라, 모델을 올바르게 제어하는 인프라 덕분이었습니다.

여기서 핵심 질문이 생깁니다. 동일한 AI 모델을 사용하는데 왜 어떤 팀은 성공률이 낮고, 다른 팀은 두 배 가까이 높은 성과를 달성할까요? 정답은 모델이 아닌 Agent Harness에 있습니다.

마차와 말의 비유

Agent Harness를 이해하는 가장 직관적인 방법은 마구(馬具, horse tack) 비유입니다.

구성 요소	비유	실제 의미
AI 모델	강력하지만 예측 불가능한 말	추론과 생성 능력
Harness	마구 — 재갈, 고삐, 안장	제약, 가드레일, 피드백 루프
엔지니어	기수 — 방향 제시	목표 설정과 감독

말이 아무리 강해도 마구 없이는 목적지에 도달할 수 없습니다. 반대로 아무리 훌륭한 마구라도 말이 없으면 움직이지 않습니다. AI 에이전트 시스템은 모델과 하네스의 협업입니다.

Agent Harness의 정의

Agent Harness란 AI 에이전트의 행동을 제약하고, 정보를 제공하고, 결과를 검증하고, 오류를 수정하는 에이전트 주변 인프라 전체를 의미합니다.

단순히 프롬프트나 API 호출이 아닙니다. 다음 요소들을 모두 포함합니다:

Context 제공: 에이전트가 올바른 결정을 내리도록 필요한 정보를 주입
Tool 시스템: 에이전트가 사용할 수 있는 도구와 그 권한의 정의
실행 루프: 반복적 추론-행동 사이클의 구조화
검증 레이어: 출력이 기대에 부합하는지 확인
피드백 메커니즘: 실패 시 복구하고 재시도하는 로직

수치로 보는 증거

성공률 격차

SWE-bench 등의 벤치마크에서, 동일한 모델이라도 하네스 설계에 따라 성공률이 30~40%p 이상 차이나는 사례가 반복적으로 관찰됩니다. 예를 들어 LangChain 팀은 Terminal Bench 2.0에서 모델 변경 없이 하네스만 개선하여 52.8% → 66.5% 향상을 달성하고 순위를 Top 30에서 Top 5로 끌어올렸습니다.

이 차이는 단순한 프롬프트 개선이 아닙니다. 구조적 제약, 검증 루프, 컨텍스트 엔지니어링이 결합된 결과입니다.

OpenAI 사례

OpenAI 내부 팀은 다음 조건에서 1M+ LOC를 달성했습니다:

팀 규모: 엔지니어 3명
기간: 5개월
핵심 요소: 자동화된 테스트, 검증 파이프라인, 에이전트 루프 구조화

1인당 약 66,000줄/월이라는 수치는 하네스 없이는 불가능한 생산성입니다.

요약

Agent Harness는 AI 에이전트를 둘러싼 인프라 전체입니다. 강력한 모델만으로는 충분하지 않으며, 이를 올바르게 제어하는 구조가 실제 성과를 결정합니다. 2026년은 단순한 프롬프트 작성에서 하네스 설계로 엔지니어링의 무게 중심이 이동하는 해입니다.