Harness Engineering의 진화 방향

모델은 빠르게 발전한다

2022년의 GPT-3는 단순한 텍스트 완성 도구였습니다. 2024년의 Claude 3 Opus는 복잡한 추론이 가능했습니다. 2026년 현재의 모델들은 수백 줄의 코드를 문맥 없이도 올바르게 생성합니다.

이 변화 속도는 중요한 함의를 갖습니다. 오늘 복잡하게 작성한 하네스 로직이 내년에는 불필요해질 수 있습니다.

2022: 모델이 단순한 작업도 실수 → 세밀한 step-by-step 지침 필요
2024: 모델이 대부분 올바르게 동작 → 가드레일 중심 설계
2026: 모델이 복잡한 추론 가능 → 제약 최소화, 목표 명세 중심
2028 (예측): 모델이 스스로 하네스 최적화 제안

자율성 스펙트럼

현재 에이전트 시스템은 완전 수동과 완전 자율 사이 어딘가에 위치합니다.

수준	설명	현재 사례
수동 (0%)	인간이 모든 결정	단순 코드 자동완성
보조 (25%)	제안, 인간 승인	GitHub Copilot
반자율 (50%)	작업 실행, 주요 결정에 인간	Claude Code (현재)
고자율 (75%)	대부분 자율, 예외만 에스컬레이션	Stripe Minions
완전 자율 (100%)	완전 독립 실행	아직 프로덕션 미검증

적응형 하네스

정적 하네스는 모델 발전과 함께 점점 현실과 괴리됩니다. 미래의 하네스는 모델 성능을 지속적으로 측정하고 스스로 조정합니다.

적응 사이클

측정 → 분석 → 조정 → 재측정
  ↑                        |
  └────────────────────────┘

자동 제약 완화 예시

interface ConstraintLevel {
  scaffoldingDetail: 'verbose' | 'standard' | 'minimal'
  verificationSteps: number
  humanCheckpoints: string[]
  retryPolicy: { maxAttempts: number; backoffMs: number }
}

async function calibrateConstraints(
  weeklyMetrics: WeeklyMetrics
): Promise<ConstraintLevel> {
  const { successRate, errorRate, humanInterventionRate } = weeklyMetrics

  if (successRate > 0.95 && humanInterventionRate < 0.05) {
    // 모델이 충분히 안정적 → 제약 완화
    return {
      scaffoldingDetail: 'minimal',
      verificationSteps: 1,
      humanCheckpoints: ['deploy-to-production'],
      retryPolicy: { maxAttempts: 2, backoffMs: 1000 }
    }
  }

  if (successRate < 0.7 || errorRate > 0.3) {
    // 모델이 불안정 → 제약 강화
    return {
      scaffoldingDetail: 'verbose',
      verificationSteps: 5,
      humanCheckpoints: ['code-review', 'test-review', 'deploy-approval'],
      retryPolicy: { maxAttempts: 5, backoffMs: 5000 }
    }
  }

  // 기본값 유지
  return DEFAULT_CONSTRAINT_LEVEL
}

뽑기 쉬운 하네스 설계

“Rippable Harness”는 미래 모델 개선에 따라 손쉽게 제거하거나 교체할 수 있는 하네스를 의미합니다.

설계 원칙

1. 레이어 분리: 비즈니스 로직과 제어 로직을 분리
2. 명시적 의존성: 하네스 컴포넌트가 서로를 암묵적으로 의존하지 않음
3. 기능 플래그: 각 제약을 독립적으로 켜고 끌 수 있음
4. 성능 기준: 각 하네스 컴포넌트의 존재 이유를 메트릭으로 정의

기능 플래그로 제약 관리

interface HarnessFlags {
  // 각 플래그는 독립적으로 비활성화 가능
  enableStepByStepScaffolding: boolean
  enableOutputValidation: boolean
  enableContextCompression: boolean
  enableHumanCheckpoints: boolean
  enableRetryOnFailure: boolean
}

// 실험: 새 모델에서 scaffolding 없이도 동작하는지 확인
const EXPERIMENT_FLAGS: HarnessFlags = {
  enableStepByStepScaffolding: false, // A/B 테스트 중
  enableOutputValidation: true,
  enableContextCompression: true,
  enableHumanCheckpoints: true,
  enableRetryOnFailure: true
}

모델 발전에 따른 하네스 변화 예측

하네스 구성요소	현재 필요성	2년 후 예측	이유
단계별 작업 분해	높음	낮음	모델이 스스로 분해
출력 형식 파서	높음	중간	구조화 출력 개선
에러 복구 로직	중간	낮음	모델의 자체 수정 능력 향상
컨텍스트 압축	높음	높음	컨텍스트 한도는 여전히 존재
보안 가드레일	높음	높음	신뢰는 항상 검증이 필요
비용 관리	높음	중간	API 비용 하락 추세

요약

Harness Engineering은 모델 발전과 함께 진화합니다. 오늘의 복잡한 제어 로직이 내년의 불필요한 기술 부채가 될 수 있습니다. 적응형 하네스와 뽑기 쉬운 설계 원칙을 통해 모델 발전에 민첩하게 대응하는 구조를 만드세요. 하네스의 목표는 복잡성 구축이 아니라 에이전트가 올바른 결과를 낼 수 있는 최소한의 구조를 제공하는 것입니다.