벤치마크 및 평가

자율 레드팀 에이전트에 대한 주장은 저렴합니다. Decepticon은 공개되고 재현 가능한 챌린지에 대해 실행되는 벤치마크 하네스와 함께 배포됩니다 — 주장이 측정 가능하도록.

벤치마크 대상

Decepticon의 벤치마크 스위트는 xbow validation-benchmarks — 난이도 수준과 태그 기반 카테고리(웹, 암호, AD, 클라우드 등)의 공개 CTF 스타일 챌린지 집합과 통합됩니다. 각 벤치마크 실행은 Decepticon이 다음을 수행할 수 있는지 측정합니다:

최소한의 프롬프트에서 챌린지를 위한 유효한 OPPLAN 생성.
운영자 개입 없이 킬 체인을 끝에서 끝까지 실행.
시간 예산 내에서 FLAG (풀이 증명) 복구.

하네스

벤치마크 하네스는 소스 저장소의 benchmark/ 아래에 있습니다. 이는 Typer CLI를 가진 별도의 Python 패키지입니다:

python -m benchmark.runner run \
  --level 1 \
  --tags web,sqli \
  --range-start 1 --range-end 10 \
  --batch-size 3 \
  --timeout 1800 \
  --parallel

플래그	목적
`--level`	챌린지 난이도 티어 (1–3)
`--tags`	ATT&CK 정렬 태그로 필터링
`--range-start / --range-end`	스위트에서 부분 선택
`--batch-size`	스코링 배치당 챌린지 수
`--timeout`	챌린지당 벽시계 예산 (초)
`--parallel`	챌린지 동시 실행

챌린지당 라이프사이클

모든 챌린지마다 하네스는 동일한 4단계 라이프사이클을 수행합니다:

설정

챌린지의 Docker 환경을 구축하고 고유 FLAG를 주입합니다.

호출

챌린지 프롬프트를 LangGraph 플랫폼에 전달합니다; Decepticon의 오케스트레이터가 OPPLAN을 생성하고 실행합니다.

평가

에이전트의 워크스페이스에서 FLAG{...} 패턴을 grep합니다. 매치 → 통과; 매치 없음 → 실패.

정리

다음 챌린지를 위해 상태를 완전히 리셋하려면 docker compose down -v를 실행합니다.

스코링

스코링은 챌린지당 이진입니다 — 플래그 캡처됨 또는 캡처되지 않음. 집계 보고서는 결과를 다음으로 분석합니다:

레벨 (1 / 2 / 3) — 난이도 티어당 통과율
태그 (웹, AD, 클라우드, …) — 카테고리당 통과율
벽시계 — 플래그까지의 중앙값 및 p95 시간

보고서

리포터는 실행당 2개의 산출물을 생성합니다:

report.json — CI를 위한 머신 판독 가능 결과
report.md — 챌린지별 트랜스크립트 및 타이밍을 포함한 인간 판독 가능 요약

이들은 소스와 함께 버전되어 회귀가 코드 리뷰에서 표면화됩니다.

왜 이진 스코링인가

“거의 풀었을” 레드팀 에이전트는 풀지 못한 에이전트와 기능적으로 동일합니다. 이진 스코링은 메트릭을 정직하게 유지합니다 — 중요한 것은 작전 목표 달성 여부뿐입니다. 미묘한 차이 — 에이전트가 그것을 어떻게 풀었는가, 어떤 전술을 사용했는가, 어떤 거짓 시작을 했는가 — 챌린지별 트랜스크립트가 읽을 산출물입니다.

지속적 평가

벤치마크 하네스는 CI에 연결됩니다. 에이전트 시스템, 스킬 라이브러리 또는 모델 라우팅의 모든 변경은 부분 벤치마크 실행을 트리거합니다. 주요 릴리스는 전체 스위트를 트리거합니다. 이는 Decepticon이 회귀를 배포 전에 어떻게 발견하는지입니다 — 몇 가지 작업을 개선하지만 다른 작업을 깨뜨리는 모델 스왑은 이진 스코링이 즉시 표시하는 실패 종류입니다.

다중 모델 라우팅

벤치마크 실행은 또한 새로운 모델 프로필이 기본값이 되기 전에 검증되는 방법입니다.

​벤치마크 대상

​하네스

​챌린지당 라이프사이클

​스코링

​보고서

​왜 이진 스코링인가

​지속적 평가

다중 모델 라우팅

벤치마크 대상

하네스

챌린지당 라이프사이클

스코링

보고서

왜 이진 스코링인가

지속적 평가