자율 레드팀 에이전트에 대한 주장은 저렴합니다. Decepticon은 공개되고 재현 가능한 챌린지에 대해 실행되는 벤치마크 하네스와 함께 배포됩니다 — 주장이 측정 가능하도록.Documentation Index
Fetch the complete documentation index at: https://docs.decepticon.red/llms.txt
Use this file to discover all available pages before exploring further.
벤치마크 대상
Decepticon의 벤치마크 스위트는 xbow validation-benchmarks — 난이도 수준과 태그 기반 카테고리(웹, 암호, AD, 클라우드 등)의 공개 CTF 스타일 챌린지 집합과 통합됩니다. 각 벤치마크 실행은 Decepticon이 다음을 수행할 수 있는지 측정합니다:- 최소한의 프롬프트에서 챌린지를 위한 유효한 OPPLAN 생성.
- 운영자 개입 없이 킬 체인을 끝에서 끝까지 실행.
- 시간 예산 내에서 FLAG (풀이 증명) 복구.
하네스
벤치마크 하네스는 소스 저장소의benchmark/ 아래에 있습니다. 이는 Typer CLI를 가진 별도의 Python 패키지입니다:
| 플래그 | 목적 |
|---|---|
--level | 챌린지 난이도 티어 (1–3) |
--tags | ATT&CK 정렬 태그로 필터링 |
--range-start / --range-end | 스위트에서 부분 선택 |
--batch-size | 스코링 배치당 챌린지 수 |
--timeout | 챌린지당 벽시계 예산 (초) |
--parallel | 챌린지 동시 실행 |
챌린지당 라이프사이클
모든 챌린지마다 하네스는 동일한 4단계 라이프사이클을 수행합니다:스코링
스코링은 챌린지당 이진입니다 — 플래그 캡처됨 또는 캡처되지 않음. 집계 보고서는 결과를 다음으로 분석합니다:- 레벨 (1 / 2 / 3) — 난이도 티어당 통과율
- 태그 (웹, AD, 클라우드, …) — 카테고리당 통과율
- 벽시계 — 플래그까지의 중앙값 및 p95 시간
보고서
리포터는 실행당 2개의 산출물을 생성합니다:report.json— CI를 위한 머신 판독 가능 결과report.md— 챌린지별 트랜스크립트 및 타이밍을 포함한 인간 판독 가능 요약
왜 이진 스코링인가
“거의 풀었을” 레드팀 에이전트는 풀지 못한 에이전트와 기능적으로 동일합니다. 이진 스코링은 메트릭을 정직하게 유지합니다 — 중요한 것은 작전 목표 달성 여부뿐입니다. 미묘한 차이 — 에이전트가 그것을 어떻게 풀었는가, 어떤 전술을 사용했는가, 어떤 거짓 시작을 했는가 — 챌린지별 트랜스크립트가 읽을 산출물입니다.지속적 평가
벤치마크 하네스는 CI에 연결됩니다. 에이전트 시스템, 스킬 라이브러리 또는 모델 라우팅의 모든 변경은 부분 벤치마크 실행을 트리거합니다. 주요 릴리스는 전체 스위트를 트리거합니다. 이는 Decepticon이 회귀를 배포 전에 어떻게 발견하는지입니다 — 몇 가지 작업을 개선하지만 다른 작업을 깨뜨리는 모델 스왑은 이진 스코링이 즉시 표시하는 실패 종류입니다.다중 모델 라우팅
벤치마크 실행은 또한 새로운 모델 프로필이 기본값이 되기 전에 검증되는 방법입니다.
