PentAGI 완전 정복 -- AI가 알아서 해킹 테스트를 합니다

"우리 회사 웹사이트 보안 좀 점검해줘."

이 한 마디를 AI에게 던지면, AI가 알아서 30개 넘는 보안 도구를 골라 쓰고, 취약점을 찾아내고, 보고서까지 써주는 시대가 왔습니다. PentAGI가 바로 그 도구입니다.

보안 전문가를 한 명 고용하면 연봉이 억 단위고, 외부 침투 테스트를 의뢰하면 건당 수천만 원이 듭니다. DeepStrike의 2025년 통계에 따르면 미국 기업은 침투 테스트 비용으로 연평균 187,000달러, 한화로 약 2억 5천만 원을 지출하고 있습니다. 글로벌 침투 테스트 시장 규모가 2025년 기준 27.4억 달러이고 연 12%씩 성장 중이니, 보안 테스트 수요는 갈수록 커지는데 비용은 만만치 않은 셈입니다.

PentAGI는 이 비용 구조에 도전하는 오픈소스 프로젝트입니다. Docker만 깔려 있으면 누구나 자기 서버에 올려서 쓸 수 있고, MIT 라이선스라 상업적 사용에도 제약이 없습니다. GitHub 스타가 8,700개를 넘겼고(2026년 3월 기준), 2025년 1월 알파 버전이 나온 지 1년 만에 프로덕션 릴리즈까지 이르렀습니다.

이 기사에서는 PentAGI가 정확히 무엇인지, 어떻게 설치하고 쓰는지, 내부에 탑재된 30개 이상의 보안 도구가 각각 뭘 하는 건지, 보안을 잘 모르는 분도 이해할 수 있도록 하나씩 풀어보겠습니다.

PentAGI, 정확히 뭘 하는 물건인가

침투 테스트란 "우리 시스템을 해킹해봐"라고 의뢰하는 겁니다. 실제 해커가 쓰는 기법으로 우리 시스템을 공격해보고, 뚫리는 곳이 있으면 알려주는 거죠. 병원의 건강검진과 같습니다. 아프기 전에 미리 몸 상태를 확인하는 것처럼, 해킹당하기 전에 미리 보안 상태를 점검합니다.

전통적인 침투 테스트는 보안 전문가가 직접 수행합니다. Nmap으로 포트를 스캔하고, Nikto로 웹 취약점을 찾고, SQLMap으로 데이터베이스 공격을 시도하고, Metasploit으로 익스플로잇을 실행하는 식입니다. 한 시스템을 제대로 테스트하려면 도구 수십 개를 능숙하게 다룰 줄 알아야 하고, 도구마다 옵션이 수백 개씩 되니까요. 경력 5년 이상의 전문가가 며칠씩 매달려야 하는 일입니다.

PentAGI는 이 전문가의 역할을 AI 에이전트 12개가 나눠서 맡습니다. 사용자는 자연어로 "이 웹사이트의 보안을 테스트해줘"라고 입력하면 됩니다. 그러면 AI가 알아서 어떤 도구를 쓸지 결정하고, 도구를 실행하고, 결과를 분석하고, 다음 단계를 판단합니다. 사람이 중간에 개입할 필요가 없습니다.

다만 아직 성장 단계에 있는 프로젝트라는 점은 미리 밝혀둡니다. Ostorlab의 2026년 독립 실전 테스트에서 PentAGI는 설정이 복잡한 탓에 테스트를 끝까지 마치지 못했습니다. 가능성은 충분하지만, 현재 한계도 분명합니다. 이 부분은 뒤에서 자세히 다루겠습니다.

핵심 차이를 정리하면 이렇습니다. PentestGPT라는 도구는 "코파일럿" 방식입니다. 사용자가 Nmap 스캔을 직접 돌리고, 그 결과를 복사해서 GPT에 붙여넣으면, GPT가 "다음에는 이걸 해보세요"라고 조언해줍니다. 인간이 손발이 되고 AI가 머리가 되는 구조죠. PentAGI는 다릅니다. AI가 머리이자 손발입니다. 도구 선택, 실행, 결과 분석, 다음 행동 결정까지 전부 자율적으로 처리합니다.

아키텍처 -- 12개 에이전트의 협업 구조

PentAGI는 총 5개의 계층으로 구성되어 있습니다. 맨 위에 사용자가 접하는 웹 UI, 그 아래 Go 언어로 만든 백엔드 서버, 그 아래 AI 에이전트들이 협업하는 오케스트레이션 계층, 그 아래 LLM 프로바이더와 통신하는 추상화 계층이 있으며, 최하단에는 실제 보안 도구를 실행하는 Docker 격리 환경이 자리합니다.

웹 UI는 React 18과 Apollo GraphQL로 만들었고, 채팅 인터페이스를 통해 자연어로 대화하듯 보안 테스트를 지시하는 구조입니다. 백엔드는 Go의 Gin 프레임워크와 GraphQL API로 돌아가고, PostgreSQL에 pgvector 확장을 달아서 벡터 검색까지 지원합니다. 선택 사항으로 Neo4j 그래프 데이터베이스에 Graphiti 지식 그래프를 연결할 수도 있고요.

다음 그림은 PentAGI의 5계층 아키텍처와 12개 에이전트의 역할 분담을 보여줍니다.

PentAGI 5계층 아키텍처와 12개 에이전트 구조

웹 UI부터 Docker 샌드박스까지 5개 계층이 수직으로 쌓여 있고, 가운데 오케스트레이션 계층에서 12개 에이전트가 지휘 그룹, 실행 그룹, 분석 그룹으로 나뉘어 협업합니다. 각 에이전트는 서로 다른 LLM 모델을 사용하도록 설정할 수 있어서, 비용과 성능의 균형을 세밀하게 조절할 수 있습니다.

에이전트 12개가 각각 전문 역할을 맡고 있는데, 회사 조직에 비유하면 이해가 쉽습니다.

우선 지휘 라인부터 보겠습니다. primary_agent가 팀장 역할을 맡아서 사용자의 요청을 받고 어떤 전문가에게 어떤 일을 배정할지 결정합니다. "이 웹사이트를 테스트해줘"라는 요청이 들어오면, 먼저 정찰 단계를 pentester에게 지시하고, 코드가 필요하면 coder를 부르고, 정보가 부족하면 searcher를 보내는 식입니다. 큰 목표를 구체적인 작업으로 쪼개는 건 generator의 몫입니다. "웹사이트 보안 테스트"라는 지시가 오면 "포트 스캔 → 서비스 확인 → 웹 디렉토리 탐색 → SQL 인젝션 테스트 → XSS 테스트 → 보고서 작성"처럼 실행 가능한 단위로 분해하고, refiner가 이 계획에 빠진 단계가 없는지, 순서가 맞는지 검토합니다.

실제로 손을 쓰는 건 세 에이전트입니다. pentester가 Kali Linux 컨테이너 안에서 Nmap, SQLMap, Metasploit 같은 보안 도구를 직접 돌리고, coder가 기존 도구로 안 되는 상황에서 맞춤형 익스플로잇 코드나 스크립트를 작성합니다. searcher는 외부 검색 엔진(SearXNG, DuckDuckGo, Perplexity)을 통해 최신 CVE나 공격 기법을 실시간으로 찾아옵니다. 컨테이너에 추가 도구가 필요하면 installer가 설치와 환경 세팅을 담당하고요.

판단과 분석을 맡는 에이전트도 있습니다. adviser가 테스트 중간에 "이 방향보다는 저쪽을 먼저 살펴보는 게 낫겠다"는 전략적 조언을 내리고, reflector는 한 단계가 끝날 때마다 "이번 공격이 왜 실패했는지", "다음에는 뭘 다르게 해야 하는지"를 복기합니다. enricher는 발견된 취약점에 맥락을 보태는 역할인데, "이 SQL 인젝션은 CVSS 9.8점이고, 실제 공격에 사용된 사례가 있으며, 이렇게 패치할 수 있다"는 부가 정보를 붙여줍니다.

마지막으로 reporter가 테스트 결과를 보고서로 정리하고(v1.2.0부터 PDF 출력도 됩니다), assistant가 사용자와 직접 대화하면서 진행 상황을 설명하고 추가 지시를 받습니다.

이 12개 에이전트는 각각 다른 LLM 모델을 사용하도록 설정할 수 있습니다. 예를 들어 pentester와 coder에는 추론 능력이 강한 Claude Sonnet 4.5를 배정하고, searcher에는 비용이 저렴한 GPT-4.1-mini를 배정하는 식입니다. 이런 유연성 덕분에 비용과 성능의 균형을 세밀하게 조절할 수 있습니다.

설치 -- Docker만 있으면 됩니다

사전 요구사항

PentAGI를 설치하기 전에 먼저 갖춰야 할 것들이 있습니다.

운영체제는 Linux, macOS, Windows 모두 지원합니다. Docker 20.0.0 이상과 Docker Compose가 필요합니다. 하드웨어 최소 사양은 CPU 2코어, RAM 2GB, 디스크 25GB입니다. 이 정도면 개발용 노트북에서도 충분히 돌릴 수 있습니다. 다만 실제로 여러 보안 도구를 동시에 돌리면 메모리를 좀 더 잡아먹으니, 넉넉하게 8GB 이상의 RAM을 권장합니다.

그리고 LLM API 키가 최소 하나 필요합니다. OpenAI, Anthropic, Google Gemini, AWS Bedrock, Ollama(로컬) 중 하나면 됩니다. Ollama를 선택하면 외부 API 없이 로컬에서만 돌릴 수 있어서 보안에 민감한 환경에서 유용합니다.

설치 절차

PentAGI 설치는 두 가지 방법이 있습니다. 공식 TUI 설치 마법사를 사용하는 방법과, .env 파일을 직접 편집하는 방법입니다. 설치 마법사가 편리하지만 macOS에서 문제가 있으니, 두 방법을 모두 설명하겠습니다.

먼저 소스 코드를 받습니다.

git clone https://github.com/vxcontrol/pentagi.git
cd pentagi

방법 1: TUI 설치 마법사 (Linux/Windows 권장)

PentAGI는 별도의 설치 마법사 바이너리를 제공합니다. 공식 사이트에서 운영체제에 맞는 버전을 받으면 됩니다.

# Linux amd64 예시
wget -O installer.zip https://pentagi.com/downloads/linux/amd64/installer-latest.zip
unzip installer.zip
./installer

macOS용도 있지만(Intel: darwin/amd64, Apple Silicon: darwin/arm64), 실제로 다운로드해서 실행하면 macOS Gatekeeper가 서명 안 된 바이너리로 판단하고 차단합니다. "악성 소프트웨어이므로 휴지통으로 이동되었습니다"라는 메시지가 뜨면서 바이너리가 삭제됩니다. 시스템 설정의 "보안 및 개인 정보 보호"에서 "확인 없이 열기"를 눌러 허용할 수도 있지만, 서명되지 않은 보안 도구 바이너리를 Gatekeeper 우회로 실행하는 건 권장하기 어렵습니다. macOS 사용자는 방법 2를 쓰는 편이 낫습니다.

설치 마법사가 정상 실행되면 TUI 화면에서 LLM 프로바이더 선택, API 키 입력, 검색 엔진 설정, 관리자 비밀번호 설정을 대화형으로 안내해줍니다.

방법 2: .env 직접 편집 + DB 비밀번호 설정 (macOS 권장)

환경 설정 파일을 복사합니다.

cp .env.example .env

.env 파일을 열어서 핵심 환경변수를 설정합니다.

# LLM 프로바이더 (최소 하나 필수)
OPEN_AI_KEY=sk-xxxx
ANTHROPIC_API_KEY=sk-ant-xxxx

# 에이전트별 모델 배정 (선택, 미지정 시 기본 모델 사용)
PENTESTER_MODEL=claude-sonnet-4-5-20250514
SEARCHER_MODEL=gpt-4.1-mini
CODER_MODEL=claude-sonnet-4-5-20250514

# 검색 엔진 (최소 하나 활성화 권장)
DUCKDUCKGO_ENABLED=true

# 지식 그래프 (선택, 처음엔 비활성화 권장)
GRAPHITI_ENABLED=false

API 키만 넣으면 기본 설정으로 바로 사용할 수 있습니다. 에이전트별 모델 배정은 나중에 비용과 성능의 균형을 조절할 때 유용합니다.

로컬에 PostgreSQL이 이미 실행 중이라면 5432 포트가 충돌합니다. 이 경우 .env에서 pgvector의 외부 포트를 변경합니다.

# 로컬 PostgreSQL과 포트 충돌 시
PGVECTOR_LISTEN_PORT=5433

이제 서비스를 시작합니다.

docker compose up -d

Docker Compose가 여러 개의 컨테이너를 한꺼번에 올립니다. 주요 컨테이너를 보면, pentagi가 메인 애플리케이션 서버로 Go 백엔드와 React 프런트엔드가 여기에 들어 있습니다. pgvector는 PostgreSQL에 벡터 검색 확장을 단 것으로, 에이전트들의 메모리 저장소 역할을 합니다. scraper는 웹 페이지를 크롤링하고 파싱하는 컨테이너인데, searcher 에이전트가 외부 정보를 가져올 때 씁니다.

서비스가 올라왔는지 확인합니다.

docker compose ps

모든 컨테이너가 running 상태면 성공입니다.

관리자 비밀번호 설정

.env를 직접 편집한 경우, 서비스는 올라오지만 로그인 비밀번호가 설정되지 않은 상태입니다. PentAGI는 첫 기동 시 admin@pentagi.com 계정을 자동 생성하지만, 비밀번호는 설치 마법사에서만 설정할 수 있는 구조입니다. 웹 UI에는 회원가입 화면이 없습니다.

이 경우 pgvector 컨테이너의 PostgreSQL에 직접 접속하여 비밀번호를 설정합니다. bcrypt 해시를 생성하고 DB에 업데이트하는 방식입니다.

# Python bcrypt 라이브러리가 필요합니다
pip install bcrypt

# 원하는 비밀번호의 bcrypt 해시를 생성합니다
HASH=$(python3 -c "import bcrypt; print(bcrypt.hashpw(b'여기에원하는비밀번호', bcrypt.gensalt()).decode())")

# pgvector 컨테이너의 DB에 비밀번호를 설정합니다
docker exec pgvector psql -U postgres -d pentagidb \
  -c "UPDATE users SET password = '${HASH}', status = 'active' WHERE mail = 'admin@pentagi.com';"

"UPDATE 1"이 출력되면 성공입니다.

웹 UI 접속

브라우저를 열고 다음 주소로 접속합니다.

https://localhost:8443

자체 서명 인증서를 사용하기 때문에 브라우저에서 보안 경고가 뜹니다. "고급 → 안전하지 않은 사이트로 이동"을 눌러 진행합니다. 개발 환경이니 걱정할 필요 없습니다.

로그인 화면이 나타나면 이메일에 admin@pentagi.com, 비밀번호에 위에서 설정한 비밀번호를 입력합니다. 첫 로그인 시 비밀번호 변경을 요구할 수 있는데, 새 비밀번호를 설정하면 됩니다.

사용 방법 -- 자연어로 보안 테스트를 지시합니다

직접 설치해서 써봤습니다. 문서만 읽고 쓴 내용이 아니라 실제 경험입니다.

Automation과 Assistant

로그인하면 왼쪽 상단에 Automation 탭과 Assistant 탭이 보입니다. 공식 문서에 이 두 모드의 차이가 별도로 설명되어 있지 않아서 처음에 어느 쪽을 눌러야 하는지 헷갈렸습니다.

Automation이 PentAGI의 핵심 기능입니다. 12개 에이전트가 자율적으로 보안 도구를 실행하고, 결과를 분석하고, 다음 행동을 결정하는 모드입니다. Assistant는 에이전트가 도구를 직접 실행하지 않는 단순 대화 모드입니다. 침투 테스트를 하려면 Automation을 선택해야 합니다.

첫 실행 시 대기 시간

Automation 탭에서 New Flow 버튼을 누르고, 테스트 대상 URL과 점검 내용을 자연어로 입력합니다. 전송 버튼을 누르면 로딩 스피너만 빙글빙글 돌면서 한참을 기다려야 합니다. 처음에는 오류가 난 줄 알았는데, 로그를 확인해보니 Kali Linux Docker 이미지를 다운로드하는 중이었습니다. 이 이미지가 수 GB에 달해서 네트워크 환경에 따라 5~10분 넘게 걸릴 수 있습니다. 웹 UI에 다운로드 진행 상황이 표시되지 않으니, 처음 실행할 때는 터미널에서 docker compose logs pentagi --tail 10을 실행해 "pulling image"가 진행 중인지 확인하는 편이 좋습니다.

이미지 다운로드가 끝나면 에이전트들이 작업을 시작하고, 화면이 완전히 바뀝니다.

실행 화면 구조

Kali Linux 컨테이너가 올라오면 화면이 2분할 레이아웃으로 전환됩니다. 왼쪽은 에이전트 채팅 패널이고, 오른쪽은 실시간 모니터링 패널입니다.

왼쪽 채팅 패널에는 AI가 수립한 테스트 계획이 먼저 나타납니다. 직접 실행해보니, "총 12개의 단계로 보안 테스트를 수행하도록 최적화된 계획을 수립했습니다"라는 메시지와 함께 각 단계의 비중이 표시되었습니다. 초기 준비와 정보수집이 10%, 다양한 스캔과 실행이 30%, 분석과 우선순위 결정이 10%, 선택 취약점 집중 검증이 30%, 영향평가와 보고서 작성이 20%였습니다. 그 아래로 "APT 업데이트를 수행합니다", "필요한 도구들을 설치합니다", "작업 디렉토리 및 로그 구조를 생성하고 권한을 설정합니다" 같은 서브태스크가 하나씩 추가되면서 진행 상황을 보여줍니다.

오른쪽 모니터링 패널에는 Terminal, Tasks, Agents, Searches, Vector Store, Screenshots 탭이 있습니다. Terminal 탭에서는 Kali Linux 컨테이너 안에서 실행되는 명령어와 출력을 실시간으로 볼 수 있습니다. apt-get install -y nmap whatweb wafw00f ffuf nuclei nikto sqlmap hydra 같은 명령이 실행되고, 각 도구의 설치 과정과 버전 확인까지 터미널 로그로 확인할 수 있었습니다.

테스트 초반에는 환경 세팅에 시간을 꽤 씁니다. Kali Linux 이미지에 기본 도구가 들어 있지만, 최신 버전으로 업데이트하고, 작업 디렉토리 구조(recon, scans, logs, output)를 생성하고, 도구 버전을 확인하는 과정을 거칩니다. 이 준비 단계만 2~3분 정도 걸렸습니다.

화면 하단에는 "PentAGI is working... Click Stop to interrupt"라는 메시지가 표시되고, 빨간 정지 버튼이 있어서 언제든 테스트를 중단할 수 있습니다.

기본 웹 침투 테스트

채팅창에 다음과 같이 입력합니다.

https://target.example.com 웹사이트의 보안을 테스트해주세요.
모든 엔드포인트를 수집하고, SQL 인젝션, XSS, CSRF,
커맨드 인젝션, SSRF, XXE, 안전하지 않은 파일 다운로드를 체계적으로 점검해주세요.

다음 그림은 사용자의 요청이 들어온 후 PentAGI가 침투 테스트를 수행하는 전체 흐름을 보여줍니다.

사용자가 자연어로 요청을 입력하면 generator가 작업을 분해하고, primary_agent가 전문 에이전트에게 배정하고, pentester가 Kali Linux 컨테이너에서 보안 도구를 실행하고, reflector와 adviser가 결과를 검토한 뒤, reporter가 최종 보고서를 생성합니다. 5단계의 검토와 피드백이 4단계 실행으로 되돌아가는 루프 구조가 핵심입니다.

PentAGI는 이 요청을 받으면 generator 에이전트가 작업을 분해합니다. 작업은 Flow, Task, Subtask의 3단계 계층으로 나뉩니다. Flow가 전체 테스트이고, Task가 "포트 스캔", "웹 디렉토리 탐색" 같은 중간 단위이고, Subtask가 "nmap -sV target.example.com" 같은 실제 명령 실행 단위입니다.

primary_agent가 먼저 pentester에게 정찰을 지시합니다. pentester는 Kali Linux 컨테이너 안에서 nmap을 돌려 열린 포트와 서비스를 확인합니다. 이어서 gobuster나 ffuf로 숨겨진 디렉토리를 찾고, whatweb으로 웹 서버 기술 스택을 파악합니다.

정찰 결과를 바탕으로 pentester가 본격적인 취약점 스캔에 들어갑니다. sqlmap으로 SQL 인젝션을 시도하고, nuclei로 알려진 취약점 패턴을 대입하고, nikto로 웹 서버 설정 오류를 점검합니다.

이 모든 과정은 웹 UI를 통해 실시간으로 확인할 수 있는데, 어떤 도구가 돌아가고 있고, 어떤 결과가 나왔고, 다음에 뭘 할 계획인지를 채팅 형식으로 보여줍니다. 실제 테스트 진행 중에는 아래와 같은 메시지가 채팅창에 순차적으로 나타납니다.

[pentester] Nmap 스캔을 시작합니다: nmap -sV -sC target.example.com
[pentester] 포트 스캔 결과:
  - 80/tcp  open  Apache httpd 2.4.49
  - 443/tcp open  OpenSSL 1.1.1
  - 3306/tcp open  MySQL 5.7.38
[primary_agent] Apache 2.4.49에서 경로 탐색 취약점(CVE-2021-41773)이
  알려져 있습니다. pentester에게 해당 취약점 테스트를 지시합니다.
[pentester] Nuclei로 CVE-2021-41773 패턴을 테스트합니다...
[pentester] 취약점 확인됨: CVE-2021-41773 (CVSS 7.5, High)
[reporter] 보고서 생성 중...

테스트가 끝나면 reporter 에이전트가 결과를 정리합니다. 최종 보고서에는 발견된 취약점 목록, 심각도와 CVSS 점수, 공격 경로, 증거, 권장 조치 사항이 담깁니다. 보고서 구조는 대략 이렇습니다.

## 침투 테스트 보고서 - target.example.com
### 요약
- 테스트 기간: 2026-03-01 14:00 ~ 15:32
- 발견된 취약점: 4건 (Critical 1, High 1, Medium 2)
- 테스트 도구: Nmap, Nuclei, SQLMap, Nikto

### 발견 사항
1. [Critical] SQL 인젝션 - /api/users?id=1
   - CVSS: 9.8 | 공격 벡터: 네트워크
   - 증거: sqlmap --url "target.example.com/api/users?id=1" 실행 결과
     데이터베이스 전체 덤프 가능 확인
   - 권장 조치: 매개변수화된 쿼리 사용, 입력값 검증 추가
...

v1.2.0부터는 이 보고서를 PDF 형식으로도 내보낼 수 있습니다.

특정 취약점 집중 테스트

특정 취약점만 집중적으로 테스트할 수도 있습니다.

target.example.com의 로그인 페이지에 대해 
무차별 대입 공격(brute force) 테스트를 해주세요.
일반적인 아이디/비밀번호 조합을 사용하고,
계정 잠금 정책이 있는지도 확인해주세요.

이 경우 pentester는 hydra를 사용하여 로그인 페이지에 다양한 아이디/비밀번호 조합을 시도합니다. 동시에 잠금 정책이 작동하는지 확인하여, 무차별 대입 공격에 대한 방어가 제대로 되어 있는지 점검합니다.

내부 네트워크 점검

192.168.1.0/24 대역의 내부 네트워크를 스캔하고,
열린 포트, 취약한 서비스, 기본 비밀번호를 사용하는 장비를 찾아주세요.

이런 내부 네트워크 점검에서는 nmap으로 대역 전체를 스캔하고, 발견된 서비스에 대해 기본 비밀번호 시도, 알려진 취약점 대입, 네트워크 공유 폴더 접근 시도 등을 자동으로 수행합니다.

PentAGI가 품고 있는 보안 도구 30선

PentAGI의 실제 공격 환경은 vxcontrol/kali-linux라는 특별한 Docker 이미지입니다. Kali Linux는 보안 전문가들이 사용하는 리눅스 배포판으로, 수백 개의 보안 도구가 미리 설치되어 있습니다. PentAGI는 이 중에서 200개 이상의 CLI 도구를 포함한 커스텀 이미지를 사용합니다. 애플 실리콘 맥과 일반 PC 모두 지원합니다.

보안을 잘 모르는 분도 이해할 수 있도록, 각 카테고리에서 핵심 도구를 중심으로 설명하겠습니다. 모든 도구를 외울 필요는 없고요. "침투 테스트가 어떤 단계로 진행되고, 각 단계에서 어떤 일이 벌어지는지"를 이해하는 것이 핵심입니다.

1. 네트워크 정찰 도구 -- 건물 주변을 돌면서 출입구를 확인합니다

침투 테스트의 첫 단계는 정찰입니다. 상대방 시스템에 어떤 문과 창문이 있는지 파악하는 것입니다.

Nmap은 네트워크 정찰의 대표 도구입니다. 쉽게 말하면, 건물에 몇 개의 문이 열려 있는지 확인하는 도구입니다. 컴퓨터는 포트라는 번호가 매겨진 문을 통해 외부와 통신합니다. 웹 서버는 보통 80번과 443번 포트를 열어두고, 이메일 서버는 25번 포트를, 데이터베이스는 3306번이나 5432번 포트를 열어둡니다. Nmap은 이 포트들을 하나씩 두드려보고 "어떤 문이 열려 있고, 그 뒤에 어떤 서비스가 돌아가고 있는지"를 알려줍니다.

Masscan은 Nmap의 고속 버전입니다. Nmap이 한 번에 문 하나씩 두드린다면, Masscan은 수천 개의 문을 동시에 두드립니다. 대규모 네트워크를 빠르게 훑을 때 씁니다. 속도가 빠른 대신 Nmap만큼 정밀하지는 않아서, 보통 Masscan으로 빠르게 훑고 Nmap으로 정밀 조사하는 식으로 조합합니다.

Amass는 도메인 정보를 수집하는 도구입니다. "example.com" 하나만 알고 있을 때, 이 회사가 가진 서브도메인을 전부 찾아줍니다. 건물의 정문만 알고 있을 때 후문, 비상구, 지하 주차장 입구까지 전부 찾아내는 셈입니다. 비슷한 역할의 도구로 theHarvester, DNSRecon, Subfinder, DNSx가 있는데, 각각 정보 수집 방식이 달라서 여러 도구를 조합하면 더 완전한 정찰이 됩니다.

2. 웹 애플리케이션 테스트 도구 -- 건물 안에 들어가서 잠금장치를 시험합니다

정찰이 끝나면 실제 웹 애플리케이션의 취약점을 찾는 단계입니다. 문과 창문을 발견했으니, 이제 잠금장치가 제대로 작동하는지 시험합니다.

Gobuster는 웹 서버에 숨겨진 페이지를 찾는 도구입니다. 웹사이트에는 메뉴에 보이지 않는 숨겨진 페이지가 있을 수 있습니다. /admin, /backup, /test, /debug 같은 주소를 수만 개 시도해서 존재하는 페이지를 찾아냅니다. 건물의 숨겨진 방을 찾는 것과 같습니다. 비슷한 역할의 도구로 Dirb, Dirsearch, Feroxbuster가 있는데, 탐색 방식이 각각 달라서 하나로 못 찾은 페이지를 다른 도구가 찾기도 합니다.

SQLMap은 SQL 인젝션 취약점을 찾고 공격하는 도구입니다. SQL 인젝션이란 웹사이트의 입력란에 데이터베이스 명령어를 넣어서 데이터베이스를 조작하는 공격입니다. 아이디 입력란에 "admin' OR '1'='1"이라고 치면 비밀번호 없이 로그인이 되는, 가장 오래되고 가장 위험한 취약점 중 하나입니다. SQLMap은 이런 취약점이 있는지 자동으로 찾아줍니다.

Nikto는 웹 서버의 설정 오류를 찾는 도구입니다. 웹 서버가 불필요한 정보를 노출하고 있는지, 오래된 버전의 소프트웨어를 쓰고 있는지, 기본 설정을 바꾸지 않아서 보안에 취약한지를 점검합니다. 건물의 CCTV가 꺼져 있는지, 비상구에 잠금장치가 없는지 확인하는 것과 비슷합니다.

Nuclei는 알려진 취약점 패턴을 대량으로 시험하는 도구입니다. 수천 개의 취약점 템플릿을 가지고 있어서, "이 서버에 알려진 취약점이 하나라도 있는가"를 빠르게 확인할 수 있습니다. 병원에서 혈액 검사로 수십 가지 항목을 한 번에 확인하는 것과 비슷합니다.

WPScan은 WordPress 전용 취약점 스캐너입니다. W3Techs의 2025년 통계 기준 전 세계 웹사이트의 43%가 WordPress로 만들어져 있으니 별도의 전용 도구가 있을 만하죠. 사용 중인 플러그인, 테마, WordPress 버전에 알려진 취약점이 있는지 확인해줍니다.

이 밖에도 WhatWeb(기술 스택 파악), Commix(커맨드 인젝션 탐지), WFuzz/FFuf(입력값 퍼징) 등이 웹 테스트에 사용됩니다.

3. 비밀번호 공격 도구 -- 열쇠를 하나씩 대입해봅니다

Hydra는 온라인 비밀번호 무차별 대입 도구입니다. 웹사이트 로그인, SSH, FTP 등의 서비스에 아이디/비밀번호 조합을 자동으로 대입합니다. "admin/password", "root/123456" 같은 흔한 조합부터 시작해서 수십만 개의 조합을 시도하는데, 아파트 도어록에 0000부터 9999까지 전부 눌러보는 것과 같습니다.

John the Ripper와 Hashcat은 오프라인 비밀번호 해독 도구입니다. 데이터베이스에서 유출된 비밀번호 해시를 원래 비밀번호로 복원합니다. 해시란 "password123"을 "ef92b778ba..."라는 알 수 없는 문자열로 바꾸는 것인데, 이 도구들은 이 과정을 역으로 수행합니다. Hashcat은 GPU를 활용해서 John보다 수십 배 빠르게 해독합니다. 비밀번호 사전 생성(Crunch), 다수 호스트 동시 공격(Medusa)과 같은 보조 도구도 포함되어 있습니다.

4. Metasploit 프레임워크 -- 실제로 침입을 시도합니다

Metasploit은 세상에서 가장 유명한 침투 테스트 프레임워크입니다. 발견된 취약점을 실제로 공격해서 시스템에 침입할 수 있는지 확인합니다. 수천 개의 익스플로잇 모듈이 탑재되어 있어서, "이 서버는 OpenSSL 1.0.1을 쓰고 있으니 Heartbleed 공격이 통할 수 있겠다"는 판단이 서면 해당 익스플로잇을 바로 실행할 수 있습니다.

비유하면 이렇습니다. Nmap이 "이 건물의 3층 창문 잠금장치가 낡았다"는 걸 발견하면, Metasploit이 실제로 그 창문을 열어보는 겁니다. 열리면 "취약합니다"라고 보고합니다. msfvenom으로 커스텀 페이로드를 생성하고, msfdb로 발견된 정보를 체계적으로 관리합니다.

5. Windows/Active Directory 공격 도구 -- 회사 내부 네트워크를 점검합니다

대부분의 한국 기업은 Windows Server와 Active Directory를 사용합니다. 이 영역을 테스트하는 전문 도구들입니다.

Impacket은 Windows 네트워크 프로토콜을 다루는 파이썬 도구 모음입니다. 회사 내부 네트워크에서 한 대의 컴퓨터가 뚫리면, Impacket을 통해 다른 컴퓨터로 이동하는 "횡적 이동"이 가능한지 확인합니다.

BloodHound-Python은 Active Directory의 권한 관계를 시각적으로 분석하는 도구입니다. "일반 직원 계정에서 시작해서 도메인 관리자 권한까지 도달할 수 있는 경로가 있는가"를 그래프로 보여줍니다. 회사 조직도에서 "인턴이 사장 권한을 탈취할 수 있는 경로"를 찾는 것과 비슷합니다.

Mimikatz는 Windows 메모리에서 비밀번호를 추출하는 도구입니다. Windows는 로그인한 사용자의 비밀번호를 메모리에 잠시 저장해두는데, Mimikatz는 이걸 꺼내옵니다. 실제 해킹 사고에서 가장 많이 쓰이는 도구 중 하나이고, 방어 측에서도 "우리 시스템이 Mimikatz에 대응할 수 있는가"를 반드시 테스트합니다. 이 밖에 Evil-WinRM(원격 접속 검증), CrackMapExec(네트워크 전체 인증 시험), Responder(인증 정보 가로채기) 등이 내부 네트워크 점검에 쓰입니다.

6. 트래픽 분석 및 OSINT 도구

네트워크 트래픽을 감청하는 도구와 공개 정보를 수집하는 도구가 남았습니다.

Tshark은 네트워크 트래픽을 캡처하고 분석하는 도구입니다. 서버와 클라이언트 사이에 오가는 데이터를 전부 잡아서, 비밀번호가 암호화 없이 전송되는지, 민감한 정보가 노출되는지 확인합니다. MITMProxy는 사용자와 서버 사이에 끼어들어 통신 내용을 가로채는 중간자 공격 프록시입니다. HTTPS 통신도 가로챌 수 있어서, 앱이 정말로 안전하게 통신하는지 확인할 때 사용합니다.

Shodan은 인터넷에 연결된 기기를 검색하는 엔진입니다. Google이 웹페이지를 검색한다면, Shodan은 서버, 카메라, 공유기, IoT 기기 등 인터넷에 연결된 모든 것을 검색합니다. "우리 회사 IP 대역에 외부에 노출된 장비가 있는가"를 확인할 때 유용합니다.

전체 도구 요약

아래 표는 PentAGI에 탑재된 30개 보안 도구를 카테고리별로 정리한 것입니다. 위에서 상세히 다루지 않은 도구도 포함했으니 참고하시기 바랍니다.

카테고리	도구	한 줄 설명
네트워크 정찰	Nmap	열린 포트와 서비스를 확인합니다
네트워크 정찰	Masscan	대규모 네트워크를 고속으로 스캔합니다
네트워크 정찰	Amass	서브도메인을 전수 조사합니다
네트워크 정찰	theHarvester	공개 소스에서 이메일, 직원명을 수집합니다
네트워크 정찰	DNSRecon	DNS 설정 오류를 점검합니다
네트워크 정찰	Subfinder / DNSx	서브도메인 후보를 수집하고 검증합니다
웹 테스트	Gobuster	숨겨진 웹 페이지와 디렉토리를 찾습니다
웹 테스트	Dirb / Dirsearch / Feroxbuster	다양한 방식의 디렉토리 탐색 도구입니다
웹 테스트	Nikto	웹 서버의 설정 오류를 찾습니다
웹 테스트	SQLMap	SQL 인젝션 취약점을 자동 탐지합니다
웹 테스트	WFuzz / FFuf	입력값 퍼징으로 비정상 반응을 찾습니다
웹 테스트	Nuclei	수천 개 패턴으로 알려진 취약점을 대입합니다
웹 테스트	WhatWeb	웹사이트의 기술 스택을 파악합니다
웹 테스트	Commix	커맨드 인젝션 취약점을 탐지합니다
웹 테스트	WPScan	WordPress 전용 취약점을 스캔합니다
비밀번호 공격	Hydra	온라인 무차별 대입 공격을 수행합니다
비밀번호 공격	John the Ripper	오프라인 비밀번호 해시를 해독합니다
비밀번호 공격	Hashcat	GPU로 해시를 고속 해독합니다
비밀번호 공격	Medusa / Crunch	다수 호스트 공격, 사전 생성 도구입니다
익스플로잇	Metasploit (msfconsole)	취약점을 실제 공격하여 침입 가능성을 확인합니다
익스플로잇	msfvenom / msfdb	페이로드 생성과 결과 관리를 담당합니다
Windows/AD	Impacket	Windows 프로토콜을 이용한 횡적 이동을 시도합니다
Windows/AD	Evil-WinRM	Windows 원격 접속을 검증합니다
Windows/AD	BloodHound-Python	AD 권한 경로를 시각적으로 분석합니다
Windows/AD	CrackMapExec	네트워크 전체 인증을 시험합니다
Windows/AD	Mimikatz	메모리에서 비밀번호를 추출합니다
Windows/AD	Responder	잘못 전송된 인증 정보를 가로챕니다
트래픽 분석	Tshark / Tcpdump	네트워크 트래픽을 캡처하고 분석합니다
트래픽 분석	MITMProxy	중간자 공격으로 통신을 가로챕니다
트래픽 분석	SSLScan	SSL/TLS 암호화 설정을 점검합니다
OSINT	SearchSploit	오프라인 취약점 데이터베이스를 검색합니다
OSINT	Shodan / Censys	인터넷 연결 기기를 검색합니다

AI가 도구를 조합하는 방법

PentAGI가 단순한 도구 모음과 다른 점은 AI가 도구를 상황에 맞게 조합한다는 겁니다.

전통적인 자동화 스캐너는 정해진 순서대로 도구를 실행합니다. "1번 도구 → 2번 도구 → 3번 도구" 식의 고정된 파이프라인입니다. PentAGI는 다릅니다. 이전 도구의 결과를 보고 다음에 어떤 도구를 쓸지 AI가 판단합니다.

예를 들어 이런 식입니다. Nmap 스캔 결과 80번 포트에 Apache 2.4.49가 돌고 있다는 걸 발견합니다. AI는 "Apache 2.4.49에는 경로 탐색 취약점(CVE-2021-41773)이 있다"는 걸 알고 있으므로(또는 searcher가 찾아오므로), 바로 해당 취약점을 타겟으로 한 공격을 시도합니다. 고정된 스크립트라면 이런 맥락적 판단이 불가능합니다.

다음 그림은 PentAGI가 테스트 경험을 축적하고 활용하는 4계층 메모리 시스템의 구조를 보여줍니다.

PentAGI 4계층 메모리 시스템

Guide Memory에 침투 테스트 방법론이, Code Memory에 재사용 가능한 코드가, Answer Memory에 검색 결과 캐시가, Memory Vectors에 벡터 기반 에피소드 기억이 저장됩니다. 하단의 Graphiti Knowledge Graph는 취약점-엔드포인트-데이터베이스 간의 관계를 그래프 구조로 저장하고, Chain Summarization은 오래된 기록을 벡터 DB에 압축 저장하여 컨텍스트 윈도우 한계를 극복합니다.

PentAGI의 4계층 메모리 시스템도 빠뜨릴 수 없습니다.

Guide Memory에는 재사용 가능한 침투 테스트 방법론이 들어 있습니다. "웹 애플리케이션을 테스트할 때는 이 순서로 하면 효과적이다"라는 노하우죠. Code Memory에는 과거에 작성한 익스플로잇 코드나 유용한 스크립트가 쌓여서, 비슷한 상황이 다시 오면 처음부터 코드를 짜지 않고 재활용합니다. Answer Memory는 검색 결과와 발견 사항의 캐시로, 같은 질문을 두 번 검색하지 않습니다. 마지막으로 Memory Vectors에는 과거 테스트의 에피소드 기억이 벡터 형태로 저장됩니다. "이전에 비슷한 설정의 서버에서 이런 취약점을 찾았었다"는 경험이 다음 테스트에 반영되는 겁니다.

Graphiti 지식 그래프를 활성화하면 여기에 관계 추론이 더해집니다. Neo4j에 취약점-엔드포인트-데이터베이스 관계가 그래프 구조로 저장되어서, "이 엔드포인트에서 발견된 SQL 인젝션이 이 데이터베이스의 이 테이블에 영향을 준다"는 분석이 가능해집니다.

Chain Summarization이라는 기법도 눈여겨볼 만합니다. LLM은 한 번에 처리할 수 있는 텍스트 양에 한계가 있습니다(컨텍스트 윈도우). 장시간 테스트를 하면 이전 작업 기록이 이 한계를 초과합니다. PentAGI는 오래된 작업 기록을 벡터 DB에 요약 저장하고, 최근 작업만 활성 메모리에 유지하는 방식으로 이 문제를 해결합니다. hoangyell.com의 기술 분석에 따르면, 이 기법 덕분에 몇 시간에 걸친 테스트에서도 AI가 일관된 맥락을 유지합니다.

경쟁 도구와의 비교

AI 침투 테스트 시장에는 PentAGI 외에도 여러 도구가 있습니다. 특성이 각각 다르니 상황에 맞게 골라야 합니다.

PentestGPT는 ChatGPT 스타일의 코파일럿 방식입니다. 사용자가 도구를 직접 실행하고, 결과를 GPT에 보여주면 다음 행동을 제안합니다. 자율성은 떨어지지만, 사용자가 중간 과정을 완전히 통제할 수 있다는 장점이 있습니다. 보안 전문가가 AI의 도움을 받으면서 직접 테스트를 진행하고 싶을 때 적합합니다.

Strix는 PentAGI와 비슷한 자율형 도구입니다. Docker 샌드박스에서 실행되고, 취약점을 찾아서 PoC(개념증명 공격)까지 자동 수행합니다. Ostorlab의 2026년 실전 테스트에서 취약한 뱅킹 앱을 대상으로 CVSS 10.0짜리 SQL 인젝션을 탐지하는 데 성공했습니다. 같은 테스트에서 PentAGI는 설정이 복잡한 탓에 테스트를 끝까지 마치지 못했습니다.

**CAI(Cybersecurity AI)**는 300개 이상의 AI 모델을 지원하는 도구로, 모델을 자유롭게 조합할 수 있다는 게 최대 강점입니다. Ostorlab 테스트에서도 실행 가능한 결과를 냈습니다.

솔직히 말하면 PentAGI의 현재 약점은 설정의 복잡성입니다. 12개 에이전트에 각각 LLM 모델을 배정하고, .env 파일에 수십 개의 환경 변수를 설정하는 과정이 초보자에게는 벽처럼 느껴질 수 있습니다. Ostorlab의 실전 테스트에서도 설정 단계에서 막힌 것을 보면, 이 부분은 개선이 필요합니다. 다만 TUI 설치 마법사가 이 문제를 상당히 완화해주고 있고, 버전이 올라갈수록 나아지고 있습니다.

PentAGI의 차별점은 12개 전문 에이전트 아키텍처와 4계층 메모리 시스템, 그리고 Graphiti 지식 그래프 연동입니다. 단발성 테스트가 아니라 반복적으로 같은 인프라를 테스트할 때 이전 테스트의 기억이 누적된다는 건 다른 도구에서 찾기 어려운 장점이고요.

실전 활용 시나리오 4가지

cloudnews.tech의 분석에서 제시한 활용 사례를 소개합니다.

가장 많이 쓰일 만한 건 인프라 변경 후 보안 검증입니다. 서버를 업그레이드하거나 네트워크 구성을 바꿨을 때, PentAGI로 변경된 환경의 보안 상태를 즉시 확인합니다. 예전에는 외부 업체에 의뢰해서 2-3주를 기다려야 했던 일을 당일에 할 수 있습니다.

의존성 업데이트 후 회귀 검사에도 유용합니다. 라이브러리 버전을 올렸더니 CORS 설정이 풀렸거나, 새로운 엔드포인트가 인증 없이 노출되는 경우가 종종 있는데, PentAGI가 이런 변화를 자동으로 잡아냅니다.

PCI-DSS, ISO 27001 같은 보안 인증을 받으려면 정기적인 침투 테스트 결과를 제출해야 하는데, PentAGI가 생성하는 보고서를 감사 증거로 쓸 수 있습니다.

보안 교육 쪽으로도 활용 여지가 있습니다. 사내 보안팀의 방어 훈련에 PentAGI를 "공격자 역할"로 투입하는 겁니다. 통제된 환경에서 AI가 공격하고, 보안팀이 이를 탐지하고 대응하는 연습을 할 수 있습니다.

법적 경계선 -- 남의 서버를 테스트하면 범죄입니다

여기서 아주 중요한 이야기를 해야 합니다. "조심하라"는 수준의 권고가 아닙니다. 한국 형사법에 명시된 범죄 행위입니다.

PentAGI는 MIT 라이선스로 공개된 오픈소스입니다. 누구나 설치하고 사용할 수 있죠. 하지만 "사용할 수 있다"와 "아무 데나 쓸 수 있다"는 전혀 다른 이야기입니다.

한국의 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법) 제48조 제1항이 핵심 조항입니다. "누구든지 정당한 접근권한 없이 또는 허용된 접근권한을 넘어 정보통신망에 침입하여서는 아니 된다"고 규정하고 있습니다. 대법원 판례(2005도870, 2005.11.25 선고)는 접근권한의 판단 기준을 서비스제공자가 부여한 권한으로 봐야 한다고 판시했습니다. 보호조치에 대한 침해나 훼손이 수반되지 않더라도, 부정한 방법으로 타인의 식별부호를 이용하거나 제한을 면하게 하는 명령을 입력하는 행위 자체가 침입에 해당합니다. 벌칙은 제71조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금입니다.

PentAGI 사용에 이걸 대입하면 이렇습니다. Nmap 포트 스캔만 해도 타인의 시스템에 무단으로 수행하면 제48조 위반에 해당할 수 있습니다. PentAGI는 포트 스캔을 넘어서 SQL 인젝션 시도, 디렉토리 탐색, 무차별 대입 공격까지 자동으로 수행합니다. 위반의 정도가 훨씬 큽니다. 본인 소유 시스템에 대한 테스트는 합법이고, 시스템 소유자에게 서면 허가를 받은 경우도 합법이지만, 허가 없는 타인 시스템에 대한 테스트는 포트 스캔 하나만으로도 형사 처벌 대상입니다.

미국의 컴퓨터 사기 및 남용 방지법(CFAA)도 같은 입장입니다. AI 도구를 사용했든, 수동으로 했든, 허가 없이 타인의 시스템에 침투 테스트를 하면 형사 처벌을 받습니다.

PentAGI의 EULA도 이 점을 명확히 하고 있습니다. 허용되는 사용은 자신이 소유한 시스템의 테스트, 서면 허가를 받은 시스템의 테스트, 보안 연구 목적의 사용이고, 무단 네트워크 접근이나 사이버 공격 활용, 법률 위반 활동은 금지입니다.

Michigan Technological University의 연구자들은 AI 침투 테스트 도구를 사용할 때 반드시 갖춰야 할 문서로 세 가지를 제시합니다. 테스트 허가 범위를 명시한 문서, 시스템 소유자의 서명이 담긴 계약서, 클라우드 환경이라면 클라우드 제공사의 별도 허가가 그것입니다. AWS, Azure, GCP 모두 자사 인프라에서 침투 테스트를 하려면 사전 신청을 요구합니다.

AI가 자율적으로 행동하더라도 법적 책임은 사용자에게 있습니다. PentAGI가 스스로 판단해서 테스트 범위를 벗어난 시스템을 공격했다면, 그 책임은 PentAGI를 실행한 사람이 집니다.

이중 사용 딜레마라는 논의도 있습니다. amerisourcecon.com의 보안 분석은 PentAGI 같은 도구가 "잠재적 위협 행위자에게 오픈 소스 공격 도구의 풀 스택을 제공한다"고 경고합니다. 보안 전문가가 방어를 위해 쓰는 도구가 그대로 공격에 전용될 수 있다는 거죠. 도구 자체를 금지할 수는 없지만, 그만큼 사용자의 책임이 더 무거워져야 합니다.

CISA(미국 사이버보안 인프라 보안국)는 AI를 활용한 레드팀 작업에 대해 공식 가이드를 발표했습니다. 핵심은 "인간 감독(Human-in-the-Loop)"입니다. AI가 아무리 자율적이더라도, 위험한 행동을 결정하는 순간에는 반드시 사람이 개입해야 한다는 원칙입니다. PentAGI를 운영할 때도 이 원칙을 적용해야 합니다. AI가 혼자 밤새 돌아가게 놔두는 게 아니라, 테스트 범위를 명확히 제한하고, 주기적으로 결과를 확인해야 합니다.

설정 시 주의할 보안 사항

PentAGI 자체를 안전하게 운영하는 것도 중요합니다.

Docker 소켓 접근 권한이 가장 중요한 부분입니다. PentAGI는 Docker 안에서 또 다른 Docker 컨테이너(Kali Linux)를 생성합니다. 이를 위해 Docker 소켓에 대한 접근 권한이 필요한데, 이 권한은 사실상 호스트 시스템 전체를 통제하는 것과 같습니다. 공유 서버에 PentAGI를 배포하면 다른 사용자의 컨테이너까지 접근할 수 있게 됩니다.

SitePoint의 보안 패턴 분석에서는 PentAGI 배포 시 네 가지 보안 패턴을 권장합니다. 샌드박싱으로 격리된 환경에서 실행할 것, 권한 범위를 테스트 대상으로만 제한할 것, 위험한 행동 전에 승인 게이트를 둘 것, 모든 행동을 감사 로그에 기록할 것입니다.

cloudnews.tech는 추가로 아웃바운드 프록시를 통한 네트워크 통제를 권장합니다. PentAGI가 테스트 대상 이외의 외부 시스템에 접속하지 못하도록 네트워크 수준에서 차단하는 것입니다.

비용 -- LLM API 호출이 핵심 변수입니다

PentAGI 자체는 무료 오픈소스지만, LLM API 호출 비용이 발생합니다. 12개 에이전트가 각각 LLM을 호출하니, 테스트의 복잡도와 시간에 따라 비용 차이가 큽니다.

대략적인 비용 규모를 가늠해 보겠습니다. GPT-4.1 기준 입력 토큰은 100만 토큰당 2달러, 출력 토큰은 100만 토큰당 8달러입니다. 간단한 웹사이트 하나를 30분간 테스트하면, 에이전트들이 주고받는 프롬프트와 도구 실행 결과를 합쳐 대략 10만~30만 토큰 정도 나옵니다. 이 경우 비용은 대략 5~15달러입니다. 복잡한 인프라를 수 시간에 걸쳐 테스트하면, 여러 에이전트가 동시에 작업하면서 토큰 소모가 급격히 늘어나 50~100달러 이상도 예상됩니다. 공식 벤치마크는 아직 없으니, 이 수치는 API 가격표 기반 추정치로 참고만 하시기 바랍니다.

v1.2.0에서 도입된 토큰 캐싱은 이 비용을 40~70% 줄여줍니다. 동일한 프롬프트나 비슷한 맥락의 요청에 대해 캐시된 응답을 재활용하는 방식입니다. 캐싱을 적용하면 위의 비용 추정치에서 절반 가까이 줄어든다고 보면 됩니다.

비용을 더 줄이려면 Ollama를 사용한 로컬 추론을 고려할 수 있습니다. Llama, Qwen 같은 오픈소스 모델을 로컬 GPU에서 돌리면 API 비용이 제로입니다. 다만 GPT-4.1이나 Claude Sonnet 4.5에 비해 추론 능력이 떨어지므로, 테스트 품질과 비용 사이에서 절충이 필요합니다.

실무적인 절충안은 핵심 에이전트인 pentester와 coder에는 성능 좋은 모델을, 보조 에이전트인 searcher와 installer에는 저렴한 모델을 배정하는 것입니다. 예를 들어 pentester에 Claude Sonnet 4.5(입력 100만 토큰당 3달러)를, searcher에 GPT-4.1-mini(입력 100만 토큰당 0.4달러)를 배정하면 품질을 유지하면서 전체 비용을 상당히 줄일 수 있습니다.

마무리 -- 결정은 사람의 몫입니다

PentAGI는 보안 테스트의 진입 장벽을 확실히 낮췄습니다. 보안 전문가가 아닌 개발자도 자기 시스템의 보안 상태를 직접 점검할 수 있게 되었죠. 보안 연구자의 70%가 이미 워크플로에 AI 도구를 활용하고 있다는 DeepStrike의 통계가 이 추세를 보여줍니다.

하지만 DeepStrike의 같은 통계에서 눈에 띄는 수치가 하나 더 있습니다. 자동화 스캐닝 단독 대비 수동 침투 테스트가 약 20배 더 많은 고유 취약점을 발견한다는 겁니다. AI가 아무리 똑똑해져도, 전문가의 직관과 창의성을 완전히 대체하기는 어렵습니다. 그래서 보안 전문가들은 "바이오닉 펜테스터" 모델을 권장하는데, 인간의 판단력과 AI의 효율성을 결합하는 방식입니다.

PentAGI를 쓸 때도 이 관점이 필요합니다. AI에게 맡기되, 결과를 맹신하지 않는 거죠. AI가 "취약점 없음"이라고 했다고 안심할 게 아니라, AI가 찾지 못한 영역이 있을 수 있다는 걸 인지하고, 중요한 시스템은 반드시 전문가의 수동 검토를 병행해야 합니다.

설치해보고 싶다면 자신이 소유한 시스템에서만 테스트하시기 바랍니다. OWASP의 WebGoat나 Damn Vulnerable Web Application(DVWA) 같은 연습용 취약 애플리케이션을 Docker로 올려놓고 PentAGI로 공격해보는 것이 가장 안전한 학습 방법입니다.

보안 도구가 발전하면 방어가 편해지는 만큼 공격도 편해집니다. 결국 중요한 건 이 도구를 쓰는 사람의 의도와 책임감입니다.

참고 자료

GitHub vxcontrol/pentagi, https://github.com/vxcontrol/pentagi
DeepWiki PentAGI 설치 및 설정 가이드, https://deepwiki.com/vxcontrol/pentagi/11-installation-and-setup
GitHub vxcontrol/kali-linux-image, https://github.com/vxcontrol/kali-linux-image
PentAGI Explained: Auto-Hacking with Multi-Agent AI, https://hoangyell.com/pentagi-explained/
Ostorlab: 8 Open-Source AI Pentest Tools 2026, https://blog.ostorlab.co/8-open-source-ai-pentest-tools-2026.html
PentAGI: The Open Source Autonomous Red Team, https://cloudnews.tech/pentagi-the-open-source-autonomous-red-team-that-forces-a-rethink-of-operational-security/
Security Patterns for Autonomous Agents: Lessons from Pentagi, https://www.sitepoint.com/security-patterns-for-autonomous-agents-lessons-from-pentagi/
DeepStrike: Penetration Testing Statistics 2025, https://deepstrike.io/blog/penetration-testing-statistics-2025
PentestMag: Legal and Ethical Considerations of AI in Penetration Testing, https://pentestmag.com/exploring-the-boundaries-legal-and-ethical-considerations-of-generative-artificial-intelligence-in-penetration-testing-and-the-cfaa/
CISA: AI Red Teaming, https://www.cisa.gov/news-events/news/ai-red-teaming-applying-software-tevv-ai-evaluations
SOCRadar: Top 10 AI Pentest Tools 2025, https://socradar.io/blog/top-10-ai-pentest-tools-2025/
The Dark Side of AI-Powered Pen Testing, https://www.amerisourcecon.com/post/the-dark-side-of-ai-powered-pen-testing-when-ethical-tools-turn-malicious