에이전트가 100% 코드를 쓰고 Repository 세팅 방법

에이전트가 100% 코드를 쓰고 Repository 세팅 방법이 공개됐습니다. "Code Factory" 패턴인데, 핵심은 사람이 아니라 Repository가 정책을 강제한다는 겁니다. 코딩 에이전트가 코드를 쓰고, 리뷰 에이전트가 검증하고, 증거가 기계적으로 확인되고, 발견된 문제가 반복 가능한 테스트 케이스로 전환되는 루프입니다. 이론이 아닙니다. OpenAI Codex 팀은 이 접근법으로 5개월 만에 수동 코드 0줄, 100만 줄의 프로덕트를 만들었고, 엔지니어 1인당 하루 3.5 PR을 처리하고 있습니다.

하나의 JSON 계약서로 모든 정책을 통합

경로별로 리스크 티어를 나눕니다. 예를 들어 app/api/legal-chat/ 같은 핵심 경로는 high tier, 나머지는 low tier. 각 티어별로 필수 체크를 정의합니다. high tier면 risk-policy-gate, harness-smoke, Browser Evidence, CI Pipeline 네 가지를 모두 통과해야 머지됩니다.

이 계약서가 해결하는 건 "silent drift"입니다. 스크립트는 A를 체크하는데 워크플로우는 B를 체크하고 정책 문서는 C를 말하는, 세 곳이 따로 노는 상황. JSON 하나에 넣으면 이게 구조적으로 불가능해집니다. Codex 팀도 같은 교훈을 얻었는데, 에이전트가 볼 수 없는 정보는 존재하지 않는 것과 같다는 겁니다. 슬랙 논의, 구글 독스, 사람 머릿속 맥락은 에이전트에게 접근 불가합니다. 모든 정책과 맥락은 리포 안에 versioned artifact로 있어야 합니다.

Preflight gate로 CI 비용을 절감

비싼 test/build/security 작업을 돌리기 전에, risk-policy-gate를 먼저 실행합니다. 정책 위반이 있거나 리뷰가 미해결이면 CI fanout 자체를 시작하지 않습니다. 이미 실패가 확정된 PR에 CI 비용을 쓸 이유가 없으니까요.

Current-head SHA discipline (가장 큰 실전 교훈)

Carson이 "가장 큰 practical lesson"이라고 직접 말한 부분입니다. 리뷰 결과는 현재 PR head commit에 매칭될 때만 유효합니다. 오래된 SHA에서 나온 "clean" 결과를 믿고 머지하는 게 실전에서 가장 위험한 함정입니다.

매 push마다 리뷰를 재실행하고, 오래된 코멘트는 무시하고, 최신 리뷰가 실패하면 머지를 차단합니다. 이 원칙을 타협하면 안 됩니다.

Remediation agent로 자동 수정

리뷰에서 actionable한 피드백이 나오면, 코딩 에이전트가 자동으로 리뷰를 읽고, 코드를 패치하고, 로컬에서 검증하고, fix commit을 같은 브랜치에 push합니다. 그러면 PR synchronize가 다시 정상 리뷰 경로를 탈 수 있습니다.

여기서 핵심 가드레일이 세 가지입니다. 모델과 effort를 고정해서 재현성을 보장할 것. 현재 head에 매칭되지 않는 stale 코멘트는 무시할 것. 정책 게이트를 절대 우회하지 않을 것. 속도보다 가드레일이 우선입니다.

Bot-only 스레드 자동 해결

현재 head에서 clean rerun이 완료된 후, 봇만 참여한 스레드는 자동으로 resolve합니다. 사람이 참여한 스레드는 절대 건드리지 않습니다. 이게 개발자 경험에서 꽤 큰 차이를 만듭니다.

브라우저 증거를 기계적으로 검증

UI 변경이 있으면 PR 텍스트에 스크린샷을 붙이는 게 아니라, CI에서 기계적으로 검증합니다. 필수 플로우가 존재하는지, 올바른 엔트리포인트를 사용했는지, 로그인 플로우에서 올바른 계정 identity가 있는지, artifact가 fresh한지.

Harness-gap loop

프로덕션에서 회귀가 발생하면 harness gap issue를 만들고, 테스트 케이스를 추가하고, SLA를 추적합니다. 일회성 핫픽스가 아니라 반복 가능한 커버리지로 전환하는 겁니다. 이게 장기적으로 가장 중요한 단계라고 생각합니다.

Carson 팀은 Greptile(리뷰)과 Codex Action(자동 수정)을 쓰지만, 이건 하나의 구현체일 뿐입니다. 패턴의 핵심은 도구가 아니라 control-plane semantics입니다. preflight gate, SHA discipline, 단일 rerun writer, 정책 게이트 우회 금지. 이 의미론만 유지하면 어떤 리뷰 에이전트든 교체할 수 있습니다.

Codex 팀의 Ryan Lopopolo는 이걸 "Harness Engineering"이라고 부릅니다. 엔지니어의 역할이 코드를 작성하는 사람에서, 에이전트가 일할 수 있는 환경을 설계하고 의도를 명세하고 피드백 루프를 만드는 사람으로 바뀌는 겁니다. Humans steer, agents execute.

code factory: https://lnkd.in/gEUkPUQc
openai engineering blog: https://lnkd.in/gvc-E4z4

출처 : https://www.linkedin.com/posts/gb-jeong_harness-engineering-leveraging-codex-in-share-7429933275336388608-ki3P?utm_source=share&utm_medium=member_ios&rcm=ACoAACwtd-oBzREWb-9MVlrohExgHzA3MhxGim4

에이전트가 100% 코드를 쓰고 Repository 세팅 방법

댓글