코드 리뷰어가 7명으로 늘었는데, 전부 사람이 아니었다

카테고리 : Dev

요즘 AI 뉴스는 워낙 많아서, 새 모델이 나왔다는 소식만으로는 쉽게 손이 안 가더라고요. 그런데 이번 Cloudflare 발표는 조금 달랐습니다. “AI가 코드를 도와준다” 수준이 아니라, 실제로 PR 코드 리뷰 과정 안에 들어가서 보안, 성능, 문서, 품질 같은 항목을 나눠서 검토하고 있다는 이야기였기 때문입니다.

안녕하세요. 이번엔 조금 실무 쪽 냄새가 강한 이야기를 가져와 봤습니다. 개발하다 보면 AI가 코드 초안을 써주는 것보다 더 귀찮은 구간이 있죠. 바로 리뷰입니다. 기능은 돌아가는데, 성능은 괜찮은지, 보안상 구멍은 없는지, 문서 반영은 했는지, 배포 때 문제는 없을지 하나씩 다시 봐야 하니까요. Cloudflare는 이 지점을 꽤 정면으로 건드렸습니다.

한 명의 만능 리뷰어보다, 역할 나눈 AI 팀을 붙였다

이번 발표에서 가장 흥미로웠던 부분은 “AI 한 명”으로 모든 걸 해결하려고 하지 않았다는 점이었습니다. 비유하자면, 한 사람이 체크리스트를 전부 훑는 방식이 아니라 보안 담당, 성능 담당, 문서 담당, 코드 품질 담당이 따로 붙는 합동 검수에 가깝습니다.

실제로는 OpenCode를 중심에 두고, 최대 7개의 전문 리뷰어가 동시에 PR을 보고, 그 결과를 다시 코디네이터 역할의 에이전트가 모아서 한 번에 정리해 주는 구조라고 합니다. 쉽게 말해 회의에 여러 사람이 의견을 냈는데, 마지막에는 반장이 중복 의견을 걷어내고 중요한 것만 정리해서 남기는 느낌입니다. 기술적으로는 여러 전문 에이전트의 결과를 하나의 구조화된 리뷰 코멘트로 합치는 오케스트레이션 계층이 들어간 셈입니다.

더 인상적이었던 건, “똑똑함”보다 “시끄럽지 않음”에 집착한 점

AI 코드 리뷰 이야기를 들으면 제일 먼저 드는 걱정이 있습니다. 괜히 아는 척만 하고, 이미 처리한 예외를 또 지적하고, 애매한 말만 잔뜩 남기는 거 아니냐는 거죠. 저도 사실 이 부분이 제일 궁금했습니다.

Cloudflare가 공개한 숫자를 보면, 이 팀은 오히려 잡음 줄이기에 꽤 공을 들인 것처럼 보입니다. 첫 30일 동안 5,169개 저장소에서 48,095개의 머지 리퀘스트를 대상으로 131,246번 리뷰를 돌렸고, 리뷰 1회당 중간값 기준 시간은 3분 39초, 비용은 0.98달러였습니다. 또 리뷰당 평균 지적 수를 낮게 유지하면서 “신호 대 잡음 비율”을 챙겼다는 설명도 같이 나왔습니다. 즉, 이것저것 많이 말하는 AI보다 정말 걸러야 할 것만 말하는 AI 쪽으로 방향을 잡은 겁니다.

이건 생각보다 중요합니다. 코드 리뷰는 추천 시스템이 아니라 협업 시스템이라서, 정확도가 조금 낮은 것보다도 신뢰가 빨리 무너지는 쪽이 더 치명적이거든요. 한두 번만 엉뚱한 코멘트를 달아도 사람들은 그다음부터 안 보게 됩니다.

이 뉴스가 재밌는 이유는, AI가 이제 “작성 보조”를 넘어 “품질 게이트”로 들어오고 있어서

개인적으로 이번 발표가 흥미로웠던 이유는 여기 있습니다. AI가 코드 몇 줄 제안해 주는 건 이제 꽤 익숙해졌는데, 리뷰와 머지 직전 단계에 들어오기 시작하면 얘기가 달라집니다. 그 순간부터 AI는 생산성 도구를 넘어서, 팀의 품질 기준을 일정하게 맞추는 쪽으로 움직이기 시작하니까요.

특히 문서 누락, 배포 관련 체크, 내부 규칙 준수 같은 부분은 사람이 바쁠 때 가장 먼저 놓치기 쉬운 영역입니다. 이런 항목을 AI가 먼저 잡아준다면 주니어 개발자에겐 빠른 피드백 루프가 되고, 시니어 개발자에겐 반복 확인 부담을 덜어주는 쪽으로 작동할 수 있습니다. 같은 주에 Cloudflare가 내부 AI 엔지니어링 스택 규모도 함께 공개한 걸 보면, 이게 단순 데모라기보다 꽤 실제 운영에 가까운 흐름이라는 인상도 남습니다.

다만 이걸 그대로 모든 팀에 가져다 붙일 수 있다는 뜻은 아닙니다. AI가 리뷰의 “중요 경로”에 들어오면, 프롬프트 관리, 저장소별 규칙 문서, 예외 처리, 강제 차단 기준 같은 운영 설계가 같이 따라와야 합니다. 결국 핵심은 AI를 넣느냐 마느냐보다, 어떤 기준으로 말하게 할지를 팀이 먼저 정리했는지에 더 가까워 보입니다.

마무리하면서

이번 소식을 보면서 든 생각은 하나였습니다. AI가 개발자를 대신하는가보다, 개발팀의 리뷰 문화와 품질 기준을 얼마나 빨리 흡수하느냐가 앞으로 더 중요한 질문이 되겠다는 점입니다. 코드를 써주는 AI는 이미 익숙해졌는데, 이제는 “이 코드를 정말 머지해도 되는지”까지 말하는 AI가 들어오고 있습니다. 여러분이라면 이런 리뷰어, 팀 저장소에 붙여보실 건가요?


참고한 출처

Min
아무거나 하고싶고, 아무것도 하기싫음
APRIL
2026
09
THU
S M T W T F S