CI/CD 환경에서 Betterleaks Secret Scanner 사용

Betterleaks 비밀 스캐너: 아키텍처 및 키

최근 몇 년 동안 저장소에서 비밀 정보를 탐지하는 방식은 크게 변화했습니다. 이전에는 코드에서 의심스러운 문자열이나 높은 엔트로피를 가진 키를 찾는 것만으로도 충분했습니다. 하지만 오늘날 상황은 완전히 달라졌습니다. 저장소 규모가 커지고, CI/CD 파이프라인 속도가 빨라졌으며, 무엇보다 자동화 도구나 AI 모델이 생성하는 코드의 양이 증가하고 있기 때문입니다.

이는 실질적인 결과를 초래합니다. 이제 문제는 단순히 비밀을 찾는 것이 아니라, 실제로 위험한 것과 위험해 보이는 것을 구분하는 것입니다. 많은 팀들이 이러한 스캐너의 진정한 비용은 분석을 실행하는 데 드는 비용이 아니라 수백 건의 오탐을 검토하는 데 있다는 사실을 깨닫고 있습니다.

탐지 아키텍처: Betterleaks 도입으로 무엇이 달라지나요?

Betterleaks는 바로 이러한 맥락에서 등장했습니다. 이 회사는 비밀 스캐닝 방식을 완전히 혁신하려는 것은 아니지만, 패턴 탐지만으로 충분하다는 널리 퍼진 가정에 의문을 제기합니다.

많은 최신 저장소에서는 그렇지 않습니다.

잭 라이스가 개발하고 아이키도의 지원을 받아 유지 관리되는 이 프로젝트는 약간 다른 방식을 제안합니다. 단순히 일치하는 항목을 찾는 데만 집중하는 대신, 발견된 내용이 타당한지 검증한 후 경고로 보고하는 것입니다.

이는 사소한 디테일처럼 보일 수 있지만, 대규모 팀의 역학 관계에 상당한 영향을 미칩니다. 스캐닝 시스템에서 불필요한 경고가 너무 많이 발생하면 팀은 자연스럽게 이를 무시하게 됩니다. 하지만 보안 측면에서는 무시된 경고가 아예 경고가 없는 것보다 더 심각한 결과를 초래할 수 있습니다.

이 문제를 해결하기 위해 Betterleaks는 CEL(Common Expression Language)을 사용한 유효성 검사와 BPE 토큰화를 기반으로 하는 "토큰 효율성"이라는 지표라는 두 가지 흥미로운 기술적 요소를 도입했습니다.

핵심은 비밀처럼 보이는 모든 것이 실제로 비밀은 아니라는 점입니다. 엔트로피가 높은 문자열 중 일부는 단순히 해시값, 식별자 또는 자동으로 생성된 조각일 뿐입니다. 이 시스템의 목표는 이러한 노이즈를 줄이는 것입니다.

프로젝트 문서에는 CredData 데이터셋에서 BPE 토큰화 방식이 엔트로피를 사용한 방식보다 98.6% 높은 재현율을 달성했다는 비교 내용이 언급되어 있습니다. 모든 벤치마크 결과와 마찬가지로 이러한 수치는 참고 자료일 뿐이며, 실제 저장소에서의 테스트를 대체할 수는 없습니다.

차이를 만들어내는 구성 요소

프로젝트의 특징을 검토해 보면 명확한 방향이 드러납니다. 바로 기술적 복잡성을 지나치게 증가시키지 않으면서 실제 환경에 쉽게 배포할 수 있도록 하는 것입니다.

가장 두드러진 요소는 다음과 같습니다.

CEL(공통 표현 언어)을 사용한 규칙 기반 유효성 검사
엔트로피 기반이 아닌 BPE 토큰화 기반의 토큰 효율성 스캐닝을 통해 CredData 데이터셋에서 98.6%의 재현율을 달성한 반면, 엔트로피 기반 스캐닝에서는 70.4%의 재현율을 달성했습니다.
순수 Go 언어로 구현됨 (CGO 또는 Hyperscan에 의존하지 않음)
이중/삼중으로 암호화된 비밀 정보의 자동 처리
더 많은 공급자를 위한 확장된 규칙 세트
저장소 분석 속도 향상을 위한 병렬화된 Git 스캔

이 목록은 단순히 기술적인 개선 사항들의 나열처럼 보일 수 있지만, 흥미로운 점은 이러한 개선 사항들이 일상적인 사용에 어떤 영향을 미치는지입니다.

예를 들어, 네이티브 종속성이 없는 완벽한 Go 구현은 CI/CD 파이프라인에 통합하는 것을 크게 단순화합니다. 많은 팀에서 이와 같은 작은 세부 사항이 도구가 사용될지 아니면 저장소에서 잊혀질지를 결정합니다.

BPE 토큰화는 또한 다른 접근 방식을 도입합니다. 단순히 체인의 무작위성을 측정하는 대신, 최신 자격 증명이 실제로 어떻게 구성되는지를 더 정확하게 반영하는 토큰 패턴을 분석합니다.