Betterleaks Secret ScannerのCI/CD環境への導入

Betterleaksの秘密スキャナー：アーキテクチャと鍵

近年、リポジトリ内の機密情報の検出方法は大きく変化しました。以前は、コード内の疑わしい文字列やエントロピーの高いキーを探すだけで十分でした。しかし現在では状況が異なり、リポジトリの規模拡大、CI/CDパイプラインの高速化、そして何よりも自動化ツールやAIモデルによって生成されるコード量の増加が顕著になっています。

これには実際的な意味合いがある。問題はもはや秘密を見つけることだけではなく、真に危険なものと、単に危険に見えるものを区別することだ。多くのチームは、こうしたスキャナーの真のコストは分析を実行することではなく、何百もの誤検出を検証することにあることに気づき始めている。

検出アーキテクチャ：Betterleaksで何が変わるのか？

Betterleaksはまさにこのような文脈で登場した。秘密情報のスキャン方法を完全に刷新しようとするものではないが、パターンを検出すれば十分だという広く浸透している前提に異議を唱えている。

多くの現代のリポジトリではそうではありません。

ザック・ライス氏が開発し、合気道の支援を受けて維持されているこのプロジェクトは、従来とは少し異なるアプローチを提案している。単に一致するものを検出することに焦点を当てるのではなく、アラートとして発信する前に、その発見が妥当かどうかを検証しようとするのだ。

これは些細なことのように思えるかもしれませんが、大規模チームの力関係を大きく変えてしまいます。スキャンシステムが無関係なアラートを大量に生成すると、チームは自然とそれらを無視しがちです。しかし、セキュリティにおいては、アラートを無視することは、アラートがないよりも悪い結果を招く可能性があります。

この問題に対処するため、Betterleaksは2つの興味深い技術的要素を導入しています。1つはCEL（共通表現言語）を使用した検証、もう1つはBPEトークン化に基づいた「トークン効率」と呼ばれる指標です。

一見秘密に見えるものすべてが、実際に秘密であるとは限らないというのが、この考え方の根底にある。エントロピーの高い文字列の中には、単なるハッシュ値、識別子、あるいは自動生成された断片であるものもある。このシステムの目的は、そうしたノイズを低減することである。

プロジェクトのドキュメントには、CredDataデータセットにおいて、BPEトークン化が98.6%のリコール率を達成したのに対し、エントロピーを用いた場合は70.4%であったという比較が記載されています。他のベンチマークと同様に、これらの数値はあくまで目安です。参考値としては役立ちますが、実際のデータベースでのテストに取って代わるものではありません。

違いを生み出すコンポーネント

プロジェクトの特徴を検討すると、明確な方向性が見えてくる。それは、技術的な複雑さを過度に高めることなく、実際の環境への導入を容易にすることである。

最も顕著な要素としては、以下のものが挙げられます。

CEL（共通式言語）を使用したルール定義による検証
トークン効率スキャンは、エントロピーではなくBPEトークン化に基づいており、CredDataデータセットにおいて、エントロピーを用いた場合の70.4%に対し、98.6%のリコール率を達成した。
純粋なGo言語による実装（CGOやHyperscanへの依存なし）
二重／三重にエンコードされた秘密情報の自動処理
より多くのプロバイダー向けにルールセットを拡張
リポジトリ分析を高速化するための並列化されたGitスキャン

このリストは単なる技術的な改良点の羅列のように見えるかもしれないが、興味深いのはそれらが日常生活にどのような影響を与えるかということだ。

例えば、ネイティブ依存関係のない完全なGo実装は、CI/CDパイプラインへの統合を大幅に簡素化します。多くのチームでは、こうした些細な点が、ツールが実際に使用されるか、リポジトリに埋もれたまま忘れ去られるかを左右するのです。

BPEトークン化は、従来とは異なるアプローチを採用しています。単にチェーンのランダム性を測定するのではなく、現代の認証情報が実際にどのように構成されているかをより正確に反映するトークンパターンを分析します。