PassGPT: 大規模言語モデルを用いたパスワードモデリングと誘導生成

1. はじめに

認証技術が進歩しているにもかかわらず、パスワードはその簡便さと導入の容易さから、依然として主要な認証メカニズムであり続けています。パスワード漏洩は、不正アクセスを可能にするだけでなく、クラッキングツールの改良にもつながる重大なセキュリティ脅威です。本論文は、大規模言語モデル（LLM）をパスワードモデリングに応用することを調査し、生成と強度推定のためにパスワード漏洩データで学習されたモデルであるPassGPTを紹介します。

本研究は、PassGPTが既存の生成敵対ネットワーク（GAN）ベースの手法を上回り、未確認のパスワードを20%多く推測し、任意の制約下でパスワードを生成する新機能である誘導パスワード生成を導入することを実証しています。

2. 手法とアーキテクチャ

PassGPTは、パスワード文字の逐次生成に適応させたGPT-2アーキテクチャを基盤としています。このアプローチは、パスワードを完全な単位として生成するGANとは対照的です。

2.1. PassGPTモデル設計

本モデルは、大規模なパスワード漏洩データで学習された自己回帰型トランスフォーマーです。先行する系列 $x_{

2.2. 誘導パスワード生成

主要な革新は、文字レベルの誘導生成です。サンプリング手順（例：条件付き確率やマスキングの使用）を操作することで、PassGPTは特定の記号を含む、長さ要件を満たす、特定の部分文字列を含むなど、特定の制約を満たすパスワードを生成できます。これは標準的なGANでは達成不可能な偉業です。

2.3. PassVQT拡張

PassVQTは、ベクトル量子化トランスフォーマー（VQT）技術を組み込んでおり、離散コードブックを使用して潜在埋め込みを表現します。これにより、生成されるパスワードのパープレキシティと多様性を高めることができますが、計算コストがかかる可能性があります。

3. 実験結果

3.1. パスワード推測性能

実世界のパスワード漏洩データ（例：RockYou）での実験は、PassGPTがPassGANのような従来の最先端深層生成モデルを大幅に上回ることを示しています。あるテストでは、PassGPTはGANベースのアプローチと比較して未確認のユニークなパスワードを2倍多く推測しました。また、学習中に見なかった新しいデータセットに対しても強い汎化性能を示しました。

性能比較

PassGPT vs. GAN: 未確認パスワードの推測成功率が20%高い。

汎化性能: 学習中に見なかった新しいパスワード漏洩データに対しても有効な性能。

3.2. 確率分布分析

GANとは異なり、PassGPTはパスワードに対する明示的な確率分布を提供します。分析によると、パスワードの確率が低いこと（負の対数尤度が高いこと）と、zxcvbnのような推定器で測定される強度が高いこととの間に強い相関関係が見られます。しかし、PassGPTは、従来の推定器によって「強い」と判断されたパスワードが、そのモデル下では比較的高い確率を持つ事例を特定し、潜在的な脆弱性を示唆しています。

チャートの示唆: 仮想的な散布図は、x軸にパスワード確率（PassGPT）、y軸に強度スコア（zxcvbn）を示し、一般的な負の傾向と、強度の高いパスワードが予想外に高い確率を持つ注目すべき外れ値を明らかにするでしょう。

4. 技術分析とフレームワーク

業界アナリストの視点：PassGPTアプローチ、その含意、実践的な知見の批判的評価。

4.1. 中核的洞察

本論文の根本的なブレークスルーは、単なる別のパスワード用AIモデルではなく、識別的なパターンマッチングから生成的な系列モデリングへのパラダイムシフトです。Hashcatのようなツールはルールとマルコフ連鎖に依存し、PassGANのようなGANは全体的な出力を生成しますが、PassGPTはパスワード作成を言語的行為として扱います。これは、GPT-3のようなLLMが自然言語の「文法」と「意味」を捉える方法に似ていますが、ここでは人間のパスワード作成という「言語」に適用されています。真の価値提案は、それが提供する明示的で扱いやすい確率分布です。これは、しばしば「ブラックボックス」と批判されるGANには明らかに欠けている特徴です（Goodfellow et al., 2014）。これは、パスワードセキュリティを発見的な推測から確率的推論へと移行させます。

4.2. 論理的流れ

議論は説得力のある論理で進みます：(1) LLMは系列をモデル化することでNLPを支配している；(2) パスワードは潜在構造を持つ文字の系列である；(3) したがって、LLMはパスワードを効果的にモデル化できるはずである。検証は堅牢です：優れた推測性能が前提を証明します。誘導生成の導入は、CTRLのようなモデルでの制御されたテキスト生成に類似した、系列アーキテクチャの自然な拡張です（Keskar et al., 2019）。確率分布の分析は、生成モデリングを強度推定という実践的領域に戻す重要な次のステップです。モデリング -> 生成 -> 分析 -> 応用という流れは首尾一貫しており、影響力があります。

4.3. 長所と欠点

長所: 性能向上は否定できません。誘導生成能力は真の革新であり、ペネトレーションテスト（ルール準拠のパスワード候補生成）への即時応用や、ユーザーが覚えやすく複雑なパスワードを作成するのを助ける可能性があります。確率分布を提供することは、理論的にも実践的にも大きな利点であり、エントロピー計算や既存のセキュリティフレームワークとの統合を可能にします。

欠点と懸念: 本論文は重大な問題を軽視しています。第一に、倫理的な二重用途：これは強力なクラッキングツールです。「オフライン推測」研究として位置づけられていますが、悪用の可能性は高く、コード/モデルの公開には、他の二重用途AI研究をめぐる議論と同様に、厳格な倫理ガイドラインが必要です（Brundage et al., 2018）。第二に、データ依存性：すべてのMLモデルと同様に、PassGPTは学習データの質に依存します。一般的な漏洩データに十分に含まれていない文化や言語のパスワードをモデル化できない可能性があります。第三に、計算コスト：大規模なトランスフォーマーの学習と実行は、一部の古い手法と比較してリソース集約的であり、リアルタイム応用を制限する可能性があります。PassVQTバリアントの増加した「パープレキシティ」は言及されていますが、徹底的に評価されていません。多様性の向上は、より効果的な推測につながるのか、それとも単により多くの無意味な文字列を生み出すだけなのか？

4.4. 実践的示唆

セキュリティチーム向け: あなたの組織のパスワードポリシーが、この新世代のAI駆動型攻撃に対してどのように脆弱であるかを直ちに評価してください。「CompanyName2024!」のような複雑だが予測可能なパターンを義務付けるポリシーは、今やより晒されています。真のランダム性（パスワードマネージャー）やパスフレーズの使用への移行を提唱してください。

研究者・ベンダー向け: LLMベースの確率推定を強度メーターに統合してください。従来のルール（zxcvbn）とPassGPTの尤度を組み合わせたハイブリッド推定器は、より堅牢になる可能性があります。PassGPTによって生成されそうなパスワードを検出できる防御モデルを開発し、パスワードセキュリティにおけるAI対AIの軍拡競争を生み出してください。

政策立案者向け: この技術の防御的応用に関する研究に資金を提供し、サイバーセキュリティにおける強力な攻撃的AIツールの公開に関する明確な倫理的枠組みを確立してください。

フレームワーク例（非コード）: 金融機関のパスワードポリシーを考えてみましょう：「12文字、大文字1つ、小文字1つ、数字1つ、特殊文字1つ」。従来のクラッキングツールは総当たり攻撃やマングリングルールを使用するかもしれません。GANは、すべての制約を厳密に満たす出力を生成するのに苦労するかもしれません。PassGPTの誘導生成は、この正確なポリシーを満たす系列のみをサンプリングするように指示でき、その制約付き探索空間の高確率部分空間を効率的に探索します。これは、このポリシーをテストするレッドチームと、ブラックボックス攻撃者の両方にとって強力なツールとなります。

5. 将来の応用と方向性

強化された強度推定: PassGPTの確率スコアを、ウェブサイトやアプリケーションのリアルタイムパスワード強度メーターに統合する。
積極的パスワード監査: 組織は、誘導PassGPTモデルを使用して、内部ポリシーに準拠するパスワードを積極的に生成・テストし、攻撃者よりも先に弱点を特定できる。
ハイブリッド防御モデル: 人間が選択したパスワードとLLMが生成したパスワードを区別できる識別モデルを開発し、潜在的に侵害された、または弱い認証情報にフラグを立てる。
クロスドメイン系列モデリング: 同じアーキテクチャを、ネットワークプロトコルフィンガープリント、マルウェアAPI呼び出し系列、不正取引パターンなど、他のセキュリティ関連系列に適用する。
フェデレーテッド学習とプライバシー保護学習: 機密漏洩データを中央集権化せずに、分散化された匿名化パスワードデータでこのようなモデルを学習する技術を探求する。
敵対的パスワード生成: 誘導生成を使用して「敵対的サンプル」—推定器には強く見えるが、モデルには簡単に推測されるパスワード—を作成し、それらの推定器をストレステストして改善する。

6. 参考文献

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.