PassGPT：基於大型語言模型的密碼建模與引導式生成

1. 簡介

儘管替代性驗證機制層出不窮，但密碼因其簡單性和易部署性，仍是主流的驗證方法。這種普遍性使得密碼外洩成為一個關鍵的威脅途徑。機器學習，特別是深度生成模型，在分析密碼外洩資料以進行猜測攻擊和強度評估方面發揮了重要作用。本文介紹了PassGPT，這是一種利用大型語言模型進行密碼建模的新方法。它探討了一個核心問題：LLM 能多有效地捕捉人類生成密碼中複雜且通常是潛意識的模式？ PassGPT 被定位為一種離線密碼猜測工具，符合先前攻擊者擁有雜湊密碼的對抗性研究情境。

2. 核心方法論與架構

PassGPT 從根本上將深度生成密碼建模的典範，從整體生成轉變為序列化、字元層級的預測。

2.1. PassGPT 模型設計

PassGPT 基於 GPT-2 Transformer 架構。它直接在大型密碼外洩資料集上進行訓練，學習給定前序序列後，下一個字元 $c_i$ 的機率分佈 $P(c_i | c_1, c_2, ..., c_{i-1})$。這種自迴歸建模使其能夠逐個詞元生成密碼，捕捉複雜的形態模式（例如，常見的前綴如 "Summer"、後綴如 "123!"，以及 leet-speak 替換）。

2.2. 引導式密碼生成

這是相較於先前基於 GAN 方法的關鍵創新。透過在生成過程中從模型的分佈中取樣，PassGPT 能夠納入任意約束條件。例如，攻擊者（或測試政策合規性的防禦者）可以引導生成過程，產生符合以下條件的密碼：必須包含一個大寫字母、必須以數字結尾，或必須包含特定子字串。這使得針對性地探索密碼空間成為可能，而這是先前將密碼作為單一、無約束輸出生成的模型所無法實現的。

2.3. PassVQT 增強技術

作者引入了 PassVQT，這是一個利用向量量化 Transformer 技術增強的變體。此修改旨在增加生成密碼的困惑度（一種不確定性的度量），從而可能產生更多樣化且更難預測的輸出，儘管其與可猜測性之間的權衡需要仔細評估。

3. 實驗結果與效能表現

關鍵效能指標

多猜出 20% 的未見過密碼： 與最先進的基於 GAN 的模型（例如 PassGAN）相比，PassGPT 多猜出了 20% 先前未見過的密碼。

3.1. 密碼猜測效能

論文展示了在離線猜測攻擊中的卓越效能。在保留的密碼資料集上進行評估時，PassGPT 在先前未見過的密碼上達到了約兩倍的命中率，相較於 GAN 基準模型。這表明其具有顯著更好的泛化能力，比對抗網路更有效地學習了人類選擇密碼的潛在分佈。

3.2. 強度評估分析

一個關鍵發現是，PassGPT 分配的明確機率 $P(password)$ 與密碼強度相關。它始終為較強的密碼分配較低的機率，這與 zxcvbn 等成熟的強度評估工具一致。此外，分析還識別出被傳統評估工具認為「強」、但被 PassGPT 分配高機率的密碼——這突顯了一類新的易受機器學習攻擊的密碼，而當前的檢查器可能會遺漏這類密碼。

4. 技術細節與數學框架

PassGPT 的核心是自迴歸語言建模目標。給定一個表示為詞元序列（字元或子詞）的密碼 $x = (x_1, x_2, ..., x_T)$，模型被訓練以最大化以下似然函數： $$L = \sum_{t=1}^{T} \log P(x_t | x_{

5. 分析框架與個案研究

個案研究：識別符合政策規定的弱密碼
情境： 一家公司實施了密碼政策：「至少 12 個字元，一個大寫字母，一個數字，一個特殊字元。」對此空間進行傳統的暴力破解攻擊是巨大的（約 $\sim94^{12}$ 種可能性）。
PassGPT 應用： 使用引導式生成，分析師可以從 PassGPT 中取樣，並施加這些確切的約束條件。模型在學習了人類的傾向後，將生成如 "Summer2023!Sun"、"January01?Rain" 等候選密碼，這些密碼符合政策規定，但由於常見的語義模式而極易被猜測。這展示了 PassGPT 如何能有效地在理論上強大的政策定義空間內找到「弱點」，這對於暴力破解或像 Hashcat 遮罩這樣的基於規則的生成器來說幾乎是不可能的任務。

6. 未來應用與研究方向

主動式密碼強度評估： 將 PassGPT 的機率分數整合到即時密碼創建檢查器中，以標記那些通過傳統規則但易受機器學習攻擊的密碼。
對抗性模擬與紅隊演練： 使用引導式 PassGPT 來模擬複雜、具情境感知能力的攻擊者，以設計更好的防禦性密碼政策。
跨領域模式學習： 探索在密碼上訓練的 LLM 是否能識別使用者在不同服務中的特定模式，這引發了針對性攻擊的擔憂。
防禦性訓練資料生成： 使用 PassGPT 生成大量、逼真的合成密碼資料集，用於訓練防禦性機器學習模型，而無需暴露真實使用者資料。
與更廣泛情境的整合： 未來的模型可能會納入情境資料（例如，使用者人口統計資料、服務類型），以更準確地模擬密碼選擇行為，正如 LLM 個人化趨勢所暗示的那樣。

7. 參考文獻

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Cryptography and Network Security.
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.

8. 原創分析與專家評論

核心洞見

PassGPT 不僅僅是漸進式的改進；它是一場典範轉移，暴露了人類選擇的秘密在現代人工智慧面前的根本脆弱性。論文最具破壞性的結論是，LLM 那種序列化、模式匹配的本質——這使得它們在語言處理上如此出色——也使得它們在建模密碼這種半結構化的「語言」時，效果驚人地好。這將威脅從統計暴力破解提升到了認知建模的層次。

邏輯脈絡

論證非常有力：1) LLM 透過學習序列中的深度統計模式，主導了自然語言處理領域。2) 密碼是人類生成的序列，具有深刻且通常是潛意識的統計模式（例如，鍵盤路徑、日期格式、語義串接）。3) 因此，LLM 應該主導密碼建模。結果以殘酷的效率證實了這一點。引導式生成功能是合乎邏輯的殺手級應用——它將這種理解武器化，允許攻擊者精準地利用政策與人類惰性之間的交叉點。

優勢與缺陷

優勢： 相較於 GAN 有 20% 的效能提升，在一個難以取得進展的領域中，這意義重大。明確的機率分佈是一個主要的理論和實踐優勢，橋接了生成與評估。引導式生成是真正的創新。
缺陷與疑問： 與許多對抗性機器學習研究一樣，本文對防禦性影響著墨不多。我們該如何建立能抵禦此類攻擊的政策？訓練資料（密碼外洩資料）在倫理上是模糊的。此外，正如CycleGAN 論文和其他生成模型文獻所指出的，模式崩潰和多樣性問題始終存在；雖然 PassVQT 解決了困惑度問題，但真正隨機密碼的長尾部分可能仍然是安全的。比較主要針對 GAN；若能與大規模、優化的基於規則系統（如 JtR 或帶有進階規則的 Hashcat）進行基準測試，將提供更完整的圖像。

可行建議

對於資安長與防禦者： 複雜性規則的時代已經結束。政策必須強制使用真正隨機的密碼片語或由密碼學安全管理器生成的密碼。像 zxcvbn 這樣的工具必須立即增強一個「ML 可猜測性」分數，這可能源自 PassGPT 這類模型本身。主動威脅獵捕應包括模擬 PassGPT 風格的攻擊來測試自己的密碼雜湊（需獲得適當授權）。
對於研究人員： 優先事項必須是防禦性的。下一批論文需要關注「抗 PassGPT 的密碼創建方案」。同時，正如長期網路安全中心等機構所強調的，迫切需要建立使用外洩資料進行研究的倫理框架。最後，探索應用從人類回饋中進行強化學習來引導 LLM 遠離生成可猜測的模式，可能是一個有前景的防禦對策。

總而言之，PassGPT 是一個警鐘。它展示了為創意和溝通任務開發的人工智慧尖端技術，可以被重新利用，以令人不寒而慄的效率來破解最古老的數位安全機制之一。防禦不能再僅僅依賴於智勝人類的可預測性；現在還必須智勝那個已經學會完美模仿它的 AI。