PassGPT：基於大型語言模型的密碼建模與引導式生成

1. 簡介

儘管身分驗證技術不斷進步，密碼因其簡單性和易部署性，仍是主流的驗證機制。密碼外洩構成重大的安全威脅，不僅可能導致未經授權的存取，更會讓破解工具持續精進。本文探討大型語言模型在密碼建模上的應用，介紹了PassGPT——一個基於密碼外洩資料訓練，用於生成與強度評估的模型。

研究顯示，PassGPT 的效能超越了現有基於生成對抗網路的技術，能猜中多出 20% 的先前未見過密碼，並引入了引導式密碼生成——這是一種在任意約束條件下生成密碼的新穎能力。

2. 方法論與架構

PassGPT 基於 GPT-2 架構建構，並針對密碼字元的序列生成進行調整。此方法與將密碼作為完整單元生成的 GAN 形成對比。

2.1. PassGPT 模型設計

該模型是一個在大規模密碼外洩資料上訓練的自迴歸 Transformer。它學習在給定前序序列 $x_{

2.2. 引導式密碼生成

一個關鍵創新在於字元層級的引導生成。透過操控取樣程序（例如使用條件機率或遮罩），PassGPT 能夠生成滿足特定約束條件的密碼，例如包含特定符號、符合長度要求或包含特定子字串——這是標準 GAN 無法實現的壯舉。

2.3. PassVQT 增強技術

PassVQT 整合了向量量化 Transformer 技術，使用離散碼本來表示潛在嵌入。這可以增加生成密碼的困惑度與多樣性，儘管可能會帶來計算成本。

3. 實驗結果

3.1. 密碼猜測效能

在真實世界的密碼外洩資料集（例如 RockYou）上的實驗顯示，PassGPT 的效能顯著超越先前最先進的深度生成模型，如 PassGAN。在一項測試中，PassGPT 猜中的獨特且先前未見過的密碼數量是基於 GAN 方法的兩倍。它也在新穎的、訓練時未見過的資料集上展現出強大的泛化能力。

效能比較

PassGPT 對比 GANs： 在猜測未見過密碼的成功率上高出 20%。

泛化能力： 在訓練時未見過的新密碼外洩資料上仍有效能。

3.2. 機率分佈分析

與 GAN 不同，PassGPT 提供了明確的密碼機率分佈。分析顯示，低密碼機率（高負對數概似值）與高強度（由 zxcvbn 等評估器測量）之間存在強烈相關性。然而，PassGPT 也發現了一些實例，即被傳統評估器認定為「強」的密碼，在其模型下卻具有相對較高的機率，這暗示了潛在的弱點。

圖表意涵： 一個假設的散佈圖會將密碼機率（PassGPT）置於 x 軸，強度分數（zxcvbn）置於 y 軸，顯示出整體的負相關趨勢，但存在明顯的離群值，即高強度密碼卻具有出乎意料的高機率。

4. 技術分析與框架

產業分析師觀點：對 PassGPT 方法、其意涵及實務啟示的批判性評估。

4.1. 核心洞見

本文的根本突破不僅是另一個用於密碼的 AI 模型；它代表了一種從判別式模式匹配到生成式序列建模的典範轉移。雖然像 Hashcat 這樣的工具依賴規則和馬可夫鏈，而像 PassGAN 這樣的 GAN 生成整體輸出，但 PassGPT 將密碼創建視為一種語言行為。這反映了 GPT-3 等 LLM 如何捕捉自然語言的「文法」和「語義」，但此處應用於人類創建密碼的「語言」。真正的價值主張在於它提供了明確、可追蹤的機率分佈——這是 GAN 明顯缺乏的特性，後者常被批評為「黑盒子」。這將密碼安全從啟發式的猜測提升至機率推理的層次。

4.2. 邏輯流程

論證過程具有說服力的邏輯：(1) LLM 透過建模序列主導了 NLP；(2) 密碼是具有潛在結構的字元序列；(3) 因此，LLM 應能有效建模密碼。驗證是穩健的：優越的猜測效能證明了前提。引導式生成的引入是序列架構的自然延伸——類似於 CTRL 等模型中的可控文本生成。對機率分佈的分析是關鍵的下一步，將生成式建模與強度評估的實務領域重新連結起來。從建模 -> 生成 -> 分析 -> 應用的流程連貫且具影響力。

4.3. 優勢與缺陷

優勢： 效能提升無可否認。引導生成能力是一項真正的創新，可立即應用於滲透測試（生成符合規則的密碼候選項），並可能幫助使用者創建易記且複雜的密碼。提供機率分佈是主要的理論與實務優勢，能夠計算熵值並與現有安全框架整合。

缺陷與疑慮： 本文輕描淡寫了一些重要問題。首先，倫理雙重用途：這是一個強大的破解工具。雖然定位為「離線猜測」研究，但其被濫用的可能性很高，程式碼/模型的發布需要嚴格的倫理準則，類似於圍繞其他雙重用途 AI 研究的辯論。其次，資料依賴性：與所有機器學習模型一樣，PassGPT 的效能僅與其訓練資料相當。它可能無法有效建模來自常見外洩資料中代表性不足的文化或語言的密碼。第三，計算成本：與一些舊方法相比，訓練和運行大型 Transformer 是資源密集的，可能限制即時應用。PassVQT 變體增加的「困惑度」被提及但未徹底評估——更高的多樣性是轉化為更有效的猜測，還是僅僅產生更多無意義的字串？

4.4. 可行建議

對於安全團隊：立即評估貴組織的密碼政策可能如何受到這新一代 AI 驅動攻擊的威脅。要求複雜但可預測模式的政策現在更容易暴露。倡導轉向使用真正的隨機性（密碼管理員）或密碼片語。

對於研究人員與供應商：將基於 LLM 的機率估計整合到強度評估器中。結合傳統規則與 PassGPT 概似值的混合評估器可能更穩健。開發能夠偵測可能由 PassGPT 生成的密碼的防禦模型，在密碼安全領域引發一場 AI 對 AI 的軍備競賽。

對於政策制定者：資助此技術防禦性應用的研究，並為網路安全領域中強大攻擊性 AI 工具的發布建立明確的倫理框架。

框架範例（非程式碼）： 考慮一家金融機構的密碼政策：「12 個字元，1 個大寫，1 個小寫，1 個數字，1 個特殊字元。」傳統破解工具可能會使用暴力破解或變形規則。GAN 可能難以生成嚴格滿足所有約束的輸出。PassGPT 的引導生成可以被設定為僅取樣符合此特定政策的序列，有效地探索該受限搜尋空間中的高機率子空間，使其成為紅隊測試此政策以及黑盒攻擊者的強大工具。

5. 未來應用與方向

增強型強度評估： 將 PassGPT 的機率分數整合到網站和應用程式的即時密碼強度評估器中。
主動式密碼稽核： 組織可以使用引導式 PassGPT 模型主動生成並測試符合內部政策的密碼，搶在攻擊者之前識別弱點。
混合防禦模型： 開發能夠區分人類選擇與 LLM 生成密碼的判別模型，以標記可能已遭洩露或脆弱的憑證。
跨領域序列建模： 將相同架構應用於其他與安全相關的序列，例如網路協定指紋、惡意軟體 API 呼叫序列或詐欺交易模式。
聯邦式與隱私保護訓練： 探索在分散式、匿名化的密碼資料上訓練此類模型的技術，無需集中敏感的外洩資料。
對抗性密碼生成： 使用引導生成來創建「對抗樣本」——那些對評估器看似強韌，但容易被模型猜中的密碼——以壓力測試並改進這些評估器。

6. 參考文獻

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.