選擇語言

PassGPT:基於大型語言模型的密碼建模與引導式生成

分析PassGPT,這是一個用於密碼生成與強度評估的LLM,其效能超越GAN,並能實現引導式密碼創建。
computationalcoin.com | PDF Size: 1.8 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - PassGPT:基於大型語言模型的密碼建模與引導式生成

目錄

1. 簡介

密碼因其簡單性和易部署性,仍是主流的身份驗證機制。然而,密碼外洩構成重大威脅,不僅助長攻擊,也促使人們研究人類創建密碼的模式。本文探討大型語言模型在密碼建模上的應用,並介紹PassGPT。PassGPT 是一個在密碼外洩資料上訓練的LLM,用於生成和強度評估,其效能超越了先前基於生成對抗網路的方法,並引入了如引導式生成等新穎功能。

2. 方法論與架構

PassGPT 基於 GPT-2 架構構建,並針對密碼的序列化、字元級生成進行了調整。這種方法與將密碼作為單一原子單位生成的GAN有根本上的不同。

2.1. PassGPT 模型架構

該模型基於 Transformer 解碼器架構。它將密碼視為字元(或詞元)序列進行處理,學習給定前文脈絡下,下一個字元的條件機率:$P(x_t | x_{PassVQT 引入了向量量化技術,以提高生成密碼的困惑度(以及潛在的多樣性)。

2.2. 引導式密碼生成

一個關鍵創新是引導式密碼生成。透過操控取樣過程(例如,使用條件機率或約束解碼),PassGPT 可以生成滿足任意使用者定義約束的密碼(例如,「必須包含一個數字和一個大寫字母」),這是標準GAN無法實現的任務。

2.3. 訓練與資料

模型以離線、無監督的方式在大規模密碼外洩資料上進行訓練,這與安全研究中常見的離線密碼猜測威脅模型相符。

3. 實驗結果與分析

3.1. 密碼猜測效能

PassGPT 的效能顯著超越先前最先進的深度生成模型(例如GAN)。它能猜出多出20%的先前未見過密碼,並在訓練期間未見過的新密碼資料集上展現出強大的泛化能力。

效能摘要

20% 提升 在猜測未見過密碼方面,相較於先前的GAN。

2倍更多 與某些基準相比,猜出的密碼數量。

3.2. 機率分佈與熵分析

與GAN不同,PassGPT 提供了整個密碼空間的明確機率分佈。分析顯示,PassGPT 會為被既有強度評估器(如zxcvbn)認為「強」的密碼分配較低的機率(較高的驚奇度),這表明其評估具有一致性。它也能識別出被評估器認為強,但在模型下機率上卻很可能出現的密碼,從而揭示潛在弱點。

3.3. 與基於GAN方法的比較

PassGPT 的序列生成方式相較於GAN具有優勢:1) 明確的機率分佈,2) 引導式生成能力,3) 在未見過資料上更好的效能。本文將此定位為密碼生成範式的轉移:從單一輸出生成轉向可控的、機率性的序列建模。

4. 技術細節與數學框架

PassGPT 的核心是自迴歸語言建模目標,即最大化訓練資料的似然:

$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{

其中 $N$ 是密碼數量,$T_i$ 是密碼 $i$ 的長度,$x_t^{(i)}$ 是第 $t$ 個字元,$\theta$ 是模型參數。生成時的取樣使用如 top-k 或核心取樣等方法來平衡多樣性和品質。完整密碼 $S$ 的機率為:$P(S) = \prod_{t=1}^{|S|} P(x_t | x_{

5. 核心洞見與分析師觀點

核心洞見: 本文真正的突破不僅僅是打造了一個更好的密碼破解工具;它將密碼創建形式化為一個可控序列生成問題。透過將現代自然語言處理的核心技術——下一個詞元預測——應用於密碼,PassGPT 超越了GAN(如CycleGAN風格圖像轉換中的GAN)那種黑箱、一次性生成的模式,進入一個透明、可引導的過程。這將安全議題從單純的強度評估,重新定義為對密碼選擇背後人類過程的建模。

邏輯脈絡: 論點極具說服力:1) LLM擅長捕捉複雜的真實世界分佈(文字)。2) 密碼是一種受約束的、由人類生成的子語言。3) 因此,LLM應能有效建模密碼——事實證明確實如此,且效能超越GAN。4) LLM的序列特性解鎖了引導式生成,這對於政策感知的破解或主動強度測試是殺手級應用。5) 明確的機率輸出為安全性提供了直接、可解釋的指標,彌合了生成式攻擊與機率性強度評估器之間的差距。

優勢與缺陷: 其優勢無可否認:卓越的效能和新穎的功能。引導式生成的示範是神來一筆,展示了立即的實用價值。然而,分析存在一個ML應用於安全領域論文中常見的關鍵缺陷:它迴避了技術的雙重用途性質。雖然提及「增強強度評估器」,但其主要展示的用途是攻擊性的(猜測)。倫理框架薄弱。此外,雖然它超越了GAN,但與龐大、基於規則的破解工具(如使用進階規則集的Hashcat)的比較則較不明確。模型的效能仍受其訓練資料——外洩資料——的限制,這些資料可能無法代表所有人類的密碼行為。

可行洞見: 對防禦者而言,這不是末日警鐘,而是行動號召。首先, 密碼強度評估器必須整合此類生成機率,正如文中所建議。像zxcvbn這樣的工具應進行改造,根據類似PassGPT模型的機率來檢查密碼,而不僅僅是靜態規則。其次, 紅隊應立即採用此方法進行內部稽核;引導式生成非常適合測試特定密碼政策的合規性。第三, 這項研究驗證了超越密碼的必要性。如果LLM能如此精準地建模密碼,長期的熵值正在崩潰。對FIDO2/WebAuthn和通行金鑰的投資變得更加迫切。關鍵結論是:不要將PassGPT視為破解工具,而是將其視為迄今為止最精準的人類密碼弱點模擬器。在對手利用它之前,用它來修補你的防禦。

6. 分析框架:範例案例

情境: 某公司政策要求密碼至少包含一個大寫字母、一個數字和一個特殊字元。傳統的基於規則的破解工具可能會使用變形規則。GAN則難以僅生成合規的密碼。

PassGPT 引導式生成方法:

  1. 約束定義: 為取樣過程定義遮罩或邏輯,以強制執行字元類型的位置。
  2. 約束取樣: 在每個字元 $x_t$ 的自迴歸生成過程中,對取樣分佈進行過濾或加權,僅允許來自滿足剩餘政策要求集合的字元(例如,如果在位置 $t$ 之前尚未生成數字,則增加數字的機率質量)。
  3. 輸出: 模型生成如 "C@t9Lover" 或 "F1r3Tr#ck" 這樣的序列,這些序列既具有機率上的可能性(從外洩資料中學習),又符合政策要求。
這展示了PassGPT如何用於政策感知的安全測試,生成最可能出現的弱密碼,同時這些密碼仍能通過政策檢查,從而識別政策漏洞。

7. 應用展望與未來方向

短期(1-2年):

中期(3-5年): 長期與研究前沿: 正如本文的成功所暗示的,最終方向是逐步以資料驅動的、機率性的安全模型取代啟發式的密碼規則。

8. 參考文獻

  1. Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
  2. Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
  4. Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
  6. Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  7. FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.