選擇語言

PassGPT:基於大型語言模型嘅密碼建模與引導式生成

分析PassGPT呢個用於密碼生成同強度評估嘅LLM,佢表現超越GAN,並實現咗引導式密碼創建。
computationalcoin.com | PDF Size: 1.8 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - PassGPT:基於大型語言模型嘅密碼建模與引導式生成

目錄

1. 簡介

由於簡單易用同易於部署,密碼仍然係主流嘅身份驗證機制。然而,密碼洩漏構成重大威脅,既助長攻擊,亦推動咗對人類密碼創建模式嘅研究。本文探討大型語言模型喺密碼建模上嘅應用,介紹PassGPT。PassGPT係一個基於密碼洩漏數據訓練嘅LLM,用於生成同強度評估,表現超越先前基於生成對抗網絡嘅方法,並引入咗引導式生成等新功能。

2. 方法論與架構

PassGPT建基於GPT-2架構,並針對密碼嘅序列化、字符級生成進行咗改進。呢種方法同將密碼作為單一原子單位生成嘅GAN有根本性區別。

2.1. PassGPT 模型架構

該模型基於Transformer解碼器架構。佢將密碼作為字符(或詞元)序列處理,學習喺給定上文情況下,下一個字符嘅條件概率:$P(x_t | x_{PassVQT引入咗向量量化技術,以增加生成密碼嘅困惑度(同潛在嘅多樣性)。

2.2. 引導式密碼生成

一個關鍵創新係引導式密碼生成。通過操控採樣過程(例如,使用條件概率或約束解碼),PassGPT可以生成滿足任意用戶定義約束嘅密碼(例如,「必須包含一個數字同一個大寫字母」),呢個任務係標準GAN無法實現嘅。

2.3. 訓練與數據

模型以離線、無監督嘅方式,喺大規模密碼洩漏數據上進行訓練,呢種方式符合安全研究中常見嘅離線密碼猜測威脅模型。

3. 實驗結果與分析

3.1. 密碼猜測表現

PassGPT顯著超越咗先前最先進嘅深度生成模型(例如GAN)。佢猜中多20%嘅先前未見過密碼,並且喺訓練期間未見過嘅新密碼數據集上表現出強大嘅泛化能力。

表現摘要

20% 提升 猜中未見過密碼嘅能力,相比先前嘅GAN。

2倍 更多 密碼被猜中,相比部分基準模型。

3.2. 概率分佈與熵分析

同GAN唔同,PassGPT提供咗整個密碼空間嘅明確概率分佈。分析顯示,PassGPT會為被現有強度評估器(如zxcvbn)認為「強」嘅密碼分配較低概率(較高驚奇度),表明兩者評估一致。佢亦識別出被評估器認為強、但喺模型下概率上仍然較高嘅密碼,揭示潛在弱點。

3.3. 與基於GAN方法嘅比較

PassGPT嘅序列生成相比GAN具有優勢:1)明確嘅概率分佈,2)引導生成能力,3)喺未見過數據上更好嘅表現。本文將此定位為密碼生成範式嘅轉變,從單一輸出生成轉向可控嘅、概率性嘅序列建模。

4. 技術細節與數學框架

PassGPT嘅核心係自回歸語言建模目標,即最大化訓練數據嘅似然:

$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{

其中$N$係密碼數量,$T_i$係密碼$i$嘅長度,$x_t^{(i)}$係第$t$個字符,$\theta$係模型參數。生成時嘅採樣使用top-k或核心採樣等方法來平衡多樣性同質量。完整密碼$S$嘅概率為:$P(S) = \prod_{t=1}^{|S|} P(x_t | x_{

5. 核心洞察與分析師觀點

核心洞察: 本文真正嘅突破唔單止係一個更好嘅密碼破解器;而係將密碼創建形式化為一個可控序列生成問題。通過將現代NLP嘅核心技術——下一個詞元預測——應用於密碼,PassGPT超越咗GAN(例如CycleGAN風格圖像轉換中嘅GAN)嘅黑盒、一次性生成模式,進入一個透明、可操控嘅過程。呢個將安全嘅焦點從單純嘅強度評估,重新定義為對密碼選擇背後嘅人類過程進行建模。

邏輯流程: 論點非常有力:1)LLM擅長捕捉複雜嘅現實世界分佈(文本)。2)密碼係一種受約束嘅、由人類生成嘅子語言。3)因此,LLM應該能有效建模密碼——事實證明佢哋做到咗,並且擊敗GAN。4)LLM嘅序列性質解鎖咗引導式生成,呢個係政策感知破解或主動強度測試嘅殺手級應用。5)明確嘅概率輸出為安全性提供咗直接、可解釋嘅指標,彌合咗生成式攻擊同概率性強度評估器之間嘅差距。

優點與不足: 其優點毋庸置疑:卓越嘅表現同新穎嘅功能。引導式生成演示係一個妙招,展示咗即時嘅實用價值。然而,分析存在一個ML應用於安全領域論文常見嘅關鍵缺陷:佢迴避咗技術嘅雙重用途性質。雖然提到「增強強度評估器」,但主要演示嘅用途係攻擊性嘅(猜測)。道德框架薄弱。此外,雖然佢表現超越GAN,但同大規模、基於規則嘅破解工具(如使用高級規則集嘅Hashcat)嘅比較就唔係咁清晰。模型嘅表現仍然受其訓練數據——洩漏數據——所限,呢啲數據可能唔代表所有人類密碼行為。

可行建議: 對於防禦者嚟講,呢個唔係末日信號,而係行動號召。首先,密碼強度評估器必須整合呢類生成概率,正如文中所建議。像zxcvbn呢類工具應該進行改造,根據類似PassGPT模型嘅概率來檢查密碼,而不僅僅係靜態規則。其次,紅隊應該立即採用呢種方法進行內部審計;引導式生成非常適合測試特定密碼政策嘅合規性。第三,呢項研究驗證咗需要超越密碼嘅必要性。如果一個LLM可以將密碼建模得咁好,長期熵值正在崩潰。對FIDO2/WebAuthn同通行密鑰嘅投資變得更加迫切。要點係:唔好將PassGPT視為一個破解器,而係視為迄今為止構建出嚟嘅、最準確嘅人類密碼弱點模擬器。喺對手使用佢之前,先用佢嚟修補你嘅防禦。

6. 分析框架:示例案例

場景: 公司政策要求密碼至少包含一個大寫字母、一個數字同一個特殊字符。傳統基於規則嘅破解器可能會使用變形規則。GAN會難以生成僅符合規定嘅密碼。

PassGPT引導式生成方法:

  1. 約束定義: 為採樣過程定義一個掩碼或邏輯,以強制執行字符類型位置。
  2. 約束採樣: 喺每個字符$x_t$嘅自回歸生成過程中,採樣分佈會被過濾或偏置,只允許來自滿足剩餘政策要求嘅字符集嘅字符(例如,如果到位置$t$為止都未生成數字,則增加數字嘅概率質量)。
  3. 輸出: 模型生成像「C@t9Lover」或「F1r3Tr#ck」咁樣嘅序列,呢啲序列既具有概率上嘅可能性(從洩漏數據中學習到),又符合政策規定。
呢個演示咗PassGPT點樣可以用於政策感知安全測試,生成最有可能嘅弱密碼,同時又能通過政策檢查,從而識別政策漏洞。

7. 應用前景與未來方向

短期(1-2年):

中期(3-5年): 長期與研究前沿: 正如本文成功所暗示嘅,最終方向係用數據驅動嘅、概率性安全模型逐漸取代啟發式密碼規則。

8. 參考文獻

  1. Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
  2. Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
  4. Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
  6. Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  7. FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.