PassTSL：針對人為建立密碼建模與破解的兩階段學習法

1. 緒論

文字密碼仍是主流的身份驗證機制，但其人為創造的特性使其容易受到資料驅動的攻擊。現有的頂尖建模方法，包括馬可夫鏈、基於模式的模型、循環神經網路和生成對抗網路，在捕捉密碼複雜、類似語言卻又獨特的結構上存在侷限。受自然語言處理中變革性的預訓練-微調範式啟發，本文提出了PassTSL（透過兩階段學習為人為建立密碼建模）。PassTSL利用基於Transformer的架構，首先從一個大型、多樣化的資料集（預訓練）中學習通用的密碼創建模式，然後使用一個較小、相關的目標資料集（微調）使模型專門適用於特定情境。此方法旨在彌合先進NLP技術與密碼建模獨特挑戰之間的差距。

2. 方法論：PassTSL框架

PassTSL的核心創新在於其結構化的兩階段學習過程，這模仿了BERT和GPT等模型中的成功策略。

2.1. 預訓練階段

模型最初在一個大型、通用的密碼語料庫（例如，來自多次外洩事件的綜合資料）上進行訓練。目標是學習基本的字元層級依賴關係、常見的替換模式（例如，'a' -> '@'、's' -> '$'）以及在不同密碼集中普遍存在的機率結構。此階段建立了一個關於人類密碼創建行為的穩健基礎模型。

2.2. 微調階段

接著，將預訓練模型調整以適應特定的目標密碼資料庫。使用來自目標集的一個相對較小的樣本，調整模型的參數。本文探討了一種基於預訓練分佈與目標分佈之間的Jensen-Shannon散度來選擇微調資料的啟發式方法，旨在選擇最具資訊價值的樣本進行適應。

2.3. 模型架構與技術細節

PassTSL建構於Transformer解碼器架構之上，利用自注意力機制在預測序列中下一個字元時，權衡不同字元的重要性。該模型將密碼視為一個字元序列。訓練過程在預訓練階段涉及遮罩語言建模風格的目標，模型學習預測密碼序列內隨機被遮罩的字元，從而捕捉雙向上下文。

3. 實驗設定與結果

3.1. 資料集與基準模型

實驗在六個大型、真實世界的洩漏密碼資料庫上進行。PassTSL與五種頂尖密碼猜測工具進行比較，包括基於馬可夫鏈、循環神經網路和生成對抗網路的模型。

3.2. 密碼猜測效能

PassTSL顯著優於所有基準模型。在最大評估點處，猜測成功率提升範圍為4.11%至64.69%，證明了兩階段方法的有效性。結果表明，在大型語料庫上進行預訓練，相較於僅在單一目標集上從頭開始訓練的模型，提供了顯著優勢。

相較於頂尖模型的效能增益

範圍： 4.11% - 64.69%

情境： 在最大評估點處的密碼猜測成功率提升。

3.3. 密碼強度計量器評估

基於PassTSL的機率估計實作了一個密碼強度計量器。將其與一個基於神經網路的密碼強度計量器以及基於規則的zxcvbn進行比較。關鍵指標是「安全錯誤」（低估強度）與「不安全錯誤」（高估強度）之間的權衡。在相同安全錯誤率下，基於PassTSL的密碼強度計量器產生了更少的不安全錯誤，意味著它在識別真正脆弱的密碼方面更為準確。

3.4. 微調資料選擇的影響

研究發現，即使是少量的目標微調資料（例如，預訓練資料量的0.1%），也能使目標集上的猜測效能平均提升超過3%。基於JS散度的選擇啟發式方法被證明能有效選擇有益的微調樣本。

4. 關鍵洞見與分析

核心洞見： 本文的根本突破在於認識到密碼創建是一種專門化、受限的自然語言生成形式。透過將其視為此類問題並應用現代NLP工具套件——特別是Transformer架構和兩階段學習範式——作者在建模保真度上實現了範式轉移。這不僅是漸進式的改進；更是一種方法論上的飛躍，重新定義了機率式密碼破解可能性的上限。

邏輯流程： 論證過程極具說服力且簡單：1) 密碼與語言共享統計和語義特性。2) 最成功的現代語言模型使用在龐大語料庫上預訓練，然後進行特定任務微調。3) 因此，將此框架應用於密碼應能產生更優越的模型。在六個不同資料集上的實驗結果明確驗證了此邏輯，顯示相較於馬可夫鏈等上一代模型，甚至循環神經網路和生成對抗網路等早期神經方法，PassTSL取得了持續且通常是顯著的增益。

優勢與缺陷： 主要優勢是所展示的效能，這非常強大。使用JS散度進行微調樣本選擇是一個聰明且實用的啟發式方法。然而，分析存在缺陷。它輕描淡寫地帶過了Transformer模型對計算和資料的龐大需求。預訓練需要一個大規模、聚合的密碼語料庫，這引發了關於資料來源的倫理和實際問題。此外，雖然它擊敗了其他模型，但本文並未深入探討為何Transformer注意力機制在此任務上比長短期記憶的門控記憶等機制好得多。是因為長距離依賴捕捉，還是其他原因？這種「黑箱」特性仍然存在。

可操作洞見： 對於安全從業者而言，這項研究敲響了警鐘。防禦性的密碼強度計量器必須超越字典和規則系統（如zxcvbn），納入此類深度學習模型以準確評估風險。對於研究人員而言，前進的道路很明確：探索更高效的架構、研究聯邦學習以在不集中敏感資料的情況下進行預訓練，並利用這些模型不僅用於破解，也用於生成穩健的密碼政策建議。簡單啟發式防禦的時代已經結束；軍備競賽現在已穩固地進入人工智慧領域。

5. 技術細節與數學公式

PassTSL中的Transformer模型使用$N$個相同層的堆疊。每一層有兩個子層：一個多頭自注意力機制和一個位置全連接前饋網路。每個子層周圍都採用了殘差連接和層標準化。

自注意力函數將一個查詢、一組鍵值對映射到一個輸出。輸出計算為值的加權和，其中分配給每個值的權重由查詢與相應鍵的相容性函數決定。對於單個注意力頭： $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ 其中$d_k$是鍵的維度。

預訓練目標涉及預測被遮罩的詞元。給定一個輸入密碼序列$X = (x_1, x_2, ..., x_T)$，一個隨機的詞元子集被替換為特殊的`[MASK]`詞元。模型被訓練來預測這些被遮罩位置上的原始詞元，最大化對數概似： $$\mathcal{L}_{PT} = \sum_{i \in M} \log P(x_i | X_{\backslash M})$$ 其中$M$是被遮罩位置的集合。

微調在目標資料集$D_{ft}$上調整模型參數$\theta$，以最小化序列的負對數概似： $$\mathcal{L}_{FT} = -\sum_{(X) \in D_{ft}} \log P(X | \theta)$$

6. 分析框架：非程式碼案例研究

情境： 一家大型科技公司的安全團隊希望評估員工密碼抵禦頂尖攻擊的韌性。

資料準備： 團隊合法地從多個公開、匿名的外洩來源聚合一個大型、通用的密碼語料庫（用於預訓練）。他們還取得自己公司密碼雜湊的一個小型、淨化樣本（用於微調），確保分析人員無法接觸到明文密碼。
模型應用： 他們部署一個類似PassTSL的框架。
- 步驟A（預訓練）： 在通用語料庫上訓練基礎Transformer模型。模型學習全域模式，如「password123」、「qwerty」和常見的Leet語替換。
- 步驟B（微調）： 使用JS散度啟發式方法，選擇預訓練資料中與公司密碼樣本統計上最相似的0.1%資料。在此選定子集與公司樣本的組合上對預訓練模型進行微調。這使模型適應公司特定的模式（例如，內部產品名稱的使用、特定日期格式）。
評估： 微調後的模型生成一個猜測清單。團隊將其破解率與現有防禦措施（例如，使用標準規則集的hashcat）進行比較。他們發現PassTSL在前10^9次猜測中多破解了30%的密碼，揭示了傳統方法遺漏的重大漏洞。
行動： 根據模型的輸出，他們識別出最常被猜中的模式，並實施有針對性的密碼政策變更（例如，禁止包含公司名稱的密碼），並發起重點使用者教育活動。

7. 未來應用與研究方向

主動防禦與密碼衛生： PassTSL模型可以整合到即時密碼創建介面中，作為超精準的強度計量器，防止使用者選擇模型容易猜中的密碼。這超越了靜態規則，實現了動態的、基於機率的拒絕。
對抗性密碼生成： 反轉模型以生成根據學習到的分佈最不可能的密碼，向使用者建議真正強固的密碼，類似於CycleGAN等生成模型學習在領域之間轉換的方式。
聯邦與隱私保護學習： 未來的工作必須解決資料隱私挑戰。像聯邦學習這樣的技術（模型在分散的資料來源上訓練而不交換原始密碼），或在訓練期間使用差分隱私，對於合乎倫理的採用至關重要。
跨模態密碼分析： 擴展框架以建模與其他使用者資料（例如，使用者名稱、安全問題）相關聯的密碼，從而建立更全面的使用者畫像模型，用於針對性攻擊，或者反過來用於多因素風險評估。
效率優化： 研究模型蒸餾、量化以及更高效的注意力機制，使這些強大的模型能夠部署在邊緣裝置或低延遲的網路應用程式中。

8. 參考文獻

Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
Hitaj, B., et al. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Intelligence.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.
Zhu, J.Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV). (CycleGAN reference for generative concept).
National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B). (For authoritative context on authentication).

目錄