運用深度學習與動態字典降低真實世界密碼強度建模中的偏差

1. 簡介

儘管存在已知的安全弱點，密碼仍然是主導的身份驗證機制。使用者傾向於遵循可預測的模式建立密碼，使其容易受到猜測攻擊。此類系統的安全性無法透過傳統的密碼學參數來量化，而需要對對手的行為進行準確建模。本文解決了一個關鍵的差距：當研究人員使用現成的、靜態配置的字典攻擊時，會引入顯著的測量偏差，這些攻擊無法捕捉真實世界中攻擊者動態且基於專業知識的策略。

2. 背景與問題陳述

真實世界的密碼破解者採用實用、高吞吐量的字典攻擊，並搭配變形規則（例如使用 Hashcat 或 John the Ripper 等工具）。這些攻擊的有效性取決於經過專家調校的配置——特定的單詞清單與規則集配對——這些配置是透過多年經驗精心設計的。依賴預設配置的安全分析嚴重高估了密碼強度，引入了測量偏差，從而破壞了安全結論的有效性。

2.1 密碼安全中的測量偏差

核心問題在於學術密碼模型與真實世界破解實踐之間的脫節。Ur 等人 (2017) 等研究顯示，密碼強度指標對所使用的攻擊者模型高度敏感。使用薄弱或通用的模型會導致對安全性的高估，產生虛假的安全感。

2.2 傳統字典攻擊的局限性

傳統的字典攻擊是靜態的。它們以預定的順序，將一組固定的變形規則（例如 leet 語、添加數字後綴）應用於固定的單詞清單。它們缺乏人類專家的適應能力，專家能夠：

根據目標（例如公司名稱、常見的本地用語）調整攻擊。
根據中間的成功結果動態重新調整規則的優先順序。
在攻擊過程中納入新洩露的資料。

3. 提出的方法論

作者提出了一種雙管齊下的方法，以自動化類似專家的猜測策略，減少對手動配置和領域知識的依賴。

3.1 用於對手熟練度建模的深度神經網路

訓練一個深度神經網路來模擬密碼的機率分佈。關鍵創新在於，不僅在原始密碼資料集上訓練此模型，還在專家破解者對基礎單詞所應用的變形規則序列上進行訓練。這使得 DNN 能夠學習對手的「熟練度」——可能的轉換及其有效的順序。

3.2 動態猜測策略

攻擊不使用靜態規則集，而是採用動態猜測策略。DNN 透過根據單詞當前狀態和攻擊上下文，以條件機率順序應用轉換，來引導候選密碼的生成。這模仿了專家即時調整攻擊路徑的能力。

3.3 技術框架

該系統可以概念化為一個機率生成器。給定字典中的一個基礎單詞 $w_0$，模型透過一系列 $T$ 個轉換（變形規則 $r_t$）生成一個密碼 $p$。密碼的機率建模為： $$P(p) = \sum_{w_0, r_{1:T}} P(w_0) \prod_{t=1}^{T} P(r_t | w_0, r_{1:t-1})$$ 其中 $P(r_t | w_0, r_{1:t-1})$ 是在給定初始單詞和先前規則歷史的情況下應用規則 $r_t$ 的機率，由 DNN 輸出。此公式允許上下文感知、非線性的規則應用。

4. 實驗結果與分析

4.1 資料集與實驗設定

實驗在幾個大型真實世界密碼資料集（例如 RockYou、LinkedIn）上進行。將提出的模型與最先進的機率密碼模型（例如馬可夫模型、PCFG）以及使用流行規則集的標準字典攻擊（例如 best64.rule、d3ad0ne.rule）進行了比較。

4.2 效能比較

關鍵指標是猜測次數——破解給定百分比密碼所需的猜測次數。結果表明，由 DNN 驅動的動態字典攻擊：

在所有資料集上均優於靜態字典攻擊，以更少的猜測次數破解了更多密碼。
接近了經過專家調校、針對特定目標的攻擊的效能，即使 DNN 是在通用資料上訓練的。
與靜態攻擊相比，對初始字典品質的變化表現出更高的穩健性。

圖表說明： 折線圖將顯示已破解密碼的累積百分比（Y軸）與猜測次數的對數（X軸）的關係。所提出方法的曲線將比 PCFG、馬可夫和靜態字典攻擊的曲線上升得更快、更高，特別是在早期的猜測排名中（例如前 10^9 次猜測）。

4.3 偏差減少分析

本文量化了測量偏差的減少程度。在評估密碼策略的強度時，使用靜態攻擊可能會得出結論：50% 的密碼能抵抗 10^12 次猜測。而提出的動態攻擊，模擬了一個能力更強的對手，可能顯示 50% 的密碼在 10^10 次猜測內被破解——這是靜態模型的100 倍高估。這凸顯了準確的對手建模對於策略決策的至關重要性。

5. 案例研究：分析框架範例

情境： 一個安全團隊希望評估其使用者群密碼抵禦複雜、有針對性攻擊的能力。

傳統（有偏差）方法： 他們使用 rockyou.txt 單詞清單和 best64.rule 規則集執行 Hashcat。報告指出：「80% 的密碼能在 10 億次猜測後存活。」

提出的（減少偏差）框架：

上下文攝入： 系統被提供公司名稱、行業以及任何可用的使用者人口統計資料（例如來自公開的市場調查）。
動態配置： 預先在專家破解序列上訓練的 DNN 生成動態攻擊策略。它可能會優先考慮附加公司股票代碼或常見產品名稱的規則，然後才是通用的數字後綴。
模擬與報告： 模擬動態攻擊。報告現在指出：「考慮到一個具有上下文感知能力的對手，60% 的密碼將在 10 億次猜測內被破解。先前的模型高估了強度 25 個百分點。」

此框架將分析從通用檢查轉變為基於威脅情報的評估。

6. 未來應用與研究方向

主動式密碼強度檢測器： 將此模型整合到即時密碼建立檢測器中，可以為使用者提供基於真實對手模型（而非簡化模型）的強度回饋。
自動化滲透測試： 紅隊可以使用此技術自動生成高效、針對特定目標的密碼破解配置，節省專家時間。
密碼策略最佳化： 組織可以模擬不同密碼策略（長度、複雜度）對此動態模型的影響，以設計真正能提升安全性的策略。
聯邦學習/隱私保護學習： 未來的工作可以探索在分散式密碼外洩資料上訓練 DNN，而無需集中敏感資料集，類似於 Google AI 等機構在聯邦學習研究中解決的挑戰。
與其他 AI 模型整合： 將此方法與生成模型（如用於自然語言的 GPT）結合，可以建立基於從網路蒐集的目標特定資訊，生成具有語義意義的密碼短語的攻擊。

7. 參考文獻

Pasquini, D., Cianfriglia, M., Ateniese, G., & Bernaschi, M. (2021). Reducing Bias in Modeling Real-world Password Strength via Deep Learning and Dynamic Dictionaries. 30th USENIX Security Symposium.
Ur, B., et al. (2017). Do Users' Perceptions of Password Security Match Reality? Proceedings of the 2017 CHI Conference.
Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2010). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. 25th USENIX Security Symposium.
Google AI. (2021). Federated Learning: Collaborative Machine Learning without Centralized Training Data. https://ai.google/research/pubs/pub45756
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems. (CycleGAN 是一種衍生架構)。

8. 原創分析與專家評論

核心洞見： 本文對網路安全研究中一個普遍存在但常被忽視的缺陷——「專業知識差距」偏差——進行了一次精準打擊。多年來，學術界的密碼強度評估一直建立在沙灘上——使用簡化的、靜態的攻擊者模型，這些模型與現實世界中適應性強、工具輔助的人類專家幾乎沒有相似之處。Pasquini 等人不僅僅是提供了一個更好的演算法；他們迫使該領域正視其自身的方法論盲點。真正的突破在於將問題框架設定為「更好的對手模擬」，而非「更好的密碼破解」，這是一個微妙但至關重要的視角轉變，類似於 AI 中從簡單分類器轉向生成對抗網路（GANs）的過程，後者的生成器品質由其欺騙判別器的能力來定義。

邏輯流程： 論證具有令人信服的線性。1) 真實威脅 = 專家配置的動態攻擊。2) 常見研究實踐 = 靜態、現成的攻擊。3) 因此，存在巨大的測量偏差。4) 解決方案：使用 AI 自動化專家的配置和適應能力。使用 DNN 來模擬規則序列是優雅的。它認識到專家知識不僅僅是一袋規則，而是一個機率過程——一種破解的文法。這與 Transformer 等序列模型在 NLP 中的成功相一致，表明作者有效地應用了相鄰 AI 領域的經驗。

優點與缺陷： 主要優點是實際影響力。這項工作對滲透測試人員和安全稽核員具有立即的實用性。其基於 DNN 的方法在學習複雜模式方面也比舊的 PCFG 方法更資料高效。然而，一個重大缺陷潛伏在訓練資料依賴性中。模型的「熟練度」是從觀察到的專家行為（規則序列）中學習的。如果訓練資料來自特定的破解者社群（例如以某種方式使用 Hashcat 的人），模型可能會繼承他們的偏差並錯過新策略。這是一種模仿，而非真正的策略智慧。此外，正如聯邦學習文獻（例如 Google AI 的工作）所指出的，收集此類敏感的「攻擊軌跡」資料用於訓練所涉及的隱私問題並非微不足道，且尚未被充分探索。

可行建議： 對於業界從業者：停止使用預設規則集進行風險評估。 將像這樣的動態、上下文感知模型整合到您的安全測試流程中。對於研究人員：本文設定了一個新的基準。未來的密碼模型必須針對適應性對手進行驗證，而非靜態對手。下一個前沿是閉合迴路——建立能夠設計出抵禦這些 AI 驅動的動態攻擊的密碼或策略的 AI 防禦者，邁向類似 GANs 的對抗性共同演化框架，其中攻擊者和防禦者模型同步改進。在靜態真空中評估密碼的時代已經——或者應該——結束了。