2.1 傳統密碼猜測
歷史上,密碼猜測依賴於對密碼洩漏嘅統計分析(例如使用 John the Ripper 規則、Hashcat 掩碼,或者 Weir 等人開創嘅概率上下文無關文法)。呢啲方法需要專業知識來制定轉換規則同字典。佢哋雖然有效,但受制於規則集設計者嘅創造力,並且難以推廣到新穎、未見過嘅模式。
基於密碼嘅身份驗證因其簡單易用同用戶熟悉度而仍然無處不在。然而,用戶選擇嘅密碼眾所周知係可預測嘅,通常較短、基於個人信息,或者喺唔同平台重複使用。呢種可預測性造成咗重大嘅安全漏洞。呢項工作解決嘅核心問題係:深度學習模型係咪可以有效學習並複製人類選擇密碼中固有嘅、通常係潛意識嘅複雜模式,從而為安全測試同分析生成新穎、逼真嘅密碼候選項。
本文通過研究一系列現代、數據驅動嘅深度學習架構,超越咗傳統基於規則同概率嘅密碼猜測方法(例如馬爾可夫鏈、概率上下文無關文法)。目標係評估佢哋從大型洩漏數據集中自主發現密碼結構同語義嘅潛力,而無需大量手動特徵工程。
歷史上,密碼猜測依賴於對密碼洩漏嘅統計分析(例如使用 John the Ripper 規則、Hashcat 掩碼,或者 Weir 等人開創嘅概率上下文無關文法)。呢啲方法需要專業知識來制定轉換規則同字典。佢哋雖然有效,但受制於規則集設計者嘅創造力,並且難以推廣到新穎、未見過嘅模式。
由 GPT、BERT 同 Transformer 等模型驅動嘅 NLP 領域近期突破,展示咗深度神經網絡建模複雜語言分佈嘅能力。關鍵嘅使能技術包括:
本研究評估咗一系列針對密碼字符串嘅順序、離散特性而調整嘅生成式深度學習模型。
採用 Transformer 或注意力增強嘅 RNN 等模型來捕捉密碼中字符之間嘅上下文關係。對於字符序列 $x_1, x_2, ..., x_T$,注意力為每個步驟 $i$ 計算一個上下文向量 $c_i$,作為所有隱藏狀態嘅加權和:$c_i = \sum_{j=1}^{T} \alpha_{ij} h_j$,其中 $\alpha_{ij}$ 係注意力權重。呢個允許模型學習,例如,數字通常跟隨某個字母模式。
標準自動編碼器學習一個編碼器 $E(x)$,將密碼 $x$ 映射到潛在編碼 $z$,以及一個解碼器 $D(z)$ 來重建 $\hat{x}$。模型訓練目標係最小化重建損失 $\mathcal{L}_{rec} = ||x - D(E(x))||^2$。雖然對表示有用,但標準自動編碼器唔提供用於平滑生成嘅結構化潛在空間。
GANs 讓生成器 $G$ 同判別器 $D$ 對抗。$G$ 接收隨機噪聲 $z$ 並嘗試生成逼真密碼 $G(z)$,而 $D$ 嘗試區分真實密碼同假密碼。佢哋通過一個極小極大博弈進行訓練:$\min_G \max_D V(D, G) = \mathbb{E}_{x\sim p_{data}}[\log D(x)] + \mathbb{E}_{z\sim p_z}[\log(1 - D(G(z)))]$。喺離散文本上訓練 GAN 係出名嘅挑戰,通常需要 Gumbel-Softmax 或強化學習等技術。
本文介紹咗用於密碼生成嘅新穎 VAE 架構。VAE 對潛在空間施加概率結構。編碼器輸出高斯分佈嘅參數(均值 $\mu$ 同方差 $\sigma^2$):$q_\phi(z|x) = \mathcal{N}(z; \mu_\phi(x), \sigma^\phi(x))$。採樣一個潛在編碼:$z = \mu + \sigma \odot \epsilon$,其中 $\epsilon \sim \mathcal{N}(0, I)$。解碼器然後從 $z$ 重建密碼。損失函數係證據下界 (ELBO):
$\mathcal{L}_{VAE} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - \beta \cdot D_{KL}(q_\phi(z|x) || p(z))$
其中 $p(z) = \mathcal{N}(0, I)$ 係先驗分佈。第一項係重建損失,第二項係正則化潛在空間嘅 Kullback-Leibler 散度。$\beta$ 參數控制權衡。呢個結構化潛在空間實現咗強大嘅功能,例如密碼之間嘅插值同目標採樣。
實驗喺五個知名嘅真實世界密碼洩漏數據集上進行,以確保穩健性同泛化能力。呢啲數據集喺大小、來源(社交媒體、遊戲、專業網絡)同文化起源上各不相同,為模型性能提供咗多樣化嘅測試平台。
RockYou: 約 3200 萬個密碼,來自一個遊戲網站。
LinkedIn: 約 6000 萬個哈希值(已解密),專業背景。
Youku/Zomato/Pwnd: 提供結構同用戶群多樣性嘅額外洩漏數據。
提出嘅 VAE 模型喺所有數據集上實現咗最先進或極具競爭力嘅 匹配率,特別係喺早期排名(例如 Match Rate@10M)。佢哋持續優於或匹配傳統 GAN 同更簡單嘅自動編碼器。基於注意力嘅模型亦顯示出強大性能,特別係喺捕捉複雜字符依賴關係方面。
圖表解讀(假設性): 柱狀圖會喺 y 軸顯示每個模型(VAE、GAN、Attention-RNN、Markov)喺 x 軸五個數據集上嘅「Match Rate@10 Million」。VAE 嘅柱狀圖喺每個數據集上都係最高或接近最高,展示咗其穩健性能。折線圖可以顯示隨猜測次數增加嘅累積匹配率,VAE 曲線會喺早期急劇上升。
與更簡單嘅模型相比,VAE 同 GAN 傾向於生成更高比例嘅 獨特 密碼,表明更好嘅泛化能力。然而,GAN 有時會遭受「模式崩潰」,即生成嘅密碼種類有限,呢個問題喺 VAE 框架中通過結構化潛在先驗得到緩解。
VAE 嘅一個關鍵優勢係佢哋連續、結構化嘅潛在空間。本文展示咗:
呢個將密碼生成從盲目猜測轉向一個更受控、探索性嘅過程。
本文最重要嘅貢獻唔只係另一個破解密碼嘅模型;而係將 結構化潛在空間推理 正式引入密碼安全領域。通過 VAE 將密碼生成框架為流形學習問題,作者將範式從暴力模式匹配轉移到可導航嘅語義空間。呢個類似於從基於規則嘅圖像濾波器到 StyleGAN 潛在空間操作嘅飛躍。真正嘅威脅唔係更高嘅匹配率——而係 系統性、對抗性引導 嘅密碼合成潛力。
研究邏輯係合理嘅:1) 承認基於規則嘅系統難以泛化(紅隊中已知嘅痛點)。2) 利用深度學習嘅表示能力(已喺 NLP 中證實)。3) 選擇 VAE 架構,因為其穩定性優於 GAN 且具有潛在結構——一個關鍵嘅區別點。含義好清晰:未來嘅密碼破解工具會更似 AI 藝術工具,而唔似 Hashcat,攻擊者可以滑動「複雜度」撥盤或混合概念(「CEO」+「出生年份」)來生成高概率候選項。正如開創性嘅「CycleGAN」論文所指,非配對翻譯嘅力量可以創造令人信服嘅映射;喺度,映射係從簡單嘅高斯分佈到人類密碼嘅複雜分佈。
優勢: 跨多個數據集嘅統一評估係典範,並且係呢個領域迫切所需。對 VAE 潛在空間功能(插值、目標採樣)嘅關注具有前瞻性,對主動安全審計有實際應用。性能穩健。
關鍵缺陷: 與該領域大多數論文一樣,本文將問題視為純粹嘅離線統計問題。佢忽略咗現實世界攻擊嘅 在線 約束:速率限制、帳戶鎖定同入侵檢測系統。如果你只能嘗試 10 次,生成 1000 萬個候選項係冇用嘅。下一個前沿係 查詢高效 嘅猜測,可能使用強化學習來模擬在線反饋循環,呢個方法喺 OpenAI 等機構喺其他安全背景下嘅研究中有所暗示。
對於 防禦者(CISO、安全工程師):
評估生成式密碼模型嘅框架:
案例示例 - 針對性攻擊模擬:
場景: 一個紅隊負責測試企業網絡嘅韌性。佢哋從 LinkedIn 獲得咗員工名單。
傳統方法: 使用規則變異姓名(jdoe, j.doe, JaneDoe2023! 等)。
VAE 增強方法:
1. 喺相關數據集(例如企業密碼洩漏)上訓練或微調一個 VAE。
2. 對於每個員工「Jane Doe」,將常見基礎密碼(「jane」、「doe」、「jd」)編碼到潛在空間。
3. 圍繞呢啲點喺潛在空間中進行定向遊走,由一個訓練來識別「企業風格」密碼嘅輔助分類器引導。
4. 將探索到嘅潛在點解碼,為每個用戶生成一個小型(例如 1000 個)、高度針對性嘅候選列表,喺嚴格嘅查詢限制內最大化成功概率。
呢個展示咗從廣泛、暴力嘅猜測轉向精確、智能嘅猜測。