2.1 密码猜测的演进
该领域经历了几个不同的发展阶段: 基于规则的枚举 (例如,John the Ripper规则),其依赖于人工专业知识; 统计模型 如马尔可夫模型(OMEN)和概率上下文无关文法(PCFG),它们从泄露的数据集中学习模式,但常常过拟合;以及当前的 深度学习模型.
密码因其简单性和灵活性,仍然是用户身份验证中最普遍使用的方法。然而,其安全性始终面临着密码破解尝试的挑战。密码猜测,即为字典攻击生成候选密码的过程,是攻击性安全测试和防御性密码强度评估的基石。传统方法,从基于规则的启发式方法到如马尔可夫链和PCFG等统计模型,在多样性和效率方面存在固有的局限性。深度学习的出现,特别是自回归神经网络,预示着范式的转变。然而,一个关键的疏忽在于 生成方法本身。从这些模型中进行标准随机采样会产生重复和无序的输出,从而极大地降低了密码攻击的实际效率。本文介绍了 SOPG (Search-Based Ordered Password Generation)一种新颖的方法,它迫使自回归模型以近乎完美的概率降序生成密码,从而解决了这一根本缺陷。
该领域经历了几个不同的发展阶段: 基于规则的枚举 (例如,John the Ripper规则),其依赖于人工专业知识; 统计模型 如马尔可夫模型(OMEN)和概率上下文无关文法(PCFG),它们从泄露的数据集中学习模式,但常常过拟合;以及当前的 深度学习模型.
诸如PassGAN(基于生成对抗网络)、VAEPass(变分自编码器)和PassGPT(基于GPT架构)等模型利用深度神经网络来学习复杂的密码分布。虽然它们比统计模型能更好地捕捉细微差别,但其默认通过 随机采样 对于攻击场景而言,按密码可能性顺序进行尝试至关重要,而该方法效率低下。
SOPG并非一种全新的神经网络架构,而是一种 生成算法 应用于现有自回归模型(例如GPT)之上的方法。其目标是智能地遍历模型的输出空间,首先生成最可能的密码,且不产生重复。
与每一步随机采样令牌不同,SOPG采用了一种搜索策略(概念上类似于束搜索,但针对完整密码生成进行了优化)。它维护一个候选密码前缀的优先队列,总是扩展累积概率最高的前缀。这确保了完整密码大致按降序生成。
给定一个定义密码概率分布 $P(\mathbf{x})$ 的自回归模型,其中 $\mathbf{x} = (x_1, x_2, ..., x_T)$ 是一个标记(字符)序列,该模型将概率分解为:
作者实现了一个名为 SOPGesGPT的具体密码猜测模型。该模型以GPT风格的Transformer架构作为核心自回归模型,并在大量真实泄露密码语料上进行训练。其关键区别在于,密码生成是使用SOPG算法而非标准采样方法执行的,这使其成为首个原生集成有序生成功能的模型。
35.06%
SOPGesGPT在测试集上的表现
81%
更高覆盖率
254%
更高覆盖率
本文首先论证了SOPG在相同基础模型上相较于随机采样的优越性。 关键发现:
SOPGesGPT 在“单站点测试”(使用同一泄露事件的数据进行训练和测试)中与主要模型进行了比较:OMEN、FLA、PassGAN、VAEPass 以及当代的 PassGPT。
结果非常显著。在 cover rate (在给定猜测次数内被破解的测试集密码百分比),SOPGesGPT达到了 35.06%。这相比前代模型是巨大的提升:
框架: 评估密码猜测模型需要进行多维度分析:1) 架构稳健性 (模型选择), 2) 生成效率 (guesses per second, duplicates), 3) 攻击效率 (覆盖率与猜测次数曲线),以及4) 泛化能力 (对未见数据模式的性能表现)。大多数研究集中于(1)和(3)。SOPG在(2)上进行了决定性创新,直接优化了(3)。
示例案例 - 密码强度评估: 一家安全公司希望审计一项新的密码策略。使用标准PassGPT模型进行随机采样,生成1000万次猜测可能需要X小时,并能破解测试字典中Y%的密码。而使用SOPGesGPT(相同架构,SOPG生成方式)来破解相同的Y%,可能仅需生成200万次猜测,从而以极短的时间完成审计。此外,有序列表提供了一份清晰的热力图:前10万个SOPG密码代表了模型认为的“最可能”密码集合,这为精确评估策略在面对高概率攻击时的脆弱性提供了依据。
应用:
该论文的卓越之处在于,它对一个关键但被忽视的瓶颈进行了精准打击。多年来,密码猜测领域痴迷于从GAN到Transformer的架构飞跃,将生成步骤视为已解决的问题——只需从分布中采样即可。Jin等人正确地指出,对于攻击用例而言,这是一种灾难性的低效。 SOPG重新定义了问题:重点不在于更好地学习分布,而在于以最优方式遍历它。 这好比拥有一张完美的藏宝图(神经网络),但之前使用随机游走的方式寻宝,而SOPG则提供了一份按优先级排序的行程单。其性能相比使用相同GPT架构的PassGPT提升了惊人的81%,这证明了这一点:对于最终任务性能而言,生成算法可能比模型本身更重要。
论证过程具有说服力且逻辑清晰:1) 密码攻击需要按可能性顺序尝试猜测以提高效率。2) 自回归模型学习了这种可能性分布。3) 从这些模型中随机采样无法生成有序列表且充满浪费。4) 因此,我们需要一种能利用模型结构来生成有序列表的搜索算法。5) SOPG正是这种算法,通过对令牌树进行最佳优先搜索实现。6) 结果以压倒性的量化证据验证了假设。整个流程精准地体现了经典的问题-解决方案-验证结构。
优势: 该概念构思精妙,简洁而高效。实验设计严谨,与所有相关基线进行了充分对比。其效率提升并非微不足道,在实际破解场景中具有变革性意义。这项工作开创了一个新的子领域:安全模型的生成优化。
Flaws & Questions: 该论文暗示但未深入探讨SOPG搜索本身与简单采样相比的计算开销。虽然它减少了达到给定覆盖率所需的总推理次数,但搜索中的每个推理步骤都更为复杂(需要维护一个堆)。需要进行复杂度分析。此外,“单站点测试”是一种标准但有限的评估方法。SOPG在“跨站点”设置(在LinkedIn泄露数据上训练,在RockYou上测试)中泛化能力如何?在这种数据分布发生偏移的情况下,如果模型在分布外数据上的概率排序效果不佳,有序生成的效果可能会减弱。最后,正如作者在未来工作中指出的,这种高效性本身需要防御性的回应——SOPG将推动下一代密码哈希与加固技术的研究。
对于 安全从业人员:立即重新评估您的密码策略测试工具。任何使用无序生成神经网络的工具,其运行效率很可能远低于其潜在水平。要求在商业和开源密码审计工具中具备类似SOPG的功能。
对于 研究人员:这无疑是一记警钟,要求我们停止将生成过程视为事后补救。SOPG范式应在其他自回归安全模型(例如,用于恶意软件生成、钓鱼文本生成)上应用和测试。研究搜索深度(集束宽度)与性能之间的权衡关系。
对于 Defenders & Policy Makers:攻击格局已然改变。许多密码哈希(尤其是较弱者)的破解时间实际上已缩短。这加剧了广泛采用防钓鱼多因素认证(正如NIST和CISA所倡导)以及摒弃将密码作为唯一认证因素的紧迫性。SOPG不仅仅是一个更强大的破解工具;它更是为后密码时代提供了有力论据。