基于伪随机数生成器（PRNG）的安全密码生成器

1. 引言

本研究旨在解决密码泄露及其导致的个人数据暴露风险这一长期存在的问题。虽然网站安全是一个因素，但密码本身的固有强度至关重要。常见的漏洞包括基于关键词、流行短语、用户信息以及密码重复使用的密码。人工智能和大语言模型的兴起进一步增强了攻击者猜测密码的能力。

为此，本文提出了一种基于安全伪随机数生成器（PRNG）构建的安全密码生成器。核心PRNG使用HMAC、CMAC或KMAC等密码学原语构建，以生成高质量的随机数，进而用于创建密码。该系统允许可选的用户输入（待哈希消息，TBHM）作为种子。主要贡献包括：

构建基于HMAC、CMAC和KMAC的安全PRNG。
分析在不同字符集和长度下生成密码的安全性，并将其强度与AES-128和AES-256进行比较。
使用NIST SP 800-90B标准，重点通过熵测试和独立同分布（IID）测试，对随机性进行实证验证。

2. 文献综述

2.1. 基于线性同余生成器的伪随机数生成器

常见的编程语言（C、Java）使用线性同余生成器（LCG）。给定种子 $k$，序列生成方式为：$f_0(k) \equiv a \oplus k \ (\text{mod} \ m)$ 和 $f_i(k) \equiv a \times f_{i-1}(k) + c \ (\text{mod} \ m)$。此方法不安全，因为其状态可被逆转：$f_{i-1}(k) \equiv (f_i(k) - c) \times a^{-1} \ (\text{mod} \ m)$，从而暴露种子和整个序列。

2.2. 安全的伪随机数生成器

安全的PRNG基于NIST SP 800-108 Rev. 1中概述的密码学原语构建。

2.2.1. 基于HMAC

其安全性依赖于哈希函数（例如SHA2、SHA3）的单向特性。对于密钥 $k$ 和消息 $M$，HMAC的计算方式为：$r_{hmac}(k, M) = h((k \oplus opad) \ || \ h((k \oplus ipad) \ || \ M))$。为了生成长度为 $L$ 的随机比特流，使用计数器模式：$M_i = i \ || \ \text{KDF} \ || \ 0x00 \ || \ M \ || \ L$，产生输出 $r_{hmac,i}$。

2.2.2. 基于CMAC

其安全性依赖于CBC模式下的AES分组密码。消息 $M$ 被分割为块 $M'_1, M'_2, ...$。迭代过程如下：$c_{i+1} = AES(k, c_i \oplus M'_{i+1})$，其中 $c_0 = Pad0(0)$。最终输出 $r_{cmac}$ 源自经过特定填充（Pad1）后的最后一个密文块。

2.2.3. 基于KMAC

利用KECCAK海绵函数（SHA-3的基础），提供了一种灵活且强大的MAC函数，适用于生成确定性的随机比特。

2.3. 随机性验证方法

本文采用NIST SP 800-90B框架，该框架是验证熵源的事实标准。它包括两个关键的验证套件：

熵评估： 估计生成比特流中的最小熵量，表明其不可预测性。
IID（独立同分布）测试： 一套统计测试（例如卡方检验、柯尔莫哥洛夫-斯米尔诺夫检验），用于确定输出比特在统计上是否独立且服从相同分布。

3. 提出的安全密码生成器

所提出的系统架构简洁而强大：

输入/种子： 接受可选的用户提供的TBHM。如果提供，则对其进行处理；否则，使用系统生成的安全种子。
安全PRNG核心： 将TBHM/种子输入到三种密码学PRNG构造（基于HMAC、基于CMAC、基于KMAC）之一，以生成密码学意义上强的伪随机比特序列。
密码构建： 将随机比特映射到用户定义或系统定义的字符集（例如，字母数字+符号），以生成所需长度的密码。

安全性分析： 本文认为，生成密码的安全性直接取决于PRNG输出的熵和字符集的大小。通过对比分析表明，假设PRNG输出是真正随机的，那么通过此方法从94个字符集中生成的16位密码，其暴力破解抵抗能力可与AES-128或AES-256密钥相媲美甚至超越。

4. 实验结果与分析

实验验证是本文的一大亮点。

熵验证： 所有三种PRNG类型（HMAC-SHA256、CMAC-AES256、KMAC256）生成的随机序列均通过了NIST SP 800-90B熵评估，显示出接近理想值（每比特输出1比特）的高最小熵。
IID验证： 序列也通过了IID测试套件，确认比特在统计上是独立同分布的，没有可检测的模式或偏差。
性能： 虽然不是主要关注点，但本文提到了计算效率。HMAC-SHA256和KMAC256显示出相当的速度，而CMAC-AES256由于分组密码操作稍慢，但均在密码生成的实用范围内。

图表描述（隐含）： 条形图可以有效地比较三种PRNG方法的最小熵估计值（比特/比特）与理想值1.0。所有条形都将非常接近1.0。第二张图表可以显示关键IID测试（例如卡方检验、柯尔莫哥洛夫-斯米尔诺夫检验）的p值，所有值都远高于典型的显著性阈值（例如0.01），表明测试通过。

5. 结论与未来工作

本研究成功展示了一个基于密码学PRNG的安全密码生成框架。所提出的方法生成的密码具有足够的随机性，并通过NIST标准进行了严格验证。未来的工作方向包括：

将生成器集成到浏览器扩展或密码管理器中。
探索后量子密码算法（例如基于格、哈希的算法）作为PRNG的基础，以确保长期安全性。
在标准密码学模型下开发形式化的安全性证明。

6. 原创分析与专家见解

核心见解： 本文并非发明新的密码学原语；而是关于对现有经过验证的原语（HMAC、CMAC、KMAC）进行规范应用和验证，以解决密码生成这一平凡但关键的问题。其真正价值在于弥合理论密码学与实际安全实践之间的差距，使用黄金标准的NIST测试套件严格证明其输出符合目的。

逻辑流程： 论证是合理的：1) 标准LCG在密码学上已被攻破。2) 基于密码学MAC构建的安全PRNG被证明是健壮的。3) 因此，从此类PRNG派生的密码继承了这种健壮性。4) 这一主张不仅通过理论，而且通过通过严格的实证测试（NIST SP 800-90B）得到验证。这种端到端的验证是许多“安全密码生成器”工具所缺乏的。

优势与不足：
优势： 方法的严谨性值得称赞。使用NIST SP 800-90B进行验证立即提升了其可信度，类似于密码算法通过CAVP（密码算法验证程序）进行验证的方式。与AES密钥强度的比较是为安全团队提供的实用、易于理解的度量标准。
不足： 本文在受控的理想化环境中进行。它假设初始种子/TBHM具有足够的熵——这是实际系统中关键且往往是薄弱的一环。“可选”的用户输入是一把双刃剑；一个弱且可预测的用户短语（例如“mypassword”）可能会破坏整个密码学构造，这一风险未得到充分量化。此外，正如NIST在2023年的综述《后量子密码学：十年历程》中指出的，该领域正在向后量子算法发展。本文的构造虽然对经典计算机是安全的，但依赖于SHA2/AES，其长期抗量子能力尚不确定。

可操作的见解： 对于安全架构师而言，本文提供了一个蓝图。切勿自行设计PRNG。 使用已建立的密码学构造作为构建模块。更重要的是，验证，验证，再验证。 将持续的熵验证（如NIST测试）集成到关键的随机数生成系统中，这是Linux基金会的CCC（通用标准认证）等工作所强调的实践。对于产品开发，最直接的启示是使用基于KMAC或HMAC-SHA256的生成器替换系统中任何基于LCG的密码生成，并使用安全来源的种子。面向未来的步骤是开始使用基于SHA-3/KECCAK的设计（如KMAC）进行原型设计，并关注NIST后量子密码标准的演进，以便最终集成。

7. 技术细节与数学公式

核心数学运算在文献综述（第2节）中定义。关键公式包括：

LCG（不安全）：$f_i(k) \equiv a \times f_{i-1}(k) + c \ (\text{mod} \ m)$
HMAC：$r_{hmac}(k, M) = h((k \oplus opad) \ || \ h((k \oplus ipad) \ || \ M))$
用于PRNG的计数器模式HMAC：$M_i = i \ || \ \text{KDF} \ || \ 0x00 \ || \ M \ || \ L$
CMAC（CBC-MAC）迭代：$c_{i+1} = AES(k, c_i \oplus M'_{i+1})$

密码生成将随机整数 $R$（来自PRNG输出）映射到字符索引：$\text{index} = R \ \text{mod} \ |S|$，其中 $|S|$ 是字符集的大小。

8. 分析框架与案例示例

案例示例：评估遗留系统的密码生成器
场景： 一个遗留的Web应用程序使用修改过的LCG来生成临时用户密码。需要进行安全审计。
框架应用：

识别PRNG类型： 检查源代码。找到：seed = (a * seed + c) % m; 确认其为LCG变体。
评估密码学安全性： LCG是确定性的且可逆的。攻击者获取几个连续密码后，即可求解种子并预测所有未来密码，这违反了NIST SP 800-63B关于认证器随机性的指南。
使用本文方法提出补救措施：
- 种子来源： 将系统时间种子替换为CSPRNG（例如Linux上的/dev/urandom，Windows上的CryptGenRandom）。
- 核心生成器： 根据本文设计，实现基于HMAC-SHA256的PRNG。
- 验证： 从新生成器生成大样本（1,000,000比特），并在部署前运行NIST STS（统计测试套件）或SP 800-90B中的熵估计器以验证随机性。

此框架将评估从“它看起来随机吗？”转变为“它是否通过了标准化的密码学验证？”

9. 未来应用与发展方向

这些原则可扩展到用户密码之外：

API密钥与令牌生成： 在微服务架构中自动生成密码学随机的API密钥和会话令牌。
安全默认配置： 将此生成器嵌入物联网设备或软件安装程序中，以创建唯一、强大的默认管理员密码，从而缓解广泛的默认凭据攻击。
后量子演进： 基于KMAC的构造本质上基于SHA-3（KECCAK），这被认为是抗量子的。此生成器可以成为“密码敏捷”系统的基础。随着密码学界为量子计算时代做准备，未来的工作应集成基于NIST标准化的后量子算法（如CRYSTALS-Kyber或基于哈希的签名）的PRNG。
与密码管理器及单点登录集成： 该生成器可以成为开源密码管理器或单点登录（SSO）系统的核心组件，提供透明且可审计的密码随机性来源。

10. 参考文献

M. Bishop，《计算机安全：艺术与科学》，Addison-Wesley，2019年。
NIST，《特别出版物 800-63B：数字身份指南》，2020年。
NIST，《特别出版物 800-90B：用于随机比特生成的熵源建议》，2018年。
NIST，《特别出版物 800-108 Rev. 1：使用伪随机函数进行密钥派生的建议》，2022年。
NIST，《FIPS 202：SHA-3标准：基于置换的哈希和可扩展输出函数》，2015年。
J. Kelsey, B. Schneier, D. Wagner，《低熵密钥的安全应用》，信息安全研讨会，1997年。
M. Dworkin，《分组密码操作模式建议：用于认证的CMAC模式》，NIST SP 800-38B，2005年。
NIST，《NIST后量子密码标准化过程第三轮状态报告》，2022年。[在线]。可访问：https://csrc.nist.gov/projects/post-quantum-cryptography
Linux基金会，《通用标准认证与开源》，2023年。[在线]。可访问：https://www.linuxfoundation.org/

目录