PESrank: Estimativa Online da Adivinhabilidade de Senhas via Cálculo Multidimensional de Posição

1. Introdução

Este artigo apresenta o PESrank, um novo estimador de força de senhas projetado para modelar com precisão o comportamento de um poderoso quebrador de senhas, calculando a posição de uma senha em uma ordem de verossimilhança ótima. Ele atende à necessidade crítica de feedback rápido, preciso e explicável sobre a força da senha em sistemas online.

1.1. Contexto

Apesar de suas vulnerabilidades, as senhas textuais permanecem o método de autenticação dominante. Os estimadores heurísticos comuns de força (ex.: regras LUDS) são imprecisos. Os estimadores baseados em quebradores que usam modelos de Markov, PCFGs ou redes neurais oferecem melhor precisão, mas frequentemente sofrem com longos tempos de treinamento ou falta de desempenho em tempo real e explicabilidade.

1.2. Contribuições

As principais contribuições do PESrank são sua nova aplicação de uma estrutura de estimativa de posição de criptoanálise de canal lateral a senhas, permitindo estimativa de posição em menos de um segundo sem enumeração, tempos de treinamento drasticamente mais curtos, personalização eficiente do modelo sem retreinamento e explicabilidade inerente para feedback ao usuário.

2. A Metodologia PESrank

O PESrank reformula a estimativa da força da senha como um problema de estimativa de posição multidimensional, inspirando-se nas técnicas de análise de ataques de canal lateral usadas em criptografia.

2.1. Representação Multidimensional da Senha

Uma senha é decomposta em um ponto em um espaço de busca d-dimensional. As dimensões representam atributos independentes, como a palavra-base (ex.: "password"), padrões de capitalização (ex.: "Password"), adições de sufixo (ex.: "password123") ou transformações leet-speak (ex.: "p@ssw0rd"). A distribuição de probabilidade para cada dimensão é aprendida separadamente a partir de conjuntos de dados de senhas.

2.2. Estrutura de Estimativa de Posição

Em vez de enumerar todas as senhas possíveis, o PESrank estima a posição de uma combinação específica de senha calculando o número de combinações de senhas que são mais prováveis (ou seja, têm uma probabilidade conjunta maior) do que a senha fornecida. Isso é análogo a estimar a posição de uma chave de criptografia em um ataque de canal lateral.

3. Implementação Técnica & Modelo Matemático

3.1. Algoritmo Central e Fórmula

O núcleo do PESrank envolve calcular a probabilidade conjunta de uma senha representada por um vetor de valores de dimensão $\vec{x} = (x_1, x_2, ..., x_d)$. Assumindo que as dimensões são independentes (uma simplificação para eficiência), a probabilidade é: $$P(\vec{x}) = \prod_{i=1}^{d} P_i(x_i)$$ onde $P_i(x_i)$ é a probabilidade do valor $x_i$ na dimensão $i$, aprendida a partir dos dados de treinamento. A posição $R(\vec{x})$ é estimada somando as probabilidades de todos os vetores $\vec{y}$ onde $P(\vec{y}) > P(\vec{x})$. Algoritmos eficientes da literatura de canal lateral, como a abordagem de limitação (bounding), são usados para calcular limites superiores e inferiores rigorosos para essa soma sem enumeração completa.

3.2. Explicabilidade e Personalização

O modelo multidimensional é inerentemente explicável. O sistema pode relatar quais dimensões (ex.: "uma palavra-base muito comum" ou "um sufixo previsível como '123'") contribuem mais significativamente para uma posição baixa da senha (alta adivinhabilidade). A personalização (ex.: incorporar o nome de um usuário ou ano de nascimento como uma palavra-base proibida) pode ser alcançada ajustando dinamicamente a probabilidade $P_i(x_i)$ para dimensões relevantes para quase zero, afetando instantaneamente os cálculos de posição sem retreinamento do modelo.

4. Resultados Experimentais & Desempenho

4.1. Benchmarks de Precisão e Velocidade

A implementação em Python foi avaliada extensivamente. Os principais resultados incluem:

Velocidade: Tempo de resposta inferior a um segundo para estimativa de posição, mesmo com um modelo treinado em 905 milhões de senhas.
Precisão: Os limites de posição estimados estiveram consistentemente dentro de um fator de 2 (uma margem de 1 bit) da posição real, demonstrando alta precisão.
Tempo de Treinamento: Drasticamente mais curto do que modelos de rede neural ou PCFGs complexos, exigindo ordens de magnitude menos computação.

Essas métricas destacam a viabilidade prática para implantação online.

4.2. Implantação no Mundo Real

O PESrank foi integrado a uma página de registro de cursos universitários. Ele forneceu feedback em tempo real e explicável aos usuários que criavam senhas, demonstrando sua usabilidade e desempenho sob condições reais de carga. O feedback ajudou a direcionar os usuários para longe de padrões de senha fracos e previsíveis.

5. Estrutura de Análise & Caso de Exemplo

Perspectiva do Analista: Ideia Central, Fluxo Lógico, Pontos Fortes & Fracos, Insights Acionáveis

Ideia Central: O PESrank não é apenas mais uma melhoria incremental em medidores de senha; é uma mudança de paradigma fundamental. Ele transplanta com sucesso a estrutura rigorosa e quantitativa da estimativa de posição de canal lateral—um elemento básico na avaliação de hardware criptográfico de alto risco—para o mundo confuso das senhas escolhidas por humanos. Essa mudança da especulação heurística para a criptoanálise probabilística é um golpe de mestre. Ele trata a quebra de senhas não como um problema linguístico ou de correspondência de padrões, mas como um problema de busca em um espaço de probabilidade estruturado, alinhando-se perfeitamente com como quebradores modernos como Hashcat e John the Ripper realmente operam com regras de distorção e cadeias de Markov.

Fluxo Lógico: A lógica é elegantemente reducionista. 1) Desconstrói senhas em características ortogonais relevantes para quebradores (palavras-base, transformações). 2) Aprende um modelo de probabilidade simples para cada característica a partir de dados de violações. 3) Reconstrói a adivinhabilidade de uma senha calculando quantas combinações mais prováveis existem. Isso contorna a necessidade dos modelos monolíticos e opacos das redes neurais (como os de [30, 37]) ou dos conjuntos de regras às vezes difíceis de manusear dos PCFGs [41]. A suposição de independência entre dimensões é seu salto simplificador chave, trocando alguma fidelidade de modelagem por ganhos massivos em velocidade e explicabilidade—uma troca que parece altamente favorável na prática.

Pontos Fortes & Fracos: Seus pontos fortes são formidáveis: velocidade impressionante e explicabilidade nativa são recursos decisivos para adoção no mundo real, abordando as duas maiores dores dos modelos acadêmicos. O truque de personalização é inteligente e prático. No entanto, uma falha crítica está na suposição de independência. Embora eficiente, ela ignora correlações (ex.: certos padrões de capitalização são mais prováveis com certas palavras-base). Isso pode levar a imprecisões de posição para senhas complexas e correlacionadas. Além disso, sua precisão está intrinsecamente ligada à qualidade e amplitude de seus dados de treinamento para cada dimensão, uma dependência que compartilha com todos os modelos baseados em dados. Ele pode ter dificuldade com estratégias verdadeiramente novas de criação de senhas não vistas em violações passadas.

Insights Acionáveis: Para equipes de segurança, a mensagem é clara: abandonem os medidores LUDS. O PESrank demonstra que feedback preciso como um quebrador e em tempo real agora é operacionalmente viável. O caminho de integração mostrado—incorporá-lo em um portal de registro—é um modelo. Para pesquisadores, o futuro está em modelos híbridos. Combine a estrutura eficiente e explicável do PESrank com um componente neural leve para modelar correlações interdimensionais, semelhante a como modelos de visão como o CycleGAN usam geradores separados para diferentes transformações de domínio enquanto mantêm uma estrutura coesa. A próxima fronteira é a personalização adaptativa que aprende com as sugestões de senha *rejeitadas* por um usuário para refinar seu modelo em tempo real, indo além de listas de bloqueio estáticas.

6. Aplicações Futuras & Direções de Pesquisa

Busca Proativa de Ameaças: Além de medidores voltados para o usuário, o algoritmo central do PESrank pode escanear bancos de dados de senhas existentes (com hash apropriado) para identificar e sinalizar proativamente contas com senhas altamente adivinháveis, permitindo redefinições forçadas.
Motores de Personalização Aprimorados: Sistemas futuros poderiam integrar-se a diretórios organizacionais (ex.: LDAP) para personalizar automaticamente o modelo com nomes de funcionários, codinomes de projetos e jargão interno, criando um modelo de ameaça dinâmico e específico da organização.
Benchmarking e Padronização: A abordagem de estimativa de posição fornece uma métrica quantitativa rigorosa. Isso poderia formar a base para padrões de benchmarking de força de senha em toda a indústria, indo além de rótulos vagos como "forte" ou "fraca".
Validação Cruzada de Modelos: O PESrank poderia ser usado como um filtro "primeira passada" rápido e explicável, com senhas suspeitas sinalizadas para análise mais profunda por modelos computacionalmente mais intensivos (ex.: RNNs), criando uma defesa em camadas.
Pesquisa sobre Interdependência de Dimensões: A principal via de pesquisa é relaxar a suposição de independência. Explorar modelos de correlação leves (ex.: redes bayesianas sobre dimensões) poderia melhorar a precisão para senhas complexas sem sacrificar a vantagem central de velocidade.

7. Referências

L. David e A. Wool, "Online Password Guessability via Multi-Dimensional Rank Estimation," arXiv preprint arXiv:1912.02551v2, 2020.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
M. Weir, S. Aggarwal, B. de Medeiros e B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
W. Melicher, B. Ur, S. M. Segreti, S. Komanduri, L. Bauer, N. Christin e L. F. Cranor, "Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks," USENIX Security Symposium, 2016.
D. Wang, H. Cheng, P. Wang, X. Huang e G. Jian, "A Security Analysis of Honeywords," NDSS, 2018. (Exemplo de análise rigorosa relacionada a senhas)
P. G. Kelley, S. Komanduri, M. L. Mazurek, R. Shay, T. Vidas, L. Bauer, N. Christin, L. F. Cranor e J. Lopez, "Guess Again (and Again and Again): Measuring Password Strength by Simulating Password-Cracking Algorithms," IEEE Symposium on Security and Privacy, 2012.
National Institute of Standards and Technology (NIST), "Digital Identity Guidelines," NIST Special Publication 800-63B, 2017. (Para contexto sobre padrões de autenticação)