PESrank : Estimation en ligne de la devinabilité des mots de passe via une estimation de rang multidimensionnelle

1. Introduction

Cet article présente PESrank, un nouvel estimateur de robustesse des mots de passe conçu pour modéliser précisément le comportement d'un craqueur de mots de passe puissant en calculant le rang d'un mot de passe dans un ordre de vraisemblance optimal. Il répond au besoin critique d'estimateurs pratiques, capables de fonctionner en ligne, qui vont au-delà des heuristiques simplistes comme les comptages LUDS (minuscules, majuscules, chiffres, symboles).

1.1. Contexte

Malgré des vulnérabilités connues, les mots de passe textuels restent la méthode d'authentification dominante. Les utilisateurs choisissent souvent des mots de passe faibles et prévisibles, rendant les systèmes vulnérables aux attaques par devinette. La robustesse précise est définie comme le nombre de tentatives nécessaires à un attaquant pour le deviner. Les estimateurs antérieurs basés sur des craqueurs utilisaient des modèles de Markov, des PCFG et des réseaux de neurones, mais souffraient souvent de temps d'entraînement longs ou manquaient de capacité en temps réel.

1.2. Contributions

L'innovation principale de PESrank est de recadrer l'estimation du rang des mots de passe dans un cadre probabiliste issu de la cryptanalyse par canaux auxiliaires. Il traite les mots de passe comme des points dans un espace de recherche à d dimensions (par exemple, mot de base, suffixe, motif de capitalisation), apprenant la distribution de probabilité pour chaque dimension indépendamment. Cela permet une estimation de rang rapide et en ligne sans énumération, une personnalisation efficace du modèle et un retour explicable.

2. La méthodologie PESrank

PESrank décompose un mot de passe en dimensions interprétables, transformant le problème d'estimation de la robustesse en une tâche d'estimation de rang multidimensionnelle.

2.1. Représentation multidimensionnelle du mot de passe

Un mot de passe comme "P@ssw0rd2024!" pourrait être représenté à travers des dimensions : Mot de base ("password"), motif de substitution L33t, suffixe ("2024"), et ajout de caractères spéciaux. Chaque dimension a une fonction de masse de probabilité associée apprise à partir des données d'entraînement.

2.2. Cadre d'estimation du rang

Au lieu d'énumérer tous les mots de passe possibles, PESrank calcule le rang R(p) d'un mot de passe spécifique p en agrégeant les probabilités de tous les mots de passe plus probables que p à travers l'espace combinatoire défini par les dimensions. Cela est analogue à l'estimation du rang d'une clé secrète dans l'analyse par canaux auxiliaires.

3. Implémentation technique & Modèle mathématique

3.1. Cadre probabiliste

Soit un mot de passe p représenté comme un vecteur (x₁, x₂, ..., x_d) à travers d dimensions indépendantes. La probabilité de p est approximée par : $$P(p) \approx \prod_{i=1}^{d} P_i(x_i)$$ où P_i(x_i) est la probabilité marginale du composant x_i dans la dimension i. Le rang R(p) est la somme des probabilités de tous les mots de passe q avec P(q) > P(p).

3.2. Calcul efficace du rang

PESrank utilise des algorithmes efficaces pour calculer cette somme sans énumération. Pour chaque dimension, il maintient des listes triées des composants par probabilité. Le calcul du rang implique de parcourir ces listes et d'agréger des produits partiels, atteignant des performances inférieures à la seconde même avec un modèle entraîné sur 905 millions de mots de passe.

4. Résultats expérimentaux & Évaluation

4.1. Métriques de performance

L'article rapporte une évaluation approfondie. Les principaux résultats incluent :

Vitesse : Temps de réponse "bien inférieur à 1 seconde" pour les requêtes en ligne.
Précision : Estimations de rang avec une marge allant jusqu'à 1 bit entre les bornes supérieure et inférieure, indiquant une haute précision.
Temps d'entraînement : "Considérablement plus court" que les méthodes précédentes (qui pouvaient nécessiter des jours).

Description du graphique (conceptuel) : Un diagramme à barres comparant le temps d'entraînement de PESrank (de l'ordre des heures) avec un modèle de réseau de neurones (de l'ordre des jours) et un modèle PCFG (de l'ordre de dizaines d'heures). Une courbe superposée montre la latence des requêtes de PESrank restant stable en dessous de 1 seconde tandis que la taille du modèle (nombre de mots de passe dans l'ensemble d'entraînement) augmente de 10M à 1B.

4.2. Comparaison avec les méthodes existantes

PESrank a été comparé à des estimateurs heuristiques (LUDS), basés sur Markov et PCFG. Il a démontré une corrélation supérieure avec l'ordre de craquage réel d'outils comme Hashcat, validant son objectif de conception "basé sur un craqueur". Sa fonctionnalité d'explicabilité, fournissant des raisons pour un rang faible (par exemple, "le mot de base est dans la liste des 100 plus courants"), est un avantage distinct par rapport aux réseaux de neurones boîte noire.

5. Principales observations & Cadre d'analyse

Observation centrale

PESrank n'est pas juste une autre amélioration incrémentale ; c'est un changement de paradigme. Il transplante avec succès les techniques rigoureuses et quantitatives d'estimation de rang de la cryptanalyse par canaux auxiliaires – un domaine obsédé par la quantification des fuites partielles de clés – dans le monde désordonné des mots de passe choisis par les humains. Cette pollinisation croisée est son génie. Alors que des modèles comme le réseau de neurones de Google en 2016 atteignaient une haute précision, ils étaient opaques et lents à entraîner. PESrank offre une fidélité de modélisation du craqueur comparable, mais avec la transparence et la vitesse d'un système probabiliste bien conçu.

Flux logique

La logique est élégamment réductionniste : 1) Déconstruire les mots de passe en dimensions orthogonales et interprétables par l'humain (un mouvement rappelant la PCFG de Weir et al. mais plus granulaire). 2) Supposer l'indépendance des dimensions pour rendre l'espace de probabilité traitable – une simplification nécessaire que les résultats valident. 3) Appliquer des algorithmes d'estimation de rang qui contournent l'explosion combinatoire de l'énumération. Le flux allant des données (fuites de mots de passe) au modèle (PMFs par dimension) à la sortie actionnable (un rang et une explication) est à la fois clair et efficace sur le plan computationnel.

Points forts & Faiblesses

Points forts : La triade vitesse (utilisation en ligne), explicabilité et adaptabilité est convaincante pour un déploiement réel. La capacité à personnaliser le modèle "en fractions de seconde" pour un utilisateur (par exemple, déclasser les mots de passe contenant son nom) est une fonctionnalité majeure pour la sécurité d'entreprise. Son efficacité d'entraînement réduit également la barrière à l'utilisation de jeux de données de mots de passe récents et à grande échelle.

Faiblesses : L'hypothèse centrale de l'indépendance des dimensions est son talon d'Achille. En réalité, les choix des utilisateurs à travers les dimensions sont corrélés (par exemple, certaines capitalisations sont plus probables avec certains mots de base). L'article le reconnaît mais affirme que l'approximation reste efficace. De plus, comme tous les modèles basés sur les fuites, il est intrinsèquement tourné vers le passé, sous-estimant potentiellement la robustesse des nouvelles stratégies de construction de mots de passe pas encore vues dans les fuites.

Observations actionnables

Pour les RSSI et les équipes de sécurité produit : Testez PESrank ou ses successeurs conceptuels dans vos flux d'inscription utilisateur. Son explicabilité peut transformer la politique de mots de passe d'un blocage frustrant en un moment pédagogique, améliorant potentiellement la conformité. Pour les chercheurs : L'article ouvre des perspectives. L'hypothèse d'indépendance peut-elle être assouplie avec des modèles graphiques probabilistes plus complexes, mais toujours efficaces ? Ce cadre peut-il intégrer une correspondance "floue" pour les fautes de frappe ou les légères variations ? L'intégration de données de personnalisation en temps réel (annuaire d'entreprise, identifiants compromis) est la prochaine étape logique pour un estimateur véritablement adaptatif de niveau entreprise.

6. Perspectives d'application & Directions futures

Vérification proactive des mots de passe : Intégration dans les pages d'inscription des sites web et applications en tant qu'assistant en temps réel, fournissant un retour immédiat et explicable.

Systèmes d'authentification adaptatifs : Notation dynamique du risque où le rang d'un mot de passe influence l'exigence de facteurs d'authentification supplémentaires (par exemple, un mot de passe de faible rang déclenche une 2FA obligatoire).

Politiques de sécurité personnalisées : Les systèmes d'entreprise pourraient maintenir des modèles personnalisés pour chaque employé, déclassant automatiquement les mots de passe contenant des informations spécifiques à l'employé (nom, ID, département).

Recherche future : Étendre le modèle pour gérer les phrases de passe, explorer des hybrides d'apprentissage profond pour capturer des corrélations dimensionnelles subtiles, et développer des benchmarks standardisés pour les estimateurs de robustesse des mots de passe, similaires aux directives NIST pour les mots de passe mais pour l'évaluation algorithmique.

7. Références

David, L., & Wool, A. (2020). Online Password Guessability via Multi-Dimensional Rank Estimation. arXiv preprint arXiv:1912.02551.
Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password cracking using probabilistic context-free grammars. In 2009 30th IEEE Symposium on Security and Privacy.
Melicher, W., Ur, B., Segreti, S. M., Komanduri, S., Bauer, L., Christin, N., & Cranor, L. F. (2016). Fast, lean, and accurate: Modeling password guessability using neural networks. In 25th USENIX Security Symposium.
NIST. (2017). Digital Identity Guidelines: Authentication and Lifecycle Management. NIST Special Publication 800-63B.
Bonneau, J. (2012). The science of guessing: analyzing an anonymized corpus of 70 million passwords. In 2012 IEEE Symposium on Security and Privacy.