PESrank: Online-Passwort-Erratbarkeit mittels mehrdimensionaler Rangschätzung

1. Einführung

Dieses Paper stellt PESrank vor, einen neuartigen Passwortstärke-Schätzer, der darauf ausgelegt ist, das Verhalten eines leistungsstarken Passwort-Crackers präzise zu modellieren, indem er den Rang eines Passworts in einer optimalen Wahrscheinlichkeitsreihenfolge berechnet. Er adressiert den kritischen Bedarf an schnellem, genauen und erklärbarem Passwortstärke-Feedback in Online-Systemen.

1.1. Hintergrund

Trotz ihrer Schwachstellen bleiben Textpasswörter die dominierende Authentifizierungsmethode. Gängige heuristische Stärke-Schätzer (z.B. LUDS-Regeln) sind ungenau. Cracker-basierte Schätzer, die Markov-Modelle, PCFGs oder neuronale Netze verwenden, bieten eine bessere Genauigkeit, leiden aber oft unter langen Trainingszeiten oder mangelnder Echtzeitfähigkeit und Erklärbarkeit.

1.2. Beiträge

Die wesentlichen Beiträge von PESrank sind seine neuartige Anwendung eines Side-Channel-Kryptoanalyse-Rangschätzungs-Rahmenwerks auf Passwörter, die Rangschätzung im Subsekundenbereich ohne Enumeration ermöglicht, drastisch kürzere Trainingszeiten, effiziente Modellpersonalisierung ohne Neuanlernen und eine inhärente Erklärbarkeit für Benutzerfeedback.

2. Die PESrank-Methodik

PESrank formuliert die Passwortstärkeschätzung als mehrdimensionales Rangschätzungsproblem neu und lässt sich dabei von Side-Channel-Angriffstechniken aus der Kryptographie inspirieren.

2.1. Mehrdimensionale Passwortdarstellung

Ein Passwort wird in einen Punkt in einem d-dimensionalen Suchraum zerlegt. Dimensionen repräsentieren unabhängige Attribute wie das Grundwort (z.B. "password"), Großschreibungsmuster (z.B. "Password"), Suffix-Ergänzungen (z.B. "password123") oder Leet-Speak-Transformationen (z.B. "p@ssw0rd"). Die Wahrscheinlichkeitsverteilung für jede Dimension wird separat aus Passwortdatensätzen gelernt.

2.2. Rahmenwerk zur Rangschätzung

Anstatt alle möglichen Passwörter aufzuzählen, schätzt PESrank den Rang einer spezifischen Passwortkombination, indem er die Anzahl der Passwortkombinationen berechnet, die wahrscheinlicher sind (d.h. eine höhere gemeinsame Wahrscheinlichkeit haben) als das gegebene Passwort. Dies ist analog zur Schätzung des Rangs eines Verschlüsselungsschlüssels bei einem Side-Channel-Angriff.

3. Technische Implementierung & Mathematisches Modell

3.1. Kernalgorithmus und Formel

Der Kern von PESrank besteht in der Berechnung der gemeinsamen Wahrscheinlichkeit eines Passworts, das durch einen Vektor von Dimensionswerten $\vec{x} = (x_1, x_2, ..., x_d)$ dargestellt wird. Unter der Annahme, dass die Dimensionen unabhängig sind (eine Vereinfachung für Effizienz), ist die Wahrscheinlichkeit: $$P(\vec{x}) = \prod_{i=1}^{d} P_i(x_i)$$ wobei $P_i(x_i)$ die Wahrscheinlichkeit des Werts $x_i$ in Dimension $i$ ist, gelernt aus Trainingsdaten. Der Rang $R(\vec{x})$ wird geschätzt, indem die Wahrscheinlichkeiten aller Vektoren $\vec{y}$ summiert werden, für die $P(\vec{y}) > P(\vec{x})$ gilt. Effiziente Algorithmen aus der Side-Channel-Literatur, wie der Bounding-Ansatz, werden verwendet, um enge obere und untere Schranken für diese Summe ohne vollständige Enumeration zu berechnen.

3.2. Erklärbarkeit und Personalisierung

Das mehrdimensionale Modell ist inhärent erklärbar. Das System kann berichten, welche Dimensionen (z.B. "ein sehr häufiges Grundwort" oder "ein vorhersehbares Suffix wie '123'") am signifikantesten zu einem niedrigen Rang (hoher Erratbarkeit) eines Passworts beitragen. Personalisierung (z.B. die Integration des Namens oder Geburtsjahrs eines Benutzers als verbotenes Grundwort) kann erreicht werden, indem die Wahrscheinlichkeit $P_i(x_i)$ für relevante Dimensionen dynamisch auf nahe Null gesetzt wird, was die Rangberechnungen sofort beeinflusst, ohne dass das Modell neu trainiert werden muss.

4. Experimentelle Ergebnisse & Leistung

4.1. Genauigkeits- und Geschwindigkeits-Benchmarks

Die Python-Implementierung wurde umfassend evaluiert. Zu den wichtigsten Ergebnissen gehören:

Geschwindigkeit: Antwortzeit im Subsekundenbereich für die Rangschätzung, selbst mit einem auf 905 Millionen Passwörtern trainierten Modell.
Genauigkeit: Die geschätzten Rangschranken lagen durchweg innerhalb eines Faktors von 2 (eine 1-Bit-Marge) des wahren Rangs, was eine hohe Präzision demonstriert.
Trainingszeit: Drastisch kürzer als bei neuronalen Netzwerken oder komplexen PCFG-Modellen, erfordert Größenordnungen weniger Rechenleistung.

Diese Metriken unterstreichen die praktische Eignung für den Online-Einsatz.

4.2. Praxiseinsatz

PESrank wurde in eine Universitätskursregistrierungsseite integriert. Es lieferte Benutzern, die Passwörter erstellten, Echtzeit-Feedback mit Erklärungen und demonstrierte so seine Benutzerfreundlichkeit und Leistung unter realen Lastbedingungen. Das Feedback half, Benutzer von schwachen, vorhersehbaren Passwortmustern abzubringen.

5. Analyse-Rahmenwerk & Beispielszenario

Analystenperspektive: Kernidee, Logischer Ablauf, Stärken & Schwächen, Handlungsempfehlungen

Kernidee: PESrank ist nicht nur eine weitere inkrementelle Verbesserung bei Passwortmetern; es ist ein grundlegender Paradigmenwechsel. Es transplantiert erfolgreich das rigorose, quantitative Rahmenwerk der Side-Channel-Rangschätzung – ein Standard in der Hochrisiko-Bewertung kryptographischer Hardware – in die unübersichtliche Welt menschlich gewählter Passwörter. Dieser Wechsel von heuristischem Raten zu probabilistischer Kryptoanalyse ist ein Meisterstreich. Es behandelt das Passwortknacken nicht als linguistisches oder Mustererkennungsproblem, sondern als Suchproblem in einem strukturierten Wahrscheinlichkeitsraum, was perfekt mit der Arbeitsweise moderner Cracker wie Hashcat und John the Ripper mit Mangling-Regeln und Markov-Ketten übereinstimmt.

Logischer Ablauf: Die Logik ist elegant reduktionistisch. 1) Dekonstruiere Passwörter in orthogonale, cracker-relevante Merkmale (Grundwörter, Transformationen). 2) Lerne ein einfaches Wahrscheinlichkeitsmodell für jedes Merkmal aus Leak-Daten. 3) Rekonstruiere die Erratbarkeit eines Passworts, indem berechnet wird, wie viele wahrscheinlichere Kombinationen existieren. Dies umgeht die Notwendigkeit monolithischer, undurchsichtiger Modelle neuronaler Netze (wie in [30, 37]) oder der manchmal unhandlichen Regelsätze von PCFGs [41]. Die Unabhängigkeitsannahme zwischen den Dimensionen ist ihr entscheidender vereinfachender Sprung, der etwas Modellierungstreue gegen massive Gewinne in Geschwindigkeit und Erklärbarkeit eintauscht – ein Kompromiss, der sich in der Praxis als äußerst vorteilhaft erweist.

Stärken & Schwächen: Seine Stärken sind beeindruckend: atemberaubende Geschwindigkeit und native Erklärbarkeit sind Killer-Features für die praktische Übernahme und adressieren die beiden größten Schwachstellen akademischer Modelle. Der Personalisierungstrick ist clever und praktisch. Eine kritische Schwäche liegt jedoch in der Unabhängigkeitsannahme. Obwohl effizient, ignoriert sie Korrelationen (z.B. sind bestimmte Großschreibungsmuster mit bestimmten Grundwörtern wahrscheinlicher). Dies könnte zu Rangungenauigkeiten bei komplexen, korrelierten Passwörtern führen. Darüber hinaus ist seine Genauigkeit inhärent an die Qualität und Breite seiner Trainingsdaten für jede Dimension gebunden, eine Abhängigkeit, die es mit allen datengetriebenen Modellen teilt. Es könnte mit wirklich neuartigen Passworterstellungsstrategien, die in früheren Leaks nicht vorkamen, Schwierigkeiten haben.

Handlungsempfehlungen: Für Sicherheitsteams ist die Botschaft klar: Verabschiedet euch von LUDS-Metern. PESrank zeigt, dass cracker-genaues, Echtzeit-Feedback jetzt betrieblich machbar ist. Der gezeigte Integrationspfad – die Einbettung in ein Registrierungsportal – ist eine Blaupause. Für Forscher liegt die Zukunft in hybriden Modellen. Kombiniert PESranks effizientes, erklärbares Rahmenwerk mit einer leichten neuronalen Komponente, um interdimensionale Korrelationen zu modellieren, ähnlich wie Vision-Modelle wie CycleGAN separate Generatoren für verschiedene Domänentransformationen verwenden, während sie eine kohärente Struktur beibehalten. Die nächste Grenze ist adaptive Personalisierung, die aus den *abgelehnten* Passwortvorschlägen eines Benutzers lernt, um sein Modell in Echtzeit zu verfeinern, über statische Sperrlisten hinaus.

6. Zukünftige Anwendungen & Forschungsrichtungen

Proaktive Bedrohungssuche: Über benutzerorientierte Meter hinaus kann PESranks Kernalgorithmus bestehende Passwortdatenbanken (mit geeignetem Hashing) scannen, um proaktiv Konten mit hoch erratbaren Passwörtern zu identifizieren und zu markieren, was erzwungene Zurücksetzungen ermöglicht.
Erweiterte Personalisierungs-Engines: Zukünftige Systeme könnten mit Organisationsverzeichnissen (z.B. LDAP) integriert werden, um das Modell automatisch mit Mitarbeiternamen, Projektcodenamen und internem Jargon zu personalisieren und so ein dynamisches, organisationsspezifisches Bedrohungsmodell zu schaffen.
Benchmarking und Standardisierung: Der Rangschätzungsansatz liefert eine rigorose, quantitative Metrik. Dies könnte die Grundlage für branchenweite Passwortstärke-Benchmarking-Standards bilden, über vage "stark"- oder "schwach"-Kennzeichnungen hinaus.
Cross-Model-Validierung: PESrank könnte als schneller, erklärbarer "First-Pass"-Filter verwendet werden, wobei verdächtige Passwörter für eine tiefere Analyse durch rechenintensivere Modelle (z.B. RNNs) markiert werden, um eine gestaffelte Verteidigung zu schaffen.
Forschung zur Dimensions-Interdependenz: Der wichtigste Forschungsweg ist die Lockerung der Unabhängigkeitsannahme. Die Erforschung leichter Korrelationsmodelle (z.B. Bayes'sche Netze über Dimensionen) könnte die Genauigkeit für komplexe Passwörter verbessern, ohne den Kernvorteil der Geschwindigkeit zu opfern.

7. Referenzen

L. David und A. Wool, "Online Password Guessability via Multi-Dimensional Rank Estimation," arXiv preprint arXiv:1912.02551v2, 2020.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
M. Weir, S. Aggarwal, B. de Medeiros und B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
W. Melicher, B. Ur, S. M. Segreti, S. Komanduri, L. Bauer, N. Christin und L. F. Cranor, "Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks," USENIX Security Symposium, 2016.
D. Wang, H. Cheng, P. Wang, X. Huang und G. Jian, "A Security Analysis of Honeywords," NDSS, 2018. (Beispiel für rigorose passwortbezogene Analyse)
P. G. Kelley, S. Komanduri, M. L. Mazurek, R. Shay, T. Vidas, L. Bauer, N. Christin, L. F. Cranor und J. Lopez, "Guess Again (and Again and Again): Measuring Password Strength by Simulating Password-Cracking Algorithms," IEEE Symposium on Security and Privacy, 2012.
National Institute of Standards and Technology (NIST), "Digital Identity Guidelines," NIST Special Publication 800-63B, 2017. (Zum Kontext von Authentifizierungsstandards)