PESrank: Онлайн-оценка угадываемости паролей с помощью многомерного рангового оценивания

1. Введение

В данной статье представлен PESrank — новый метод оценки стойкости паролей, предназначенный для точного моделирования поведения мощного взломщика паролей путем вычисления ранга пароля в оптимальном порядке правдоподобия. Он решает критически важную задачу обеспечения быстрой, точной и объяснимой обратной связи о стойкости пароля в онлайн-системах.

1.1. Предпосылки

Несмотря на свои уязвимости, текстовые пароли остаются доминирующим методом аутентификации. Распространенные эвристические методы оценки стойкости (например, правила LUDS) неточны. Методы, основанные на моделировании взломщика с использованием марковских моделей, PCFG или нейронных сетей, обеспечивают лучшую точность, но часто страдают от длительного времени обучения, отсутствия производительности в реальном времени и объяснимости.

1.2. Основные результаты

Ключевыми результатами PESrank являются новое применение фреймворка рангового оценивания из криптоанализа по побочным каналам к паролям, что позволяет оценивать ранг менее чем за секунду без перебора, значительно сокращает время обучения, обеспечивает эффективную персонализацию модели без переобучения и обладает встроенной объяснимостью для обратной связи пользователю.

2. Методология PESrank

PESrank переосмысливает оценку стойкости пароля как задачу многомерного рангового оценивания, черпая вдохновение из методов анализа атак по побочным каналам, используемых в криптографии.

2.1. Многомерное представление пароля

Пароль декомпозируется в точку в d-мерном пространстве поиска. Измерения представляют независимые атрибуты, такие как базовое слово (например, "password"), паттерны капитализации (например, "Password"), добавление суффиксов (например, "password123") или преобразования leet-speak (например, "p@ssw0rd"). Распределение вероятностей для каждого измерения изучается отдельно на наборах данных паролей.

2.2. Фреймворк рангового оценивания

Вместо перебора всех возможных паролей PESrank оценивает ранг конкретной комбинации пароля, вычисляя количество комбинаций паролей, которые являются более вероятными (т.е. имеют более высокую совместную вероятность), чем заданный пароль. Это аналогично оценке ранга ключа шифрования при атаке по побочному каналу.

3. Техническая реализация и математическая модель

3.1. Основной алгоритм и формула

Основу PESrank составляет вычисление совместной вероятности пароля, представленного вектором значений измерений $\vec{x} = (x_1, x_2, ..., x_d)$. В предположении независимости измерений (упрощение для эффективности) вероятность равна: $$P(\vec{x}) = \prod_{i=1}^{d} P_i(x_i)$$ где $P_i(x_i)$ — вероятность значения $x_i$ в измерении $i$, полученная из обучающих данных. Ранг $R(\vec{x})$ оценивается путем суммирования вероятностей всех векторов $\vec{y}$, для которых $P(\vec{y}) > P(\vec{x})$. Для вычисления точных верхней и нижней границ этой суммы без полного перебора используются эффективные алгоритмы из литературы по побочным каналам, такие как подход bounding.

3.2. Объяснимость и персонализация

Многомерная модель по своей природе объяснима. Система может сообщать, какие измерения (например, "очень распространенное базовое слово" или "предсказуемый суффикс, такой как '123'") в наибольшей степени способствуют низкому рангу пароля (высокой угадываемости). Персонализация (например, включение имени пользователя или года рождения в качестве запрещенного базового слова) может быть достигнута путем динамической корректировки вероятности $P_i(x_i)$ для соответствующих измерений до почти нулевого значения, что мгновенно влияет на расчеты ранга без переобучения модели.

4. Результаты экспериментов и производительность

4.1. Тесты на точность и скорость

Реализация на Python была всесторонне оценена. Ключевые результаты включают:

Скорость: Время отклика менее секунды для оценки ранга, даже с моделью, обученной на 905 миллионах паролей.
Точность: Оцененные границы ранга постоянно находились в пределах фактора 2 (погрешность в 1 бит) от истинного ранга, что демонстрирует высокую точность.
Время обучения: Значительно короче, чем у нейросетевых или сложных PCFG-моделей, требуя на порядки меньше вычислений.

Эти показатели подчеркивают практическую пригодность для онлайн-развертывания.

4.2. Развертывание в реальных условиях

PESrank был интегрирован в страницу регистрации на университетский курс. Он предоставлял пользователям, создающим пароли, обратную связь в реальном времени с объяснениями, демонстрируя свою удобство и производительность в реальных условиях нагрузки. Эта обратная связь помогала отводить пользователей от слабых, предсказуемых паттернов паролей.

5. Фреймворк анализа и пример

Перспектива аналитика: Ключевая идея, Логическая цепочка, Сильные и слабые стороны, Практические выводы

Ключевая идея: PESrank — это не просто очередное постепенное улучшение измерителей паролей; это фундаментальная смена парадигмы. Он успешно переносит строгий, количественный фреймворк рангового оценивания по побочным каналам — стандарт в высокорискованной оценке криптографического оборудования — в хаотичный мир паролей, выбираемых человеком. Этот переход от эвристических догадок к вероятностному криптоанализу — блестящий ход. Он рассматривает взлом пароля не как лингвистическую или проблему сопоставления паттернов, а как задачу поиска в структурированном вероятностном пространстве, что идеально соответствует тому, как современные взломщики, такие как Hashcat и John the Ripper, фактически работают с правилами манглинга и марковскими цепями.

Логическая цепочка: Логика элегантно редукционистская. 1) Деконструировать пароли на ортогональные, релевантные для взломщика признаки (базовые слова, преобразования). 2) Обучить простую вероятностную модель для каждого признака на основе данных об утечках. 3) Реконструировать угадываемость пароля, вычисляя, сколько более вероятных комбинаций существует. Это обходит необходимость в монолитных, непрозрачных моделях нейронных сетей (как в [30, 37]) или иногда громоздких наборах правил PCFG [41]. Предположение о независимости измерений — ключевое упрощающее допущение, жертвующее некоторой точностью моделирования ради огромного выигрыша в скорости и объяснимости — компромисс, который на практике оказывается весьма выгодным.

Сильные и слабые стороны: Его сильные стороны впечатляют: молниеносная скорость и встроенная объяснимость — ключевые преимущества для реального внедрения, решающие две самые большие проблемы академических моделей. Трюк с персонализацией умный и практичный. Однако критический недостаток заключается в предположении о независимости. Хотя оно эффективно, оно игнорирует корреляции (например, определенные паттерны капитализации более вероятны с определенными базовыми словами). Это может привести к неточностям в ранге для сложных, коррелированных паролей. Более того, его точность неразрывно связана с качеством и широтой обучающих данных для каждого измерения — зависимость, которую он разделяет со всеми моделями на основе данных. Он может испытывать трудности с действительно новыми стратегиями создания паролей, не встречавшимися в прошлых утечках.

Практические выводы: Для команд безопасности посыл ясен: откажитесь от измерителей LUDS. PESrank демонстрирует, что точная, соответствующая взломщику, обратная связь в реальном времени теперь операционно осуществима. Показанный путь интеграции — встраивание в портал регистрации — это готовый план. Для исследователей будущее за гибридными моделями. Объедините эффективный, объяснимый фреймворк PESrank с легковесным нейросетевым компонентом для моделирования межмерных корреляций, подобно тому, как модели компьютерного зрения, такие как CycleGAN, используют отдельные генераторы для различных преобразований доменов, сохраняя при этом целостную структуру. Следующий рубеж — адаптивная персонализация, которая обучается на *отвергнутых* пользователем предложениях паролей для уточнения своей модели в реальном времени, выходя за рамки статических списков блокировки.

6. Будущие применения и направления исследований

Проактивный поиск угроз: Помимо пользовательских измерителей, основной алгоритм PESrank может сканировать существующие базы данных паролей (с соответствующим хешированием) для проактивного выявления и пометки учетных записей с легко угадываемыми паролями, обеспечивая принудительную смену паролей.
Усовершенствованные движки персонализации: Будущие системы могут интегрироваться с организационными каталогами (например, LDAP) для автоматической персонализации модели с именами сотрудников, кодовыми названиями проектов и внутренним жаргоном, создавая динамическую, специфичную для организации модель угроз.
Бенчмаркинг и стандартизация: Подход рангового оценивания предоставляет строгую, количественную метрику. Это может стать основой для отраслевых стандартов бенчмаркинга стойкости паролей, выходящих за рамки расплывчатых меток "сильный" или "слабый".
Кросс-модельная валидация: PESrank может использоваться как быстрый, объяснимый фильтр "первого прохода", при котором подозрительные пароли помечаются для более глубокого анализа более требовательными к вычислениям моделями (например, RNN), создавая многоуровневую защиту.
Исследование взаимозависимости измерений: Основное направление исследований — ослабление предположения о независимости. Изучение легковесных моделей корреляций (например, байесовских сетей над измерениями) может улучшить точность для сложных паролей без ущерба для ключевого преимущества в скорости.

7. Ссылки

L. David and A. Wool, "Online Password Guessability via Multi-Dimensional Rank Estimation," arXiv preprint arXiv:1912.02551v2, 2020.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
M. Weir, S. Aggarwal, B. de Medeiros, and B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
W. Melicher, B. Ur, S. M. Segreti, S. Komanduri, L. Bauer, N. Christin, and L. F. Cranor, "Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks," USENIX Security Symposium, 2016.
D. Wang, H. Cheng, P. Wang, X. Huang, and G. Jian, "A Security Analysis of Honeywords," NDSS, 2018. (Пример строгого анализа, связанного с паролями)
P. G. Kelley, S. Komanduri, M. L. Mazurek, R. Shay, T. Vidas, L. Bauer, N. Christin, L. F. Cranor, and J. Lopez, "Guess Again (and Again and Again): Measuring Password Strength by Simulating Password-Cracking Algorithms," IEEE Symposium on Security and Privacy, 2012.
National Institute of Standards and Technology (NIST), "Digital Identity Guidelines," NIST Special Publication 800-63B, 2017. (Для контекста стандартов аутентификации)