PassGPT: Моделирование паролей и управляемая генерация с помощью больших языковых моделей

1. Введение

Несмотря на распространение альтернативных механизмов аутентификации, пароли остаются доминирующим методом благодаря своей простоте и удобству развёртывания. Такая распространённость делает утечки паролей критическим вектором угроз. Машинное обучение, в частности глубокие генеративные модели, сыграло ключевую роль в анализе утечек паролей как для атак подбора, так и для оценки их стойкости. В данной статье представлен PassGPT — новый подход, использующий большие языковые модели (LLM) для моделирования паролей. Исследуется ключевой вопрос: Насколько эффективно LLM могут улавливать сложные, часто подсознательные паттерны в паролях, созданных человеком? PassGPT позиционируется как инструмент для офлайн-подбора паролей, что соответствует предыдущим сценариям исследований в области атак, где злоумышленник обладает хэшированными паролями.

2. Основная методология и архитектура

PassGPT принципиально меняет парадигму глубокого генеративного моделирования паролей, переходя от целостной генерации к последовательному предсказанию на уровне символов.

2.1. Дизайн модели PassGPT

PassGPT основан на архитектуре трансформера GPT-2. Модель обучается непосредственно на крупных утечках паролей, изучая распределение вероятностей $P(c_i | c_1, c_2, ..., c_{i-1})$ для следующего символа $c_i$ при заданной предыдущей последовательности. Такое авторегрессионное моделирование позволяет генерировать пароли токен за токеном, улавливая сложные морфологические паттерны (например, общие префиксы вроде "Summer", суффиксы вроде "123!" и замены в стиле "leet-speak").

2.2. Управляемая генерация паролей

Это ключевое нововведение по сравнению с предыдущими методами на основе GAN. Выполняя сэмплирование из распределения модели в процессе генерации, PassGPT может учитывать произвольные ограничения. Например, злоумышленник (или защитник, проверяющий соответствие политике) может направлять генерацию для создания паролей, которые: должны содержать заглавную букву, должны заканчиваться цифрой или должны включать определённую подстроку. Это позволяет целенаправленно исследовать пространство паролей, что ранее было невозможно с моделями, генерирующими пароли как единые, неограниченные выходные данные.

2.3. Улучшение PassVQT

Авторы представляют PassVQT — вариант, улучшенный с помощью техник Vector Quantized Transformer. Эта модификация направлена на увеличение перплексии (меры неопределённости) генерируемых паролей, что потенциально может привести к более разнообразным и менее предсказуемым результатам, хотя компромиссы с угадываемостью требуют тщательной оценки.

3. Результаты экспериментов и производительность

Ключевой показатель производительности

На 20% больше неизвестных паролей: PassGPT подобрал на 20% больше ранее неизвестных паролей по сравнению с передовыми моделями на основе GAN (например, PassGAN).

3.1. Производительность в подборе паролей

В статье демонстрируется превосходная производительность в офлайн-атаках подбора. При оценке на отложенных наборах данных паролей PassGPT достиг примерно вдвое большего процента попаданий по ранее неизвестным паролям по сравнению с базовыми моделями GAN. Это указывает на значительно лучшую способность к обобщению: модель эффективнее изучает базовое распределение паролей, выбранных человеком, чем состязательные сети.

3.2. Анализ оценки стойкости

Ключевой вывод заключается в том, что явная вероятность $P(пароль)$, присваиваемая PassGPT, коррелирует со стойкостью пароля. Модель последовательно присваивает более низкие вероятности более стойким паролям, что согласуется с устоявшимися оценщиками стойкости, такими как zxcvbn. Более того, анализ выявляет пароли, считающиеся "стойкими" по традиционным оценщикам, но которым PassGPT присваивает высокую вероятность, — это выделяет новый класс уязвимых для ML паролей, которые могут быть пропущены текущими проверщиками.

4. Технические детали и математический аппарат

Основой PassGPT является задача авторегрессионного языкового моделирования. Для пароля, представленного в виде последовательности токенов (символов или подслов) $x = (x_1, x_2, ..., x_T)$, модель обучается максимизировать правдоподобие: $$L = \sum_{t=1}^{T} \log P(x_t | x_{

5. Аналитическая структура и пример использования

Пример использования: Выявление слабых паролей, соответствующих политике
Сценарий: В компании действует политика паролей: "Не менее 12 символов, одна заглавная буква, одна цифра, один специальный символ". Традиционная атака полного перебора на этом пространстве огромна ($\sim94^{12}$ возможностей).
Применение PassGPT: Используя управляемую генерацию, аналитик может выполнять сэмплирование из PassGPT с этими точными ограничениями. Модель, изучившая человеческие тенденции, будет генерировать кандидаты вроде "Summer2023!Sun", "January01?Rain", которые соответствуют политике, но легко угадываются из-за общих семантических паттернов. Это демонстрирует, как PassGPT может эффективно находить "слабые места" в теоретически сильном пространстве, определённом политикой, — задача, практически невыполнимая для полного перебора или генераторов на основе правил, таких как маски Hashcat.

6. Будущие применения и направления исследований

Проактивная оценка стойкости паролей: Интеграция вероятностных оценок PassGPT в проверщики создания паролей в реальном времени для пометки уязвимых для ML паролей, которые проходят традиционные правила.
Моделирование атак и Red Teaming: Использование управляемого PassGPT для имитации сложных, контекстно-зависимых атакующих с целью улучшения проектирования защитных политик паролей.
Изучение паттернов в разных доменах: Исследование возможности того, что LLM, обученные на паролях, могут выявлять специфичные для пользователя паттерны в разных сервисах, что вызывает опасения по поводу целевых атак.
Генерация данных для защитного обучения: Использование PassGPT для создания масштабных, реалистичных синтетических наборов данных паролей для обучения защитных ML-моделей без раскрытия реальных пользовательских данных.
Интеграция с более широким контекстом: Будущие модели могут включать контекстные данные (например, демографию пользователя, тип сервиса) для ещё более точного моделирования выбора пароля, на что намекают тенденции персонализации в LLM.

7. Ссылки

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Cryptography and Network Security.
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.

8. Оригинальный анализ и экспертное заключение

Ключевая идея

PassGPT — это не просто постепенное улучшение; это смена парадигмы, которая обнажает фундаментальную хрупкость секретов, выбранных человеком, перед лицом современного ИИ. Самый сокрушительный вывод статьи заключается в том, что сама последовательная, паттерно-ориентированная природа LLM — которая делает их такими эффективными в работе с языком — делает их пугающе эффективными в моделировании полуструктурированного "языка" паролей. Это смещает угрозу от статистического полного перебора к когнитивному моделированию.

Логическая цепочка

Аргументация убедительна: 1) LLM доминируют в NLP, изучая глубокие статистические паттерны в последовательностях. 2) Пароли — это созданные человеком последовательности с глубокими, часто подсознательными статистическими паттернами (например, "прогулки" по клавиатуре, форматы дат, семантические конкатенации). 3) Следовательно, LLM должны доминировать в моделировании паролей. Результаты подтверждают это с беспощадной эффективностью. Функция управляемой генерации — логичное "убийственное приложение" — она превращает это понимание в оружие, позволяя атакующим хирургически использовать пересечение политики и человеческой лени.

Сильные стороны и недостатки

Сильные стороны: Улучшение производительности на 20% по сравнению с GAN значимо в области, где достижения даются с трудом. Явное распределение вероятностей — это серьёзное теоретическое и практическое преимущество, связывающее генерацию и оценку. Управляемая генерация — подлинное нововведение.
Недостатки и вопросы: Статья, как и многие исследования в области состязательного ML, мало освещает защитные аспекты. Как нам создавать политики, устойчивые к этому? Данные для обучения (утечки паролей) этически сомнительны. Более того, как отмечено в статье CycleGAN и другой литературе по генеративным моделям, коллапс мод и разнообразие — вечные проблемы; хотя PassVQT решает вопрос перплексии, "длинный хвост" по-настоящему случайных паролей всё ещё может быть безопасен. Сравнение проводится в основном с GAN; тестирование против масштабных, оптимизированных систем на основе правил, таких как JtR или Hashcat с продвинутыми правилами, дало бы более полную картину.

Практические выводы

Для CISO и защитников: Эра правил сложности закончилась. Политики должны требовать использования по-настоящему случайных парольных фраз или паролей, сгенерированных криптографически стойким менеджером. Инструменты вроде zxcvbn должны быть немедленно дополнены оценкой "угадываемости ML", вероятно, полученной от таких моделей, как сам PassGPT. Проактивный поиск угроз должен включать моделирование атак в стиле PassGPT против собственных хэшей паролей (при наличии соответствующих разрешений).
Для исследователей: Приоритетом должна быть защита. Следующие статьи должны быть посвящены "схемам создания паролей, устойчивых к PassGPT". Также существует острая необходимость в этических рамках для исследований с использованием утекших данных, на чём настаивают такие институты, как Центр долгосрочной кибербезопасности (CLTC). Наконец, исследование применения обучения с подкреплением на основе обратной связи от человека (RLHF) для направления LLM в сторону отказа от генерации угадываемых паттернов может стать многообещающей защитной контрмерой.

В итоге, PassGPT — это сигнал тревоги. Модель демонстрирует, что передовые технологии ИИ, разработанные для творческих и коммуникативных задач, могут быть перепрофилированы с леденящей эффективностью для взлома одного из старейших механизмов цифровой безопасности. Защита больше не может полагаться только на то, чтобы переиграть человеческую предсказуемость; теперь она также должна переиграть ИИ, который научился идеально её имитировать.