PassGPT: Моделирование паролей и управляемая генерация с помощью больших языковых моделей

1. Введение

Несмотря на прогресс в технологиях аутентификации, пароли остаются доминирующим механизмом благодаря своей простоте и удобству развертывания. Утечки паролей представляют собой серьёзную угрозу безопасности, позволяя как несанкционированный доступ, так и совершенствование инструментов для взлома. В данной статье исследуется применение больших языковых моделей (LLM) для моделирования паролей, представляется PassGPT — модель, обученная на утечках паролей для их генерации и оценки стойкости.

Исследование демонстрирует, что PassGPT превосходит существующие методы на основе генеративно-состязательных сетей (GAN), угадывая на 20% больше ранее не встречавшихся паролей, и представляет управляемую генерацию паролей — новую возможность для создания паролей с произвольными ограничениями.

2. Методология и архитектура

PassGPT построена на архитектуре GPT-2, адаптированной для последовательной генерации символов пароля. Этот подход контрастирует с GAN, которые генерируют пароли как цельные единицы.

2.1. Дизайн модели PassGPT

Модель представляет собой авторегрессивный трансформер, обученный на крупномасштабных утечках паролей. Она изучает распределение вероятностей $P(x_t | x_{

2.2. Управляемая генерация паролей

Ключевым нововведением является управляемая генерация на уровне символов. Манипулируя процедурой выборки (например, используя условные вероятности или маскирование), PassGPT может генерировать пароли, удовлетворяющие конкретным ограничениям, таким как наличие определённых символов, соответствие требованиям к длине или включение конкретных подстрок — задача, недостижимая для стандартных GAN.

2.3. Улучшение PassVQT

PassVQT включает в себя методы Vector Quantized Transformer (VQT), используя дискретный кодбук для представления скрытых эмбеддингов. Это может увеличить перплексию и разнообразие генерируемых паролей, хотя и за счёт вычислительных ресурсов.

3. Результаты экспериментов

3.1. Эффективность подбора паролей

Эксперименты на реальных утечках паролей (например, RockYou) показывают, что PassGPT значительно превосходит предыдущие передовые модели глубокого генеративного обучения, такие как PassGAN. В одном из тестов PassGPT угадал вдвое больше уникальных, ранее не встречавшихся паролей по сравнению с подходами на основе GAN. Также модель продемонстрировала сильную способность к обобщению на новых, неиспользованных при обучении наборах данных.

Сравнение производительности

PassGPT против GAN: на 20% выше успешность угадывания невстречавшихся паролей.

Обобщение: Эффективная работа на новых утечках паролей, не использовавшихся при обучении.

3.2. Анализ распределения вероятностей

В отличие от GAN, PassGPT предоставляет явное распределение вероятностей для паролей. Анализ показывает сильную корреляцию между низкой вероятностью пароля (высоким отрицательным логарифмическим правдоподобием) и высокой стойкостью, измеряемой такими оценщиками, как zxcvbn. Однако PassGPT выявил случаи, когда пароли, считающиеся «стойкими» по традиционным оценщикам, имели относительно высокую вероятность в рамках его модели, что указывает на потенциальные уязвимости.

Интерпретация графика: Гипотетическая диаграмма рассеяния показала бы вероятность пароля (PassGPT) по оси X и оценку стойкости (zxcvbn) по оси Y, выявляя общую отрицательную тенденцию с заметными выбросами, где пароли с высокой стойкостью имеют неожиданно высокую вероятность.

4. Технический анализ и структура

Перспектива отраслевого аналитика: Критическая оценка подхода PassGPT, его последствий и практических выводов.

4.1. Ключевая идея

Фундаментальный прорыв статьи заключается не просто в очередной модели ИИ для паролей; это смена парадигмы от дискриминативного сопоставления шаблонов к генеративному моделированию последовательностей. В то время как такие инструменты, как Hashcat, полагаются на правила и цепи Маркова, а GAN, такие как PassGAN, генерируют целостные выходные данные, PassGPT рассматривает создание пароля как лингвистический акт. Это отражает то, как LLM, такие как GPT-3, захватывают «грамматику» и «семантику» естественного языка, но здесь это применяется к «языку» создания паролей человеком. Реальная ценность заключается в явном, поддающемся анализу распределении вероятностей, которое она предоставляет — особенность, заметно отсутствующая в GAN, которые часто критикуют как «чёрные ящики» (Goodfellow et al., 2014). Это перемещает безопасность паролей из области эвристических догадок в область вероятностных рассуждений.

4.2. Логическая последовательность

Аргументация развивается по убедительной логике: (1) LLM доминируют в NLP, моделируя последовательности; (2) пароли — это последовательности символов со скрытой структурой; (3) следовательно, LLM должны эффективно моделировать пароли. Валидация убедительна: превосходная производительность подбора доказывает предпосылку. Введение управляемой генерации является естественным расширением последовательной архитектуры — аналогично управляемой генерации текста в моделях типа CTRL (Keskar et al., 2019). Анализ распределения вероятностей — критически важный следующий шаг, связывающий генеративное моделирование с практической областью оценки стойкости. Последовательность моделирование -> генерация -> анализ -> применение является последовательной и значимой.

4.3. Сильные стороны и недостатки

Сильные стороны: Прирост производительности неоспорим. Возможность управляемой генерации — подлинное новшество с непосредственным применением для тестирования на проникновение (генерация кандидатов в пароли, соответствующих правилам) и, возможно, для помощи пользователям в создании запоминающихся, но сложных паролей. Предоставление распределения вероятностей является серьёзным теоретическим и практическим преимуществом, позволяющим рассчитывать энтропию и интегрироваться с существующими системами безопасности.

Недостатки и проблемы: В статье обходятся стороной значительные вопросы. Во-первых, этическая двойственность применения: это мощный инструмент для взлома. Хотя он позиционируется для исследований «офлайн-подбора», потенциал его злоупотребления высок, и выпуск кода/моделей требует строгих этических руководств, аналогичных дебатам вокруг других исследований ИИ двойного назначения (Brundage et al., 2018). Во-вторых, зависимость от данных: Как и все модели машинного обучения, PassGPT настолько хороша, насколько хороши её обучающие данные. Она может не справиться с моделированием паролей из культур или языков, недостаточно представленных в распространённых утечках. В-третьих, вычислительная стоимость: Обучение и запуск больших трансформеров требует больше ресурсов по сравнению с некоторыми старыми методами, что потенциально ограничивает применение в реальном времени. Увеличенная «перплексия» варианта PassVQT упоминается, но не оценивается тщательно — приводит ли большее разнообразие к более эффективному подбору или просто к большему количеству бессмысленных строк?

4.4. Практические выводы

Для команд безопасности: Немедленно оцените, насколько политики паролей вашей организации могут быть уязвимы для этого нового поколения атак на основе ИИ. Политики, требующие сложных, но предсказуемых шаблонов (например, «НазваниеКомпании2024!»), теперь более уязвимы. Выступайте за переход к использованию истинной случайности (менеджеры паролей) или парольных фраз.

Для исследователей и поставщиков: Интегрируйте вероятностные оценки на основе LLM в измерители стойкости. Гибридный оценщик, сочетающий традиционные правила (zxcvbn) с правдоподобием PassGPT, может быть более надёжным. Разрабатывайте защитные модели, способные обнаруживать пароли, которые, вероятно, сгенерированы PassGPT, создавая гонку вооружений ИИ против ИИ в области безопасности паролей.

Для разработчиков политик: Финансируйте исследования защитных применений этой технологии и устанавливайте чёткие этические рамки для публикации мощных наступательных инструментов ИИ в кибербезопасности.

Пример структуры (не код): Рассмотрим политику паролей финансового учреждения: «12 символов, 1 заглавная, 1 строчная, 1 цифра, 1 специальный символ». Традиционный инструмент для взлома может использовать полный перебор или правила искажения. GAN может испытывать трудности с генерацией выходных данных, строго соответствующих всем ограничениям. Управляемая генерация PassGPT может быть направлена на выборку только последовательностей, удовлетворяющих этой конкретной политике, эффективно исследуя подпространство с высокой вероятностью в этом ограниченном пространстве поиска, что делает её мощным инструментом как для «красных команд», тестирующих эту политику, так и для атакующих методом чёрного ящика.

5. Будущие применения и направления

Улучшенная оценка стойкости: Интеграция вероятностных оценок PassGPT в измерители стойкости паролей в реальном времени для веб-сайтов и приложений.
Проактивный аудит паролей: Организации могут использовать управляемые модели PassGPT для проактивной генерации и тестирования паролей, соответствующих внутренним политикам, выявляя слабые места до того, как это сделают злоумышленники.
Гибридные защитные модели: Разработка дискриминативных моделей, способных отличать пароли, выбранные человеком, от сгенерированных LLM, для пометки потенциально скомпрометированных или слабых учётных данных.
Междоменное моделирование последовательностей: Применение той же архитектуры к другим последовательностям, имеющим отношение к безопасности, таким как отпечатки сетевых протоколов, последовательности вызовов API вредоносного ПО или шаблоны мошеннических транзакций.
Федеративное и сохраняющее конфиденциальность обучение: Исследование методов обучения таких моделей на распределённых, анонимизированных данных паролей без централизации чувствительных утечек.
Генерация состязательных паролей: Использование управляемой генерации для создания «состязательных примеров» — паролей, которые кажутся стойкими для оценщиков, но легко угадываются моделью — для стресс-тестирования и улучшения этих оценщиков.

6. Ссылки

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.