Выбрать язык

PassGPT: Моделирование паролей и управляемая генерация с помощью больших языковых моделей

Анализ PassGPT — LLM для генерации паролей и оценки их стойкости, превосходящей GAN и позволяющей управлять созданием паролей.
computationalcoin.com | PDF Size: 1.8 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - PassGPT: Моделирование паролей и управляемая генерация с помощью больших языковых моделей

Содержание

1. Введение

Пароли остаются доминирующим механизмом аутентификации благодаря своей простоте и удобству развёртывания. Однако утечки паролей представляют серьёзную угрозу, позволяя как проводить атаки, так и исследовать модели создания паролей людьми. В данной работе исследуется применение больших языковых моделей (LLM) для моделирования паролей, представляется PassGPT. PassGPT — это LLM, обученная на утечках паролей для их генерации и оценки стойкости, демонстрирующая превосходную производительность по сравнению с предыдущими методами на основе генеративно-состязательных сетей (GAN) и представляющая новые возможности, такие как управляемая генерация.

2. Методология и архитектура

PassGPT построена на архитектуре GPT-2, адаптированной для последовательной генерации паролей на уровне символов. Этот подход принципиально отличается от GAN, которые генерируют пароли как единые, атомарные единицы.

2.1. Архитектура модели PassGPT

Модель основана на архитектуре декодера Transformer. Она обрабатывает пароли как последовательности символов (или токенов), обучаясь условной вероятности следующего символа при заданном предыдущем контексте: $P(x_t | x_{PassVQT, включает техники векторного квантования для увеличения перплексии (и потенциально разнообразия) генерируемых паролей.

2.2. Управляемая генерация паролей

Ключевым нововведением является управляемая генерация паролей. Манипулируя процедурой выборки (например, используя условные вероятности или ограниченное декодирование), PassGPT может генерировать пароли, удовлетворяющие произвольным пользовательским ограничениям (например, «должен содержать цифру и заглавную букву»), что невозможно со стандартными GAN.

2.3. Обучение и данные

Модель обучается на крупномасштабных утечках паролей в автономном, неконтролируемом режиме, что соответствует модели угрозы автономного подбора паролей, распространённой в исследованиях безопасности.

3. Экспериментальные результаты и анализ

3.1. Эффективность подбора паролей

PassGPT значительно превосходит предыдущие передовые модели глубокой генерации (например, GAN). Она подбирает на 20% больше ранее не встречавшихся паролей и демонстрирует сильную обобщающую способность на новых наборах данных паролей, не встречавшихся во время обучения.

Сводка по производительности

Увеличение на 20% в подборе не встречавшихся паролей по сравнению с предыдущими GAN.

В 2 раза больше паролей подобрано по сравнению с некоторыми базовыми методами.

3.2. Анализ распределения вероятностей и энтропии

В отличие от GAN, PassGPT предоставляет явное распределение вероятностей по всему пространству паролей. Анализ показывает, что PassGPT присваивает более низкие вероятности (более высокую неожиданность) паролям, считающимся «стойкими» по оценкам устоявшихся инструментов (таких как zxcvbn), что указывает на соответствие. Также модель выявляет пароли, признанные стойкими оценщиками, но вероятностно вероятные с точки зрения модели, раскрывая потенциальные слабости.

3.3. Сравнение с подходами на основе GAN

Последовательная генерация PassGPT предлагает преимущества перед GAN: 1) Явные распределения вероятностей, 2) Возможность управляемой генерации, 3) Лучшая производительность на незнакомых данных. В работе это позиционируется как смена парадигмы от генерации единичного вывода к управляемому, вероятностному последовательному моделированию для паролей.

4. Технические детали и математический аппарат

Основой PassGPT является задача авторегрессионного языкового моделирования, максимизирующая правдоподобие обучающих данных:

$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{

где $N$ — количество паролей, $T_i$ — длина пароля $i$, $x_t^{(i)}$ — $t$-й символ, а $\theta$ — параметры модели. Для генерации используется выборка методами, такими как top-k или ядерная выборка, чтобы сбалансировать разнообразие и качество. Вероятность полного пароля $S$ равна: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{

5. Ключевая идея и взгляд аналитика

Ключевая идея: Настоящий прорыв работы заключается не просто в создании лучшего инструмента для взлома паролей; это формализация создания пароля как задачи управляемой последовательной генерации. Применяя предсказание следующего токена — основу современного NLP — к паролям, PassGPT выходит за рамки «чёрного ящика» одноэтапной генерации GAN (как в трансляции изображений в стиле CycleGAN) к прозрачному, управляемому процессу. Это переосмысливает безопасность, переводя её от простой оценки стойкости к моделированию человеческого процесса выбора пароля.

Логическая цепочка: Аргументация убедительна: 1) LLM отлично справляются с захватом сложных, реальных распределений (текст). 2) Пароли — это ограниченный, создаваемый человеком подъязык. 3) Следовательно, LLM должны эффективно их моделировать — что они и делают, превосходя GAN. 4) Последовательная природа LLM открывает возможность управляемой генерации — «убийственного» приложения для взлома с учётом политик или проактивного тестирования стойкости. 5) Явный вывод вероятностей предоставляет прямой, интерпретируемый показатель безопасности, устраняя разрыв между генеративными атаками и вероятностными оценками стойкости.

Сильные стороны и недостатки: Сила неоспорима: превосходная производительность и новая функциональность. Демонстрация управляемой генерации — блестящий ход, показывающий немедленную практическую пользу. Однако в анализе есть критический недостаток, общий для работ по ML-для-безопасности: он обходит стороной двойное назначение. Хотя упоминается «улучшение оценщиков стойкости», основное продемонстрированное применение — наступательное (подбор). Этическая составляющая проработана слабо. Более того, хотя модель превосходит GAN, сравнение с мощными инструментами подбора на основе правил, такими как Hashcat с продвинутыми наборами правил, менее очевидно. Производительность модели всё ещё ограничена её обучающими данными — утечками, которые могут не отражать всё поведение человека при создании паролей.

Практические выводы: Для защитников это не сигнал о конце, а призыв к действию. Во-первых, оценщики стойкости паролей должны интегрировать такие генеративные вероятности, как предлагается. Инструменты вроде zxcvbn следует доработать, чтобы проверять пароли на вероятность в модели, подобной PassGPT, а не только по статическим правилам. Во-вторых, командам красных следует немедленно внедрить эту методологию для внутренних аудитов; управляемая генерация идеально подходит для тестирования соответствия конкретным политикам паролей. В-третьих, это исследование подтверждает необходимость перехода от паролей. Если LLM может так хорошо их моделировать, долгосрочная энтропия рушится. Инвестиции в FIDO2/WebAuthn и ключи доступа становятся ещё более срочными. Вывод: рассматривайте PassGPT не как инструмент для взлома, а как самый точный симулятор человеческой слабости в создании паролей из когда-либо созданных. Используйте его, чтобы исправить вашу защиту до того, как это сделает противник.

6. Схема анализа: пример

Сценарий: Политика компании требует, чтобы пароли содержали как минимум одну заглавную букву, одну цифру и один специальный символ. Традиционный инструмент подбора на основе правил может использовать правила искажения. GAN будет испытывать трудности с генерацией только соответствующих политике паролей.

Подход PassGPT с управляемой генерацией:

  1. Определение ограничений: Определите маску или логику для процесса выборки, чтобы обеспечить позиции типов символов.
  2. Ограниченная выборка: Во время авторегрессионной генерации каждого символа $x_t$ распределение выборки фильтруется или смещается, чтобы разрешать только символы из набора, удовлетворяющего оставшимся требованиям политики (например, если к позиции $t$ не была сгенерирована цифра, увеличивается вес вероятности для цифр).
  3. Вывод: Модель генерирует последовательности, такие как «C@t9Lover» или «F1r3Tr#ck», которые являются как вероятностно вероятными (изученными из утечек), так и соответствующими политике.
Это демонстрирует, как PassGPT может использоваться для тестирования безопасности с учётом политик, генерируя наиболее вероятные слабые пароли, которые всё ещё проходят проверку политики, выявляя её лазейки.

7. Перспективы применения и направления развития

Краткосрочные (1-2 года):

Среднесрочные (3-5 лет): Долгосрочные и исследовательские направления: Конечное направление, на которое намекает успех работы, — постепенная замена эвристических правил для паролей на основанные на данных, вероятностные модели безопасности.

8. Ссылки

  1. Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
  2. Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
  4. Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
  6. Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  7. FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.