PassGPT: مدل‌سازی و تولید هدایت‌شده رمز عبور با مدل‌های زبانی بزرگ

1. مقدمه

علیرغم گسترش مکانیزم‌های احراز هویت جایگزین، رمزهای عبور به دلیل سادگی و قابلیت استقرار، همچنان روش غالب هستند. این شیوع، نشت رمزهای عبور را به یک بردار تهدید حیاتی تبدیل کرده است. یادگیری ماشین، به ویژه مدل‌های مولد عمیق، در تحلیل نشت رمزهای عبور برای حملات حدسی و تخمین قدرت نقش کلیدی داشته‌اند. این مقاله PassGPT را معرفی می‌کند، رویکردی نوین که از مدل‌های زبانی بزرگ (LLM) برای مدل‌سازی رمز عبور بهره می‌برد. این مقاله به بررسی این سوال اصلی می‌پردازد: مدل‌های زبانی بزرگ تا چه حد می‌توانند الگوهای پیچیده و اغلب ناخودآگاه در رمزهای عبور تولیدشده توسط انسان را به دقت درک کنند؟ PassGPT به عنوان یک ابزار حدس زدن رمز عبور آفلاین تعریف شده است که با سناریوهای پژوهشی پیشین در زمینه حملات، جایی که مهاجم رمزهای عبور هش‌شده را در اختیار دارد، همسو است.

2. روش‌شناسی و معماری اصلی

PassGPT اساساً پارادایم مدل‌سازی مولد عمیق رمز عبور را از تولید کلی به پیش‌بینی ترتیبی در سطح کاراکتر تغییر می‌دهد.

2.1. طراحی مدل PassGPT

PassGPT بر اساس معماری ترنسفورمر GPT-2 ساخته شده است. این مدل مستقیماً بر روی نشت‌های بزرگ‌مقیاس رمز عبور آموزش دیده و توزیع احتمال $P(c_i | c_1, c_2, ..., c_{i-1})$ روی کاراکتر بعدی $c_i$ با توجه به دنباله قبلی را یاد می‌گیرد. این مدل‌سازی خودرگرسیو به آن امکان می‌دهد رمزهای عبور را توکن به توکن تولید کند و الگوهای ریخت‌شناختی پیچیده (مانند پیشوندهای رایج مانند "Summer"، پسوندهایی مانند "123!" و جایگزینی‌های لیت‌اسپیک) را درک کند.

2.2. تولید هدایت‌شده رمز عبور

این یک نوآوری کلیدی نسبت به روش‌های قبلی مبتنی بر GAN است. با نمونه‌برداری از توزیع مدل در حین تولید، PassGPT می‌تواند محدودیت‌های دلخواه را در نظر بگیرد. به عنوان مثال، یک مهاجم (یا مدافع در حال آزمایش انطباق با سیاست) می‌تواند تولید را هدایت کند تا رمزهای عبوری ایجاد کند که: باید حاوی یک حرف بزرگ باشند، باید با یک رقم پایان یابند، یا باید شامل یک زیررشته خاص باشند. این امر امکان کاوش هدفمند فضای رمز عبور را فراهم می‌کند که قبلاً با مدل‌هایی که رمزهای عبور را به عنوان خروجی‌های واحد و بدون محدودیت تولید می‌کردند، غیرممکن بود.

2.3. بهبود PassVQT

نویسندگان PassVQT را معرفی می‌کنند، گونه‌ای که با تکنیک‌های ترنسفورمر کوانتیزه برداری بهبود یافته است. این تغییر با هدف افزایش پرپلکسیتی (معیاری از عدم قطعیت) رمزهای عبور تولیدشده انجام شده است که ممکن است منجر به خروجی‌های متنوع‌تر و کمتر قابل پیش‌بینی شود، اگرچه بده‌بستان‌های آن با قابلیت حدس زدن نیاز به ارزیابی دقیق دارد.

3. نتایج آزمایشی و عملکرد

معیار کلیدی عملکرد

20٪ رمزهای عبور مشاهده‌نشده بیشتر: PassGPT نسبت به مدل‌های پیشرفته مبتنی بر GAN (مانند PassGAN)، 20٪ رمزهای عبور مشاهده‌نشده قبلی را بیشتر حدس زد.

3.1. عملکرد حدس زدن رمز عبور

مقاله عملکرد برتر را در حملات حدسی آفلاین نشان می‌دهد. هنگام ارزیابی بر روی مجموعه داده‌های رمز عبور نگهداری‌شده، PassGPT در مقایسه با خطوط پایه GAN، تقریباً دو برابر نرخ موفقیت در رمزهای عبور مشاهده‌نشده قبلی را به دست آورد. این نشان‌دهنده قابلیت تعمیم به‌طور قابل توجهی بهتر است، به طوری که توزیع زیربنایی رمزهای عبور انتخاب‌شده توسط انسان را مؤثرتر از شبکه‌های متخاصم یاد می‌گیرد.

3.2. تحلیل تخمین قدرت

یک یافته حیاتی این است که احتمال صریح $P(password)$ اختصاص‌یافته توسط PassGPT با قدرت رمز عبور همبستگی دارد. این مدل به‌طور مداوم احتمالات کمتری را به رمزهای عبور قوی‌تر اختصاص می‌دهد که با تخمین‌زننده‌های قدرت ثابت‌شده مانند zxcvbn همسو است. علاوه بر این، تحلیل، رمزهای عبوری را شناسایی می‌کند که توسط تخمین‌زننده‌های سنتی «قوی» تلقی می‌شوند اما توسط PassGPT احتمال بالایی به آنها اختصاص داده شده است - این امر دسته جدیدی از رمزهای عبور آسیب‌پذیر در برابر یادگیری ماشین را برجسته می‌کند که ممکن است توسط بررسی‌کننده‌های فعلی نادیده گرفته شوند.

4. جزئیات فنی و چارچوب ریاضی

هسته PassGPT هدف مدل‌سازی زبان خودرگرسیو است. با توجه به یک رمز عبور که به عنوان دنباله‌ای از توکن‌ها (کاراکترها یا زیرکلمات) $x = (x_1, x_2, ..., x_T)$ نمایش داده می‌شود، مدل برای بیشینه‌کردن درست‌نمایی آموزش داده می‌شود: $$L = \sum_{t=1}^{T} \log P(x_t | x_{

5. چارچوب تحلیل و مطالعه موردی

مطالعه موردی: شناسایی رمزهای عبور ضعیف منطبق بر سیاست
سناریو: یک شرکت سیاست رمز عبور زیر را اعمال می‌کند: «حداقل 12 کاراکتر، یک حرف بزرگ، یک رقم، یک کاراکتر ویژه». یک حمله بی‌رحم سنتی بر این فضای عظیم ($\sim94^{12}$ امکان) است.
کاربرد PassGPT: با استفاده از تولید هدایت‌شده، یک تحلیلگر می‌تواند از PassGPT با این محدودیت‌های دقیق نمونه‌برداری کند. مدل که تمایلات انسانی را یاد گرفته است، نامزدهایی مانند "Summer2023!Sun"، "January01?Rain" را تولید خواهد کرد که با سیاست مطابقت دارند اما به دلیل الگوهای معنایی رایج، به شدت قابل حدس هستند. این نشان می‌دهد که چگونه PassGPT می‌تواند به‌طور کارآمد «نقاط ضعف» را در یک فضای تعریف‌شده توسط سیاست که از نظر تئوری قوی است، بیابد، کاری که تقریباً برای تولیدکننده‌های بی‌رحم یا مبتنی بر قاعده مانند ماسک‌های Hashcat غیرممکن است.

6. کاربردهای آینده و جهت‌های پژوهشی

تخمین قدرت رمز عبور پیش‌گیرانه: ادغام امتیازات احتمال PassGPT در بررسی‌کننده‌های ایجاد رمز عبور بلادرنگ برای علامت‌گذاری رمزهای عبور آسیب‌پذیر در برابر یادگیری ماشین که از قوانین سنتی عبور می‌کنند.
شبیه‌سازی متخاصم و تیم قرمز: استفاده از PassGPT هدایت‌شده برای شبیه‌سازی مهاجمان پیچیده و آگاه از زمینه، به منظور طراحی بهتر سیاست رمز عبور دفاعی.
یادگیری الگوی بین‌حوزه‌ای: بررسی اینکه آیا مدل‌های زبانی بزرگ آموزش‌دیده بر روی رمزهای عبور می‌توانند الگوهای خاص کاربر را در سرویس‌های مختلف شناسایی کنند، که نگرانی‌هایی در مورد حملات هدفمند ایجاد می‌کند.
تولید داده آموزشی دفاعی: استفاده از PassGPT برای تولید مجموعه داده‌های مصنوعی رمز عبور واقع‌نما و عظیم برای آموزش مدل‌های یادگیری ماشین دفاعی بدون افشای داده‌های واقعی کاربران.
ادغام با زمینه بزرگتر: مدل‌های آینده ممکن است داده‌های زمینه‌ای (مانند ویژگی‌های جمعیتی کاربر، نوع سرویس) را برای مدل‌سازی انتخاب رمز عبور با دقت حتی بیشتر، همانطور که توسط روندهای شخصی‌سازی در مدل‌های زبانی بزرگ اشاره شده است، دربرگیرند.

7. مراجع

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Cryptography and Network Security.
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.

8. تحلیل اصلی و تفسیر کارشناسی

بینش اصلی

PassGPT فقط یک بهبود تدریجی نیست؛ یک تغییر پارادایم است که شکنندگی بنیادی اسرار انتخاب‌شده توسط انسان در برابر هوش مصنوعی مدرن را آشکار می‌کند. نتیجه‌گیری ویرانگر مقاله این است که ذات ترتیبی و تطبیق الگوی مدل‌های زبانی بزرگ - که آنها را در زبان بسیار خوب می‌کند - آنها را به طرز ترسناکی در مدل‌سازی «زبان» نیمه‌ساختاریافته رمزهای عبور مؤثر می‌سازد. این امر تهدید را از حمله بی‌رحم آماری به مدل‌سازی شناختی منتقل می‌کند.

جریان منطقی

استدلال قانع‌کننده است: 1) مدل‌های زبانی بزرگ با یادگیری الگوهای آماری عمیق در دنباله‌ها بر پردازش زبان طبیعی تسلط دارند. 2) رمزهای عبور، دنباله‌های تولیدشده توسط انسان با الگوهای آماری عمیق و اغلب ناخودآگاه هستند (مانند راه‌های صفحه کلید، فرمت‌های تاریخ، الحاق‌های معنایی). 3) بنابراین، مدل‌های زبانی بزرگ باید بر مدل‌سازی رمز عبور تسلط داشته باشند. نتایج این را با کارایی بی‌رحمانه‌ای تأیید می‌کنند. ویژگی تولید هدایت‌شده، کاربرد کشنده منطقی است - این درک را مسلح می‌کند و به مهاجمان اجازه می‌دهد تا به‌طور جراحی از تقاطع سیاست و تنبلی انسان سوءاستفاده کنند.

نقاط قوت و ضعف

نقاط قوت: افزایش 20 درصدی عملکرد نسبت به GANها در حوزه‌ای که دستاوردها به سختی به دست می‌آیند، قابل توجه است. توزیع احتمال صریح یک مزیت نظری و عملی عمده است که تولید و تخمین را به هم پیوند می‌دهد. تولید هدایت‌شده یک نوآوری واقعی است.
نقاط ضعف و سوالات: مقاله، مانند بسیاری از تحقیقات یادگیری ماشین متخاصم، بر پیامدهای دفاعی تمرکز کمی دارد. چگونه سیاست‌هایی بسازیم که در برابر این مقاوم باشند؟ داده آموزشی (نشت رمزهای عبور) از نظر اخلاقی مبهم است. علاوه بر این، همانطور که در مقاله CycleGAN و سایر ادبیات مدل مولد اشاره شده است، فروپاشی حالت و تنوع مسائل همیشگی هستند؛ در حالی که PassVQT به پرپلکسیتی می‌پردازد، دنباله بلند رمزهای عبور واقعاً تصادفی ممکن است همچنان ایمن باشد. مقایسه عمدتاً با GANها انجام شده است؛ یک معیار در برابر سیستم‌های مبتنی بر قاعده بهینه‌شده عظیم مانند JtR یا Hashcat با قوانین پیشرفته، تصویر کامل‌تری ارائه می‌دهد.

بینش‌های عملی

برای مدیران ارشد امنیت اطلاعات و مدافعان: عصر قوانین پیچیدگی به پایان رسیده است. سیاست‌ها باید استفاده از عبارت‌های عبور واقعاً تصادفی یا رمزهای عبور تولیدشده توسط یک مدیر رمز عبور امن رمزنگاری را اجباری کنند. ابزارهایی مانند zxcvbn باید بلافاصله با یک امتیاز «قابلیت حدس زدن توسط یادگیری ماشین» که احتمالاً از مدل‌هایی مانند خود PassGPT مشتق شده است، تقویت شوند. شکار تهدید پیش‌گیرانه باید شامل شبیه‌سازی حملات سبک PassGPT علیه هش‌های رمز عبور خودتان (با مجوز مناسب) باشد.
برای پژوهشگران: اولویت باید دفاعی باشد. مقالات بعدی باید در مورد «طرح‌های ایجاد رمز عبور مقاوم در برابر PassGPT» باشند. همچنین نیاز فوری به چارچوب‌های اخلاقی برای تحقیقات با استفاده از داده‌های نشت‌یافته وجود دارد، همانطور که توسط مؤسساتی مانند مرکز امنیت سایبری بلندمدت (CLTC) تأکید شده است. در نهایت، بررسی کاربرد یادگیری تقویتی از بازخورد انسانی (RLHF) برای هدایت مدل‌های زبانی بزرگ به دور از تولید الگوهای قابل حدس می‌تواند یک اقدام متقابل دفاعی امیدوارکننده باشد.

در خلاصه، PassGPT یک زنگ بیدارباش است. این نشان می‌دهد که پیشرفته‌ترین فناوری هوش مصنوعی، که برای کارهای خلاقانه و ارتباطی توسعه یافته است، می‌تواند با کارایی دلهره‌آوری برای شکستن یکی از قدیمی‌ترین مکانیزم‌های امنیت دیجیتال بازهدف‌گذاری شود. دفاع دیگر نمی‌تواند تنها به هوشمندتر بودن از پیش‌بینی‌پذیری انسان تکیه کند؛ اکنون باید از هوش مصنوعی‌ای که یاد گرفته است آن را به طور کامل تقلید کند نیز هوشمندتر باشد.