فهرست مطالب
1. مقدمه
رمزهای عبور به دلیل سادگی و قابلیت استقرار، همچنان مکانیسم اصلی احراز هویت هستند. با این حال، نشت رمزهای عبور تهدید قابل توجهی ایجاد میکند که هم امکان حمله و هم تحقیق در مورد الگوهای ایجاد رمز عبور توسط انسان را فراهم میآورد. این مقاله کاربرد مدلهای زبانی بزرگ (LLM) در مدلسازی رمز عبور را بررسی کرده و PassGPT را معرفی میکند. PassGPT یک مدل زبانی بزرگ است که بر روی نشت رمزهای عبور برای تولید و تخمین قدرت آموزش دیده است و عملکردی برتر نسبت به روشهای قبلی مبتنی بر شبکههای مولد تخاصمی (GAN) نشان داده و قابلیتهای جدیدی مانند تولید هدایتشده را معرفی میکند.
2. روششناسی و معماری
PassGPT بر اساس معماری GPT-2 ساخته شده و برای تولید ترتیبی رمز عبور در سطح کاراکتر تطبیق یافته است. این رویکرد اساساً با GANها که رمزهای عبور را به عنوان واحدهای اتمی منفرد تولید میکنند، متفاوت است.
2.1. معماری مدل PassGPT
این مدل بر اساس معماری دیکدر ترنسفورمر است. رمزهای عبور را به عنوان دنبالهای از کاراکترها (یا توکنها) پردازش میکند و احتمال شرطی کاراکتر بعدی با توجه به متن قبلی را یاد میگیرد: $P(x_t | x_{
2.2. تولید هدایتشده رمز عبور
یک نوآوری کلیدی، تولید هدایتشده رمز عبور است. با دستکاری فرآیند نمونهبرداری (مثلاً با استفاده از احتمالات شرطی یا رمزگشایی محدودشده)، PassGPT میتواند رمزهای عبوری تولید کند که محدودیتهای دلخواه تعریفشده توسط کاربر را برآورده میکنند (مثلاً «باید شامل یک رقم و یک حرف بزرگ باشد»)، کاری که با GANهای استاندارد امکانپذیر نیست.
2.3. آموزش و دادهها
این مدل به صورت آفلاین و بدون نظارت بر روی نشتهای بزرگمقیاس رمز عبور آموزش دیده است که با مدل تهدید حدس زدن رمز عبور آفلاین رایج در تحقیقات امنیتی همسو است.
3. نتایج تجربی و تحلیل
3.1. عملکرد حدس زدن رمز عبور
PassGPT به طور قابل توجهی از مدلهای مولد عمیق پیشرفته قبلی (مانند GANها) بهتر عمل میکند. این مدل 20٪ رمزهای عبور دیدهنشده قبلی را بیشتر حدس میزند و تعمیمپذیری قوی به مجموعه دادههای جدید رمز عبور که در طول آموزش دیده نشدهاند، نشان میدهد.
خلاصه عملکرد
افزایش 20٪ در حدس زدن رمزهای عبور دیدهنشده در مقایسه با GANهای قبلی.
2 برابر بیشتر رمز عبور حدس زده شده در مقایسه با برخی خطوط پایه.
3.2. تحلیل توزیع احتمال و آنتروپی
برخلاف GANها، PassGPT یک توزیع احتمال صریح در کل فضای رمز عبور ارائه میدهد. تحلیل نشان میدهد که PassGPT احتمالات پایینتر (شگفتی بالاتر) را به رمزهای عبوری اختصاص میدهد که توسط برآوردگرهای قدرت ثابتشده (مانند zxcvbn) «قوی» در نظر گرفته میشوند که نشاندهنده همسویی است. همچنین رمزهای عبوری را شناسایی میکند که توسط برآوردگرها قوی تلقی میشوند اما از نظر احتمالی تحت این مدل محتمل هستند و ضعفهای بالقوه را آشکار میسازند.
3.3. مقایسه با رویکردهای مبتنی بر GAN
تولید ترتیبی PassGPT مزایایی نسبت به GANها ارائه میدهد: 1) توزیعهای احتمال صریح، 2) قابلیت تولید هدایتشده، 3) عملکرد بهتر بر روی دادههای دیدهنشده. این مقاله این را به عنوان یک تغییر پارادایم از تولید خروجی منفرد به مدلسازی دنبالهای احتمالاتی و قابل کنترل برای رمزهای عبور مطرح میکند.
4. جزئیات فنی و چارچوب ریاضی
هسته PassGPT هدف مدلسازی زبان خودرگرسیو است که احتمال دادههای آموزشی را بیشینه میکند:
$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{ که در آن $N$ تعداد رمزهای عبور، $T_i$ طول رمز عبور $i$، $x_t^{(i)}$ کاراکتر $t$-ام، و $\theta$ پارامترهای مدل هستند. نمونهبرداری برای تولید از روشهایی مانند نمونهبرداری top-k یا هستهای برای متعادل کردن تنوع و کیفیت استفاده میکند. احتمال یک رمز عبور کامل $S$ برابر است با: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{ بینش اصلی: پیشرفت واقعی این مقاله صرفاً یک رمزشکن بهتر نیست؛ بلکه صوریسازی فرآیند ایجاد رمز عبور به عنوان یک مسئله تولید دنبالهای قابل کنترل است. با اعمال پیشبینی توکن بعدی—موتور محرک NLP مدرن—بر روی رمزهای عبور، PassGPT از تولید جعبهسیاه و تکمرحلهای GANها (مانند آنچه در ترجمه تصویر به سبک CycleGAN وجود دارد) فراتر رفته و به یک فرآیند شفاف و قابل هدایت تبدیل میشود. این امر امنیت را از صرف تخمین قدرت به مدلسازی فرآیند انسانی پشت انتخاب رمز عبور بازتعریف میکند. جریان منطقی: استدلال قانعکننده است: 1) مدلهای زبانی بزرگ در ثبت توزیعهای پیچیده دنیای واقعی (متن) عالی عمل میکنند. 2) رمزهای عبور یک زیرزبان محدود و تولیدشده توسط انسان هستند. 3) بنابراین، مدلهای زبانی بزرگ باید آنها را به طور مؤثر مدل کنند—کاری که انجام میدهند و از GANها پیشی میگیرند. 4) ماهیت ترتیبی مدلهای زبانی بزرگ، تولید هدایتشده را ممکن میسازد که یک کاربرد کلیدی برای رمزشکنی آگاه از خطمشی یا تست قدرت پیشگیرانه است. 5) خروجی احتمال صریح، یک متریک مستقیم و قابل تفسیر برای امنیت ارائه میدهد که شکاف بین حملات مولد و برآوردگرهای قدرت احتمالاتی را پر میکند. نقاط قوت و ضعف: قدرت آن انکارناپذیر است: عملکرد برتر و قابلیتهای نوآورانه. نمایش تولید هدایتشده یک شاهکار است که فایده عملی فوری را نشان میدهد. با این حال، تحلیل یک نقص حیاتی رایج در مقالات ML-for-security دارد: حول ماهیت دوگانه کار میچرخد. در حالی که به «تقویت برآوردگرهای قدرت» اشاره میکند، کاربرد اصلی نشاندادهشده تهاجمی (حدس زدن) است. چارچوب اخلاقی آن نازک است. علاوه بر این، اگرچه از GANها بهتر عمل میکند، اما مقایسه با ابزارهای رمزشکنی عظیم مبتنی بر قاعده مانند Hashcat با قواعد پیشرفته کمتر واضح است. عملکرد مدل همچنان توسط دادههای آموزشی آن—نشتها—محدود شده است که ممکن است نمایانگر تمام رفتارهای رمز عبور انسانی نباشد. بینشهای عملی: برای مدافعان، این یک علامت فاجعه نیست بلکه یک فراخوان به اقدام است. اول، برآوردگرهای قدرت رمز عبور باید چنین احتمالات مولد را ادغام کنند، همانطور که پیشنهاد شده است. ابزارهایی مانند zxcvbn باید بهروزرسانی شوند تا رمزهای عبور را در برابر احتمال یک مدل شبیه PassGPT بررسی کنند، نه فقط قواعد ایستا. دوم، تیمهای قرمز باید بلافاصله این روششناسی را برای حسابرسیهای داخلی اتخاذ کنند؛ تولید هدایتشده برای آزمایش انطباق با خطمشیهای خاص رمز عبور عالی است. سوم، این تحقیق نیاز به حرکت فراتر از رمزهای عبور را تأیید میکند. اگر یک مدل زبانی بزرگ بتواند آنها را به این خوبی مدل کند، آنتروپی بلندمدت در حال فروپاشی است. سرمایهگذاری در FIDO2/WebAuthn و کلیدهای عبور حتی فوریتر میشود. نتیجهگیری: با PassGPT نه به عنوان یک رمزشکن، بلکه به عنوان دقیقترین شبیهساز ضعف رمز عبور انسانی که تاکنون ساخته شده است، برخورد کنید. از آن برای اصلاح دفاعیات خود قبل از اینکه مهاجم این کار را انجام دهد، استفاده کنید. سناریو: خطمشی یک شرکت نیازمند رمزهای عبوری با حداقل یک حرف بزرگ، یک رقم و یک کاراکتر خاص است. یک رمزشکن سنتی مبتنی بر قاعده ممکن است از قواعد تغییر شکل استفاده کند. یک GAN در تولید فقط رمزهای عبور مطابق با خطمشی مشکل خواهد داشت. رویکرد تولید هدایتشده PassGPT:
کوتاهمدت (1-2 سال):
5. بینش اصلی و دیدگاه تحلیلی
6. چارچوب تحلیل: نمونه موردی
این نشان میدهد که چگونه PassGPT میتواند برای آزمایش امنیتی آگاه از خطمشی استفاده شود، با تولید محتملترین رمزهای عبور ضعیفی که همچنان از بررسی خطمشی عبور میکنند و نقاط ضعف خطمشی را شناسایی میکند.7. چشمانداز کاربردی و جهتگیریهای آینده
میانمدت (3-5 سال):
بلندمدت و مرزهای تحقیقاتی:
جهتگیری نهایی، همانطور که موفقیت مقاله اشاره میکند، جایگزینی تدریجی قواعد اکتشافی رمز عبور با مدلهای امنیتی احتمالاتی و مبتنی بر داده است.
8. مراجع
- Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
- Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
- Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
- Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
- Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
- FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.