1. مقدمه
علیرغم پیشرفتها در فناوریهای احراز هویت، رمزهای عبور به دلیل سادگی و قابلیت استقرار، همچنان مکانیسم غالب هستند. نشت رمزهای عبور تهدیدهای امنیتی قابل توجهی ایجاد میکند که هم امکان دسترسی غیرمجاز و هم بهبود ابزارهای شکستن رمز را فراهم میآورد. این مقاله کاربرد مدلهای زبانی بزرگ (LLM) در مدلسازی رمز عبور را بررسی کرده و PassGPT را معرفی میکند — مدلی که بر روی نشت رمزهای عبور برای تولید و تخمین استحکام آموزش دیده است.
این پژوهش نشان میدهد که PassGPT از روشهای مبتنی بر شبکه مولد تخاصمی (GAN) موجود عملکرد بهتری دارد و 20٪ رمزهای عبور دیدهنشده قبلی را بیشتر حدس میزند و همچنین تولید هدایتشده رمز عبور را معرفی میکند — قابلیتی نوآورانه برای تولید رمزهای عبور تحت محدودیتهای دلخواه.
2. روششناسی و معماری
PassGPT بر اساس معماری GPT-2 ساخته شده و برای تولید ترتیبی کاراکترهای رمز عبور تطبیق یافته است. این رویکرد در تضاد با GANهاست که رمزهای عبور را به عنوان واحدهای کامل تولید میکنند.
2.1. طراحی مدل PassGPT
این مدل یک ترنسفورمر خودرگرسیو است که بر روی نشتهای رمز عبور در مقیاس بزرگ آموزش دیده است. این مدل توزیع احتمال $P(x_t | x_{
2.2. تولید هدایتشده رمز عبور
یک نوآوری کلیدی، تولید هدایتشده در سطح کاراکتر است. با دستکاری روش نمونهبرداری (مثلاً با استفاده از احتمالات شرطی یا ماسک کردن)، PassGPT میتواند رمزهای عبوری تولید کند که محدودیتهای خاصی را برآورده میکنند، مانند حاوی نمادهای خاص، رعایت الزامات طول، یا شامل زیررشتههای خاص — دستاوردی که با GANهای استاندارد قابل دستیابی نیست.
2.3. بهبود PassVQT
PassVQT تکنیکهای ترنسفورمر کوانتیزه برداری (VQT) را دربرمیگیرد و از یک کتاب کد گسسته برای نمایش جاسازیهای نهفته استفاده میکند. این میتواند پیچیدگی و تنوع رمزهای عبور تولید شده را افزایش دهد، اگرچه ممکن است با هزینه محاسباتی همراه باشد.
3. نتایج آزمایشی
3.1. عملکرد حدس زدن رمز عبور
آزمایشها بر روی نشتهای رمز عبور دنیای واقعی (مانند RockYou) نشان میدهد که PassGPT به طور قابل توجهی از مدلهای مولد عمیق پیشرفته قبلی مانند PassGAN عملکرد بهتری دارد. در یک آزمایش، PassGPT دو برابر رمزهای عبور منحصربهفرد و قبلاً دیدهنشده را بیشتر حدس زد در مقایسه با رویکردهای مبتنی بر GAN. همچنین تعمیمپذیری قوی به مجموعه دادههای جدید و نگهداشتهشده را نشان داد.
مقایسه عملکرد
PassGPT در مقابل GANها: نرخ موفقیت 20٪ بالاتر در حدس زدن رمزهای عبور دیدهنشده.
تعمیمپذیری: عملکرد مؤثر بر روی نشتهای رمز عبور جدید که در طول آموزش دیده نشده بودند.
3.2. تحلیل توزیع احتمال
برخلاف GANها، PassGPT یک توزیع احتمال صریح روی رمزهای عبور ارائه میدهد. تحلیل نشان میدهد که همبستگی قویای بین احتمال کم رمز عبور (لگاریتم درستنمایی منفی بالا) و استحکام بالا، همانطور که توسط تخمینزنهایی مانند zxcvbn اندازهگیری میشود، وجود دارد. با این حال، PassGPT مواردی را شناسایی کرد که رمزهای عبوری که توسط تخمینزنهای متعارف «قوی» تلقی میشدند، تحت مدل آن احتمال نسبتاً بالایی داشتند که نشاندهنده آسیبپذیریهای بالقوه است.
پیام نمودار: یک نمودار پراکندگی فرضی، احتمال رمز عبور (PassGPT) را روی محور x و نمره استحکام (zxcvbn) را روی محور y نشان میدهد و روند کلی منفی را با نقاط پرت قابل توجهی آشکار میکند که در آن رمزهای عبور با استحکام بالا احتمال غیرمنتظرهای دارند.
4. تحلیل فنی و چارچوب
منظر تحلیلگر صنعت: ارزیابی انتقادی از رویکرد PassGPT، پیامدهای آن و نکات عملی قابل برداشت.
4.1. بینش اصلی
دستاورد بنیادی مقاله صرفاً یک مدل هوش مصنوعی دیگر برای رمزهای عبور نیست؛ بلکه یک تغییر پارادایم از تطبیق الگوی تمایزی به مدلسازی دنبالهای مولد است. در حالی که ابزارهایی مانند Hashcat بر قوانین و زنجیرههای مارکوف تکیه دارند و GANهایی مانند PassGAN خروجیهای کلی تولید میکنند، PassGPT ایجاد رمز عبور را به عنوان یک عمل زبانی در نظر میگیرد. این آینهای است از نحوهای که مدلهای زبانی بزرگ مانند GPT-3 «دستور زبان» و «معناشناسی» زبان طبیعی را ضبط میکنند، اما در اینجا به «زبان» ایجاد رمز عبور انسانی اعمال شده است. ارزش واقعی پیشنهادی، توزیع احتمال صریح و قابل ردیابی است که ارائه میدهد — ویژگیای که به وضوح در GANها غایب است و اغلب به عنوان «جعبههای سیاه» مورد انتقاد قرار میگیرند (Goodfellow و همکاران، 2014). این امر امنیت رمز عبور را از حدسزنی اکتشافی به استدلال احتمالاتی منتقل میکند.
4.2. جریان منطقی
استدلال با منطق قانعکنندهای پیش میرود: (1) مدلهای زبانی بزرگ با مدلسازی دنبالهها بر پردازش زبان طبیعی تسلط دارند؛ (2) رمزهای عبور دنبالههایی از کاراکترها با ساختار نهفته هستند؛ (3) بنابراین، مدلهای زبانی بزرگ باید به طور مؤثر رمزهای عبور را مدل کنند. اعتبارسنجی قوی است: عملکرد برتر حدس زدن، فرضیه را اثبات میکند. معرفی تولید هدایتشده، یک گسترش طبیعی از معماری ترتیبی است — مشابه تولید متن کنترلشده در مدلهایی مانند CTRL (Keskar و همکاران، 2019). تحلیل توزیع احتمال، گام حیاتی بعدی است که مدلسازی مولد را به حوزه عملی تخمین استحکام پیوند میزند. جریان از مدلسازی -> تولید -> تحلیل -> کاربرد منسجم و تأثیرگذار است.
4.3. نقاط قوت و ضعف
نقاط قوت: دستاوردهای عملکردی انکارناپذیر هستند. قابلیت تولید هدایتشده یک نوآوری واقعی با کاربردهای فوری برای تست نفوذ (تولید نامزدهای رمز عبور منطبق با قوانین) و احتمالاً برای کمک به کاربران در ایجاد رمزهای عبور به یاد ماندنی اما پیچیده است. ارائه یک توزیع احتمال یک مزیت نظری و عملی عمده است که امکان محاسبه آنتروپی و ادغام با چارچوبهای امنیتی موجود را فراهم میکند.
نقاط ضعف و نگرانیها: مقاله از مسائل مهمی به سرعت عبور میکند. اول، استفاده دوگانه اخلاقی: این یک ابزار قدرتمند شکستن رمز است. در حالی که برای پژوهش «حدس زدن آفلاین» قرار داده شده است، پتانسیل سوء استفاده آن بالا است و انتشار کد/مدلها نیازمند دستورالعملهای اخلاقی سختگیرانه است، مشابه بحثهای پیرامون سایر پژوهشهای هوش مصنوعی با استفاده دوگانه (Brundage و همکاران، 2018). دوم، وابستگی به داده: مانند همه مدلهای یادگیری ماشین، PassGPT فقط به اندازه دادههای آموزشی خود خوب است. ممکن است در مدلسازی رمزهای عبور از فرهنگها یا زبانهایی که در نشتهای رایج کمتر نمایندگی شدهاند، شکست بخورد. سوم، هزینه محاسباتی: آموزش و اجرای ترنسفورمرهای بزرگ در مقایسه با برخی روشهای قدیمیتر، پرمصرف است و ممکن است کاربرد بلادرنگ را محدود کند. افزایش «پیچیدگی» گونه PassVQT ذکر شده اما به طور کامل ارزیابی نشده است — آیا تنوع بالاتر به حدس زدن مؤثرتر ترجمه میشود، یا فقط رشتههای بیمعنی بیشتر؟
4.4. بینشهای عملی
برای تیمهای امنیتی: فوراً ارزیابی کنید که چگونه سیاستهای رمز عبور سازمان شما ممکن است در برابر این نسل جدید از حملات مبتنی بر هوش مصنوعی آسیبپذیر باشد. سیاستهایی که الگوهای پیچیده اما قابل پیشبینی را اجباری میکنند (مثلاً "CompanyName2024!") اکنون بیشتر در معرض خطر هستند. برای تغییر به سمت استفاده از تصادفی بودن واقعی (مدیران رمز عبور) یا عبارتهای عبور، طرفداری کنید.
برای پژوهشگران و فروشندگان: تخمینهای احتمالاتی مبتنی بر مدل زبانی بزرگ را در سنجههای استحکام ادغام کنید. یک تخمینزن ترکیبی که قوانین سنتی (zxcvbn) را با احتمال PassGPT ترکیب میکند، میتواند قویتر باشد. مدلهای دفاعی را توسعه دهید که بتوانند رمزهای عبوری را که احتمالاً توسط PassGPT تولید شدهاند، تشخیص دهند و یک مسابقه تسلیحاتی هوش مصنوعی در مقابل هوش مصنوعی در امنیت رمز عبور ایجاد کنند.
برای سیاستگذاران: پژوهش در مورد کاربردهای دفاعی این فناوری را تأمین مالی کنید و چارچوبهای اخلاقی روشنی برای انتشار ابزارهای قدرتمند تهاجمی هوش مصنوعی در امنیت سایبری ایجاد کنید.
مثال چارچوب (غیر کد): سیاست رمز عبور یک مؤسسه مالی را در نظر بگیرید: "12 کاراکتر، 1 حرف بزرگ، 1 حرف کوچک، 1 عدد، 1 کاراکتر خاص." یک ابزار شکستن سنتی ممکن است از روش brute-force یا قوانین تغییر شکل استفاده کند. یک GAN ممکن است در تولید خروجیهایی که به طور دقیق تمام محدودیتها را برآورده میکنند، مشکل داشته باشد. تولید هدایتشده PassGPT را میتوان هدایت کرد تا فقط دنبالههایی را نمونهبرداری کند که این سیاست دقیق را برآورده میکنند و به طور کارآمد زیرفضای با احتمال بالای آن فضای جستجوی محدود را کاوش کند و آن را به ابزاری قدرتمند هم برای تیمهای قرمز که این سیاست را آزمایش میکنند و هم برای مهاجمان جعبه سیاه تبدیل کند.
5. کاربردها و جهتهای آینده
- تخمین استحکام پیشرفته: ادغام نمرات احتمال PassGPT در سنجههای استحکام رمز عبور بلادرنگ برای وبسایتها و برنامهها.
- حسابرسی پیشگیرانه رمز عبور: سازمانها میتوانند از مدلهای PassGPT هدایتشده برای تولید و آزمایش پیشگیرانه رمزهای عبوری که با سیاستهای داخلی مطابقت دارند، استفاده کنند و نقاط ضعف را قبل از مهاجمان شناسایی کنند.
- مدلهای دفاعی ترکیبی: توسعه مدلهای تمایزی که بتوانند بین رمزهای عبور انتخابشده توسط انسان و تولیدشده توسط مدل زبانی بزرگ تمایز قائل شوند تا اعتبارنامههای بالقوه به خطر افتاده یا ضعیف را علامتگذاری کنند.
- مدلسازی دنبالهای بینحوزهای: اعمال همان معماری به سایر دنبالههای مرتبط با امنیت، مانند اثرانگشتهای پروتکل شبکه، دنبالههای فراخوانی API بدافزار، یا الگوهای تراکنش کلاهبرداری.
- آموزش فدرال و حفظ حریم خصوصی: کاوش تکنیکهایی برای آموزش چنین مدلهایی بر روی دادههای رمز عبور توزیعشده و ناشناس بدون متمرکز کردن نشتهای حساس.
- تولید رمز عبور متخاصم: استفاده از تولید هدایتشده برای ایجاد «نمونههای متخاصم» — رمزهای عبوری که برای تخمینزنها قوی به نظر میرسند اما به راحتی توسط مدل حدس زده میشوند — تا آن تخمینزنها را تحت آزمایش استرس قرار داده و بهبود بخشند.
6. منابع
- Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
- Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
- Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
- Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
- Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.