1. مقدمه
رمزهای عبور به دلیل سادگی و انعطافپذیری، همچنان فراگیرترین روش احراز هویت کاربر باقی ماندهاند. در نتیجه، حدس زدن رمز عبور جزء حیاتی تحقیقات امنیت سایبری است که هم برای آزمایش امنیت تهاجمی (مانند تست نفوذ، بازیابی رمز عبور) و هم برای ارزیابی قدرت دفاعی ضروری است. روشهای سنتی، از فرهنگهای لغت مبتنی بر قاعده تا مدلهای آماری مانند زنجیرههای مارکوف و PCFG، محدودیتهای ذاتی در مقیاسپذیری و سازگاری دارند. ظهور یادگیری عمیق، به ویژه شبکههای عصبی خودرگرسیو، با یادگیری مستقیم توزیعهای پیچیده رمز عبور از دادهها، نوید یک تغییر پارادایم را داد. با این حال، یک گلوگاه مهم همچنان پابرجاست: روش استاندارد نمونهگیری تصادفی مورد استفاده با این مدلها بسیار ناکارآمد است، تکرارها را تولید میکند و فاقد هرگونه ترتیب بهینه است که این امر به شدت حملات عملی رمز عبور را کند میکند. این مقاله SOPG (تولید رمز عبور مرتب مبتنی بر جستجو) را معرفی میکند، روشی نوین که برای تولید رمزهای عبور از یک مدل خودرگرسیو به ترتیب تقریباً نزولی احتمال طراحی شده است و بدین ترتیب کارایی حدس زدن عصبی رمز عبور را متحول میسازد.
2. پیشینه و کارهای مرتبط
2.1 روشهای سنتی حدس رمز عبور
رویکردهای اولیه بر حملات فرهنگ لغت و قواعد دستساز تغییر شکل (مانند جان د ریپر) متکی بودند. اگرچه ساده هستند، این روشها فاقد پایه نظری هستند و اثربخشی آنها به شدت وابسته به دانش تخصصی است. گسترش نشتهای رمز عبور در مقیاس بزرگ (مانند RockYou در سال ۲۰۰۹) روشهای احتمالاتی مبتنی بر داده را ممکن ساخت. مدلهای مارکوف (مانند OMEN) و دستور زبان مستقل از متن احتمالاتی (PCFG) پیشرفتهای قابل توجهی را نشان دادند و به طور سیستماتیک ساختارها و احتمالات رمز عبور را مدل کردند. با این حال، اغلب از بیشبرازش رنج میبرند و در تولید مجموعهای متنوع و پرحجم از رمزهای عبور محتمل مشکل دارند که نرخ پوشش آنها را محدود میکند.
2.2 رویکردهای مبتنی بر شبکه عصبی
مدلهای یادگیری عمیق، از جمله شبکههای مولد تخاصمی (GANs) مانند PassGAN و رمزگذارهای خودکار واریاسیونی (VAEs) مانند VAEPass، توزیع زیربنایی مجموعهدادههای رمز عبور را یاد میگیرند. اخیراً، مدلهای خودرگرسیو، به ویژه آنهایی که مبتنی بر معماری ترنسفورمر هستند (مانند PassGPT)، با مدلسازی رمزهای عبور به عنوان دنباله و پیشبینی توکن بعدی با توجه به توکنهای قبلی، عملکرد برتری را نشان دادهاند. این مدلها وابستگیهای بلندمدت را مؤثرتر ثبت میکنند. نقص اساسی در تمامی این رویکردهای عصبی، استفاده پیشفرض از نمونهگیری تصادفی (مانند نمونهگیری هستهای، نمونهگیری top-k) برای تولید رمز عبور است که ذاتاً نامرتب و تکراری است.
3. روش SOPG
3.1 مفهوم اصلی و انگیزه
بینش اصلی SOPG این است که برای اینکه یک حمله حدس رمز عبور کارآمد باشد، فهرست رمزهای عبور تولید شده باید غیرتکراری و مرتب شده از محتملترین به کماحتمالترین باشد. نمونهگیری تصادفی در هر دو مورد شکست میخورد. SOPG با برخورد با مدل خودرگرسیو به عنوان یک راهنمای احتمالاتی برای یک الگوریتم جستجوی سیستماتیک، مشابه جستجوی پرتو اما بهینهشده برای تولید یک مجموعه کامل و مرتب از کاندیدهای منحصربهفرد به جای یک دنباله واحد بهترین، این مشکل را حل میکند.
3.2 الگوریتم جستجو و تولید مرتب
SOPG یک استراتژی جستجوی مبتنی بر صف اولویت را بر فضای احتمالی رمز عبور به کار میگیرد. این الگوریتم از یک توکن اولیه (مانند شروع دنباله) شروع میکند و به صورت تکراری رمزهای عبور جزئی را گسترش میدهد. در هر مرحله، از شبکه عصبی برای پیشبینی احتمالات کاراکتر بعدی ممکن استفاده میکند. به جای نمونهگیری تصادفی، به صورت استراتژیک شاخهها را کاوش میکند و گسترشهایی را در اولویت قرار میدهد که به رمزهای عبور کامل با بالاترین احتمال منجر میشوند. این فرآیند به طور سیستماتیک رمزهای عبور را به ترتیب تقریباً بهینه برمیشمارد و به طور مؤثری یک پیمایش هدایتشده از توزیع احتمال مدل را انجام میدهد.
3.3 معماری مدل SOPGesGPT
نویسندگان روش خود را در SOPGesGPT، یک مدل حدس رمز عبور ساخته شده بر اساس معماری GPT (ترنسفورمر از پیش آموزش دیده مولد)، نمونهسازی میکنند. این مدل بر روی نشتهای رمز عبور واقعی آموزش داده میشود تا توزیع احتمال مشترک $P(x_1, x_2, ..., x_T)$ توکنهای رمز عبور را یاد بگیرد. ماهیت خودرگرسیو GPT، جایی که $P(x_t | x_{
4. جزئیات فنی و فرمولبندی ریاضی
با توجه به یک مدل خودرگرسیو که احتمال یک رمز عبور $\mathbf{x} = (x_1, x_2, ..., x_T)$ را به صورت زیر تعریف میکند:
$$P(\mathbf{x}) = \prod_{t=1}^{T} P(x_t | x_1, ..., x_{t-1})$$
هدف SOPG تولید یک دنباله $\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, ...$ است به طوری که $P(\mathbf{x}^{(1)}) \geq P(\mathbf{x}^{(2)}) \geq ...$ و $\mathbf{x}^{(i)} \neq \mathbf{x}^{(j)}$ برای $i \neq j$.
الگوریتم را میتوان به عنوان جستجو در یک درخت تصور کرد که هر گره یک رمز عبور جزئی است. یک صف اولویت گرهها را مدیریت میکند که بر اساس یک تخمین کران بالا از احتمال هر رمز عبور کامل نزولی از آن گره رتبهبندی شدهاند. این تخمین از احتمالات شرطی مدل به دست میآید. الگوریتم به طور مکرر گره با بالاترین کران بالا را استخراج میکند، آن را با یک توکن گسترش میدهد (گرههای فرزند تولید میکند)، کرانهای بالای جدید را محاسبه میکند و آنها را دوباره در صف قرار میدهد. هنگامی که یک گره برگ (یک رمز عبور کامل) بیرون کشیده میشود، به عنوان رمز عبور بعدی در فهرست مرتب شده خروجی داده میشود. این امر یک جستجوی بهترین-اول از فضای احتمال را تضمین میکند.
5. نتایج آزمایشی و تحلیل
نرخ پوشش
۳۵.۰۶٪
عملکرد SOPGesGPT روی مجموعه آزمایشی
بهبود نسبت به PassGPT
۸۱٪
نرخ پوشش بالاتر
کارایی استنتاج
به مراتب کمتر
رمزهای عبور مورد نیاز در مقابل نمونهگیری تصادفی
5.1 مقایسه با نمونهگیری تصادفی
مقاله ابتدا مزیت بنیادی SOPG را نسبت به نمونهگیری تصادفی بر روی همان مدل GPT زیربنایی نشان میدهد. برای دستیابی به همان نرخ پوشش (درصد رمزهای عبور آزمایشی شکسته شده)، SOPG به مراتب کمتری رمز عبور تولید شده و استنتاج مدل نیاز دارد. این به این دلیل است که هر رمز عبور تولید شده توسط SOPG منحصربهفرد و با احتمال بالا است، در حالی که نمونهگیری تصادفی محاسبات را بر روی تکرارها و حدسهای کماحتمال هدر میدهد. این امر مستقیماً به زمانهای حمله سریعتر و هزینه محاسباتی کمتر ترجمه میشود.
5.2 ارزیابی در برابر پیشرفتهترین روشها
در یک آزمون تکسایتی، SOPGesGPT در برابر معیارهای اصلی مقایسه شده است: OMEN (مارکوف)، FLA، PassGAN (GAN)، VAEPass (VAE) و PassGPT معاصر (ترنسفورمر با نمونهگیری تصادفی). نتایج قاطعانه است. SOPGesGPT به نرخ پوشش ۳۵.۰۶٪ دست مییابد که از PassGPT ۸۱٪، از VAEPass ۳۸۰٪، از PassGAN ۴۲۱٪، از FLA ۲۹۸٪ و از OMEN ۲۵۴٪ پیشی میگیرد. این یک استاندارد جدید پیشرفته را ایجاد میکند و برجسته میسازد که روش تولید (SOPG) به اندازه معماری مدل حیاتی است.
5.3 معیارهای کلیدی عملکرد
نرخ مؤثر: نسبت رمزهای عبور تولید شده که واقعی هستند (با یک رمز عبور در مجموعه آزمایشی مطابقت دارند). SOPGesGPT در این معیار نیز پیشتاز است که نشان میدهد نه تنها بیشتر، بلکه حدسهای با کیفیت بهتر تولید میکند.
کارایی تولید: با تعداد فراخوانی/استنتاجهای مدل مورد نیاز برای شکستن درصد معینی از رمزهای عبور اندازهگیری میشود. رویکرد مرتب SOPG یک منحنی کارایی شیبدار ارائه میدهد و بسیاری از رمزهای عبور را با استنتاجهای بسیار کم میشکند.
توضیح نمودار: یک نمودار فرضی دو خط را نشان میدهد: یکی برای "پوشش نمونهگیری تصادفی در مقابل تعداد رمزهای عبور تولید شده" که به آرامی و مجانبی افزایش مییابد، با دنبالهای طولانی از تکرارها. خط "پوشش SOPG در مقابل تعداد رمزهای عبور تولید شده" در ابتدا به شدت و تقریباً خطی افزایش مییابد و بعداً به حالت فلات میرسد که ترتیب حدس زدن تقریباً بهینه را نشان میدهد.
6. چارچوب تحلیل و مثال موردی
چارچوب: ربع کارایی حدس رمز عبور. ما میتوانیم هر سیستم حدس رمز عبور را در امتداد دو محور تحلیل کنیم: (1) کیفیت مدل (توانایی یادگیری توزیع واقعی رمز عبور)، و (2) بهینگی تولید (توانایی خروجی دادن حدسها به ترتیب نزولی احتمال بدون اتلاف).
- ربع اول (مدل ضعیف، بهینگی ضعیف): حملات سنتی مبتنی بر قاعده.
- ربع دوم (مدل قوی، بهینگی ضعیف): PassGPT، PassGAN – مدلهای قدرتمندی که توسط نمونهگیری تصادفی محدود شدهاند.
- ربع سوم (مدل ضعیف، بهینگی قوی): مارکوف/PCFG مرتب – مدلهای محدود اما با تولید کارآمد.
- ربع چهارم (مدل قوی، بهینگی قوی): SOPGesGPT – حالت هدف، ترکیب یک مدل عصبی با ظرفیت بالا با الگوریتم تولید بهینه SOPG.
مثال موردی (بدون کد): مدلی را در نظر بگیرید که میداند رمز عبور "password123" احتمال $10^{-3}$ و "xq7!kLp2" احتمال $10^{-9}$ را دارد. یک نمونهبردار تصادفی ممکن است میلیونها حدس بزند تا به "password123" برسد. SOPG با استفاده از جستجوی خود، "password123" را به عنوان یکی از اولین حدسهای خود شناسایی و خروجی میدهد و بلافاصله به پوشش کمک میکند. این هدفگیری مرتب منبع افزایش چشمگیر کارایی آن است.
7. چشمانداز کاربرد و جهتهای آینده
بررسیکنندههای پیشگیرانه قدرت رمز عبور: SOPG میتواند نسل بعدی سنجهای قدرت رمز عبور بلادرنگ را تقویت کند که نه تنها بر اساس فرهنگهای لغت بررسی نمیکنند، بلکه یک حمله پیشرفته و کارآمد را شبیهسازی میکنند و ارزیابی ریسک واقعبینانهتری به کاربران میدهند.
آزمایش قانونی و بازیابی مجاز: تسریع بازیابی رمز عبور برای تحقیقات مجاز روی دستگاههای توقیف شده.
آموزش تخاصمی برای سیستمهای احراز هویت: استفاده از فهرستهای تولید شده توسط SOPG برای آزمایش استرس و مقاومسازی سیستمهای احراز هویت در برابر حملات هوشمند.
جهتهای تحقیقاتی آینده:
- مدلهای ترکیبی: ترکیب تولید مرتب SOPG با سایر معماریهای مولد (مانند مدلهای انتشار) برای رمزهای عبور.
- SOPG تطبیقی/برخط: تغییر جستجو در زمان واقعی بر اساس بازخورد از سیستم هدف (مانند پاسخهای محدودکننده نرخ).
- فراتر از رمزهای عبور: اعمال پارادایم تولید مرتب به سایر حوزههای امنیتی مانند تولید URLهای فیشینگ محتمل یا انواع بدافزار.
- اقدامات متقابل دفاعی: تحقیق در مورد شناسایی و کاهش حملاتی که از استراتژیهای تولید مرتب استفاده میکنند.
8. مراجع
- J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
- M. Weir, S. Aggarwal, B. de Medeiros, and B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
- A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, "Improving Language Understanding by Generative Pre-Training," OpenAI, 2018. (مقاله پایهای GPT)
- B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," International Conference on Applied Cryptography and Network Security (ACNS), 2019.
- D. Pasquini, G. Ateniese, and M. Bernaschi, "Unleashing the Tiger: Inference Attacks on Split Learning," ACM SIGSAC Conference on Computer and Communications Security (CCS), 2021. (شامل بحثی در مورد استنتاج رمز عبور).
- M. J. H. Almeida,
I. M. de Sousa, and N. Neves, "Using Deep Learning for Password Guessing: A Systematic Review," Computers & Security, 2023.
9. تحلیل اصلی و تفسیر کارشناسی
بینش اصلی
دستاورد مقاله یک معماری عصبی جدید نیست، بلکه یک بازتعریف اساسی از مسئله است. برای سالها، جامعه حدس رمز عبور، با انعکاس روندهای حوزه پردازش زبان طبیعی، وسواس داشته است که برآوردگرهای چگالی بزرگتر و بهتر (قسمت GPT) بسازد. SOPG به درستی شناسایی میکند که برای وظیفه پاییندستی شکستن رمز، استراتژی رمزگشایی از اهمیت بالایی برخوردار است. این تفاوت بین داشتن یک نقشه کامل از میدان مین (مدل) و دانستن چگونگی عبور از آن بدون هدر دادن یک قدم (SOPG) است. این امر اولویت تحقیقاتی را از ظرفیت صرف مدل به الگوریتمهای استنتاج کارآمد بر روی این مدلها تغییر میدهد—درسی که سایر حوزههای هوش مصنوعی مولد زودتر آموختند (مانند جستجوی پرتو در ترجمه ماشینی).
جریان منطقی
استدلال قانعکننده است: ۱) کارایی حمله رمز عبور توسط منحنی نرخ برخورد در مقابل تعداد حدس تعریف میشود. ۲) مدلهای خودرگرسیو احتمالات هر توکن را میدهند. ۳) نمونهگیری تصادفی از این توزیع برای ایجاد یک فهرست حدس مرتب بسیار زیربهینه است. ۴) بنابراین، ما به یک الگوریتم جستجو نیاز داریم که از مدل به عنوان یک اوراکل استفاده کند تا به صراحت محتملترین دنبالهها را ابتدا بسازد. جهش از تشخیص مسئله (۳) به مهندسی راهحل (۴) جایی است که نوآوری نهفته است. ارتباط با الگوریتمهای جستجوی کلاسیک علوم کامپیوتر (A*، پرتو) واضح است، اما تطبیق آن با فضای خروجی وسیع و ساختاریافته رمزهای عبور پیشپاافتاده نیست.
نقاط قوت و ضعف
نقاط قوت: نتایج تجربی حیرتآور است و جای کمی برای تردید در مورد برتری SOPG در ارزیابی استاندارد آفلاین تکسایتی باقی میگذارد. استدلال کارایی از نظر تئوری محکم و از نظر عملی تأیید شده است. این یک روش کلی است که برای هر مدل خودرگرسیو، نه فقط پیادهسازی GPT آنها، قابل اعمال است.
نقاط ضعف و سوالات: ارزیابی، اگرچه چشمگیر است، هنوز در یک محیط آزمایشگاهی است. حملات دنیای واقعی با دفاعهای تطبیقی (محدود کردن نرخ، قفلکردن حسابها، رمزهای عبور طعمه) مواجه هستند و مقاله مقاومت SOPG را در این سناریوها آزمایش نمیکند. سربار محاسباتی خود الگوریتم جستجو به ازای هر رمز عبور تولید شده احتمالاً بالاتر از یک نمونه تصادفی واحد است، اگرچه سود خالص کارایی کلی مثبت است. همچنین فیل بزرگی در اتاق وجود دارد: در حالی که نویسندگان آن را برای استفاده دفاعی قرار میدهند، این ابزار به طور قابل توجهی مانع را برای حملات با کارایی بالا کاهش میدهد. این حوزه باید با ماهیت دوگانه چنین پیشرفتهایی دست و پنجه نرم کند، مشابه بحثها حول مدلهای هوش مصنوعی مولد مانند CycleGAN یا مدلهای زبانی بزرگ.
بینشهای قابل اجرا
برای متخصصان امنیت: این مقاله یک زنگ بیدارباش است. سیاستهای رمز عبور باید فراتر از مسدود کردن کلمات ساده فرهنگ لغت تکامل یابند. مدافعان باید شروع به آزمایش استرس سیستمهای خود در برابر حملات مرتب مشابه SOPG کنند که اکنون معیار جدید هستند. ابزارهایی مانند Have I Been Pwned یا zxcvbn نیاز دارند که این تکنیکهای تولید پیشرفته را برای تخمین قدرت واقعبینانهتر ادغام کنند.
برای محققان: چوبدستی منتقل شده است. مرز بعدی دیگر فقط مدل نیست، بلکه تولید تطبیقی و کارآمد از نظر پرس و جو است. آیا میتوانیم مدلهایی بسازیم که از بازخورد حمله جزئی یاد بگیرند؟ آیا میتوانیم مدلهای دفاعی توسعه دهیم که تولید مرتب را شناسایی و گیج کنند؟ علاوه بر این، همانطور که توسط مؤسساتی مانند NIST در دستورالعملهای هویت دیجیتال آنها اشاره شده است، راهحل بلندمدت در حرکت فراتر از رمزهای عبور نهفته است. این تحقیق همزمان اوج شکستن رمز عبور را برجسته میکند و محدودیتهای ذاتی آن را تأکید میکند و ما را به سمت احراز هویت بدون رمز عبور سوق میدهد. SOPG هم یک حرکت استادانه پایانی برای حدس رمز عبور است و هم یک استدلال قدرتمند برای بازنشستگی آن.