PESrank: تخمین آنلاین حدس‌پذیری رمز عبور از طریق تخمین رتبه چندبعدی

1. مقدمه

این مقاله PESrank را معرفی می‌کند، یک برآوردگر نوین قدرت رمز عبور که با محاسبه رتبه یک رمز عبور در یک ترتیب احتمال بهینه، رفتار یک کرکر قدرتمند رمز عبور را به دقت مدل‌سازی می‌کند. این روش به نیاز حیاتی برای بازخورد سریع، دقیق و قابل توضیح قدرت رمز عبور در سیستم‌های آنلاین می‌پردازد.

1.1. پیشینه

علیرغم آسیب‌پذیری‌هایشان، رمزهای عبور متنی همچنان روش اصلی احراز هویت هستند. برآوردگرهای اکتشافی رایج قدرت (مانند قوانین LUDS) نادقیق هستند. برآوردگرهای مبتنی بر کرکر که از مدل‌های مارکوف، PCFG یا شبکه‌های عصبی استفاده می‌کنند، دقت بهتری ارائه می‌دهند اما اغلب از زمان‌های طولانی آموزش یا فقدان عملکرد بلادرنگ و قابلیت توضیح رنج می‌برند.

1.2. دستاوردها

دستاوردهای کلیدی PESrank عبارتند از: کاربرد نوین چارچوب تخمین رتبه تحلیل رمزنگاری کانال جانبی برای رمزهای عبور، امکان تخمین رتبه در کمتر از یک ثانیه بدون شمارش، زمان‌های آموزش به شدت کوتاه‌تر، شخصی‌سازی کارآمد مدل بدون نیاز به آموزش مجدد، و قابلیت توضیح ذاتی برای بازخورد کاربر.

2. روش‌شناسی PESrank

PESrank مسئله برآورد قدرت رمز عبور را به‌عنوان یک مسئله تخمین رتبه چندبعدی بازتعریف می‌کند و از تکنیک‌های تحلیل حمله کانال جانبی مورد استفاده در رمزنگاری الهام می‌گیرد.

2.1. نمایش چندبعدی رمز عبور

یک رمز عبور به یک نقطه در فضای جستجوی d-بعدی تجزیه می‌شود. ابعاد نشان‌دهنده ویژگی‌های مستقل مانند کلمه پایه (مثلاً "password")، الگوهای بزرگ‌نویسی (مثلاً "Password")، افزودن پسوند (مثلاً "password123") یا تبدیل‌های لیت‌اسپیک (مثلاً "p@ssw0rd") هستند. توزیع احتمال برای هر بعد به طور جداگانه از مجموعه داده‌های رمز عبور یاد گرفته می‌شود.

2.2. چارچوب تخمین رتبه

به جای شمارش تمام رمزهای عبور ممکن، PESrank رتبه یک ترکیب رمز عبور خاص را با محاسبه تعداد ترکیب‌های رمز عبوری که محتمل‌تر هستند (یعنی احتمال مشترک بالاتری دارند) نسبت به رمز عبور داده‌شده تخمین می‌زند. این مشابه تخمین رتبه یک کلید رمزنگاری در یک حمله کانال جانبی است.

3. پیاده‌سازی فنی و مدل ریاضی

3.1. الگوریتم و فرمول اصلی

هسته PESrank شامل محاسبه احتمال مشترک یک رمز عبور نمایش‌داده‌شده توسط یک بردار از مقادیر بعدی $\vec{x} = (x_1, x_2, ..., x_d)$ است. با فرض استقلال ابعاد (یک ساده‌سازی برای کارایی)، احتمال به این صورت است: $$P(\vec{x}) = \prod_{i=1}^{d} P_i(x_i)$$ که در آن $P_i(x_i)$ احتمال مقدار $x_i$ در بعد $i$ است که از داده‌های آموزشی یاد گرفته شده است. رتبه $R(\vec{x})$ با جمع‌زدن احتمالات تمام بردارهای $\vec{y}$ که در آن $P(\vec{y}) > P(\vec{x})$ تخمین زده می‌شود. الگوریتم‌های کارآمد از ادبیات کانال جانبی، مانند رویکرد کران‌گذاری، برای محاسبه کران‌های بالا و پایین تنگ برای این جمع بدون شمارش کامل استفاده می‌شوند.

3.2. قابلیت توضیح و شخصی‌سازی

مدل چندبعدی ذاتاً قابل توضیح است. سیستم می‌تواند گزارش دهد که کدام ابعاد (مثلاً "یک کلمه پایه بسیار رایج" یا "یک پسوند قابل پیش‌بینی مانند '123'") بیشترین سهم را در رتبه پایین (حدس‌پذیری بالا) یک رمز عبور دارند. شخصی‌سازی (مثلاً گنجاندن نام کاربر یا سال تولد به عنوان یک کلمه پایه ممنوع) می‌تواند با تنظیم پویا احتمال $P_i(x_i)$ برای ابعاد مرتبط به نزدیک صفر، به‌دست آید که بلافاصله بر محاسبات رتبه بدون نیاز به آموزش مجدد مدل تأثیر می‌گذارد.

4. نتایج آزمایشی و عملکرد

4.1. معیارهای دقت و سرعت

پیاده‌سازی پایتون به طور گسترده ارزیابی شد. نتایج کلیدی عبارتند از:

سرعت: زمان پاسخ زیر یک ثانیه برای تخمین رتبه، حتی با مدلی که روی 905 میلیون رمز عبور آموزش دیده است.
دقت: کران‌های رتبه تخمین‌زده‌شده به طور مداوم در ضریب 2 (حاشیه 1 بیتی) از رتبه واقعی بودند که دقت بالا را نشان می‌دهد.
زمان آموزش: به شدت کوتاه‌تر از مدل‌های شبکه عصبی یا PCFG پیچیده، که نیازمند محاسباتی با مرتبه‌ای کمتر است.

این معیارها قابلیت عملی برای استقرار آنلاین را برجسته می‌کنند.

4.2. استقرار در دنیای واقعی

PESrank در صفحه ثبت‌نام یک دوره دانشگاهی ادغام شد. این سیستم بازخورد بلادرنگ و قابل توضیحی به کاربران در حال ایجاد رمز عبور ارائه داد و قابلیت استفاده و عملکرد آن را تحت شرایط بار واقعی نشان داد. این بازخورد به دور کردن کاربران از الگوهای رمز عبور ضعیف و قابل پیش‌بینی کمک کرد.

5. چارچوب تحلیلی و نمونه موردی

دیدگاه تحلیلگر: بینش اصلی، جریان منطقی، نقاط قوت و ضعف، بینش‌های عملی

بینش اصلی: PESrank فقط یک بهبود تدریجی دیگر در سنجنده‌های رمز عبور نیست؛ بلکه یک تغییر پارادایم اساسی است. این روش با موفقیت چارچوب کمی و دقیق تخمین رتبه کانال جانبی — یک عنصر اصلی در ارزیابی سخت‌افزار رمزنگاری با ریسک بالا — را به دنیای آشفته رمزهای عبور انتخاب‌شده توسط انسان پیوند می‌زند. این حرکت از حدس‌زنی اکتشافی به تحلیل رمزنگاری احتمالاتی یک حرکت استادانه است. این روش، کرک کردن رمز عبور را نه به عنوان یک مسئله زبانی یا تطبیق الگو، بلکه به عنوان یک مسئله جستجو در یک فضای احتمال ساختاریافته در نظر می‌گیرد که کاملاً با نحوه عملکرد کرکرهای مدرن مانند Hashcat و John the Ripper با قوانین تغییر شکل و زنجیره‌های مارکوف همسو است.

جریان منطقی: منطق آن به زیبایی تقلیل‌گرایانه است. 1) تجزیه رمزهای عبور به ویژگی‌های متعامد مرتبط با کرکر (کلمات پایه، تبدیل‌ها). 2) یادگیری یک مدل احتمال ساده برای هر ویژگی از داده‌های نشت. 3) بازسازی حدس‌پذیری یک رمز عبور با محاسبه اینکه چند ترکیب محتمل‌تر وجود دارد. این کار نیاز به مدل‌های یکپارچه و کدر شبکه‌های عصبی (مانند آن‌ها در [30, 37]) یا مجموعه قوانین گاهی دست‌وپاگیر PCFGها [41] را دور می‌زند. فرض استقلال بین ابعاد، جهش ساده‌ساز کلیدی آن است که مقداری از وفاداری مدل‌سازی را در ازای دستاوردهای عظیم در سرعت و قابلیت توضیح معامله می‌کند — یک مبادله که در عمل بسیار مطلوب به نظر می‌رسد.

نقاط قوت و ضعف: نقاط قوت آن چشمگیر هستند: سرعت بسیار بالا و قابلیت توضیح ذاتی ویژگی‌های برتر برای پذیرش در دنیای واقعی هستند که دو نقطه درد بزرگ مدل‌های آکادمیک را مورد توجه قرار می‌دهند. ترفند شخصی‌سازی هوشمندانه و عملی است. با این حال، یک نقص حیاتی در فرض استقلال نهفته است. اگرچه کارآمد است، اما همبستگی‌ها را نادیده می‌گیرد (مثلاً برخی الگوهای بزرگ‌نویسی با برخی کلمات پایه محتمل‌تر هستند). این می‌تواند منجر به نادرستی رتبه برای رمزهای عبور پیچیده و همبسته شود. علاوه بر این، دقت آن ذاتاً به کیفیت و گستردگی داده‌های آموزشی برای هر بعد گره خورده است، وابستگی‌ای که با تمام مدل‌های داده‌محور مشترک است. ممکن است با استراتژی‌های واقعاً نوآورانه ایجاد رمز عبور که در نشت‌های گذشته دیده نشده‌اند، دست‌وپنجه نرم کند.

بینش‌های عملی: برای تیم‌های امنیتی، پیام روشن است: سنجنده‌های LUDS را کنار بگذارید. PESrank نشان می‌دهد که بازخورد دقیق مطابق با کرکر و بلادرنگ اکنون از نظر عملیاتی امکان‌پذیر است. مسیر ادغام نشان‌داده‌شده — تعبیه آن در یک پورتال ثبت‌نام — یک نقشه راه است. برای پژوهشگران، آینده در مدل‌های ترکیبی نهفته است. چارچوب کارآمد و قابل توضیح PESrank را با یک مؤلفه عصبی سبک برای مدل‌سازی همبستگی‌های بین‌بعدی ترکیب کنید، مشابه نحوه‌ای که مدل‌های بینایی مانند CycleGAN از مولدهای جداگانه برای تبدیل‌های حوزه مختلف استفاده می‌کنند در حالی که یک ساختار منسجم را حفظ می‌کنند. مرز بعدی، شخصی‌سازی سازگار است که از پیشنهادهای رمز عبور *ردشده* کاربر یاد می‌گیرد تا مدل خود را در زمان واقعی اصلاح کند و فراتر از فهرست‌های مسدودسازی ایستا حرکت کند.

6. کاربردهای آینده و جهت‌های پژوهشی

شکار تهدید پیش‌گیرانه: فراتر از سنجنده‌های رو به کاربر، الگوریتم اصلی PESrank می‌تواند پایگاه‌های داده رمز عبور موجود را (با هش مناسب) اسکن کند تا به طور پیش‌گیرانه حساب‌های دارای رمزهای عبور بسیار حدس‌پذیر را شناسایی و علامت‌گذاری کند و امکان بازنشانی اجباری را فراهم آورد.
موتورهای شخصی‌سازی پیشرفته: سیستم‌های آینده می‌توانند با دایرکتوری‌های سازمانی (مانند LDAP) ادغام شوند تا به طور خودکار مدل را با نام کارمندان، نام‌های رمز پروژه و اصطلاحات داخلی شخصی‌سازی کنند و یک مدل تهدید پویا و خاص سازمان ایجاد کنند.
معیارسنجی و استانداردسازی: رویکرد تخمین رتبه یک معیار کمی و دقیق ارائه می‌دهد. این می‌تواند مبنایی برای استانداردهای معیارسنجی صنعت‌گستره قدرت رمز عبور باشد و فراتر از برچسب‌های مبهم "قوی" یا "ضعیف" حرکت کند.
اعتبارسنجی متقابل مدل: PESrank می‌تواند به عنوان یک فیلتر "اولیه" سریع و قابل توضیح استفاده شود، که رمزهای عبور مشکوک برای تحلیل عمیق‌تر توسط مدل‌های با محاسبات فشرده‌تر (مانند RNN) علامت‌گذاری شوند و یک دفاع لایه‌ای ایجاد کنند.
پژوهش در مورد وابستگی متقابل ابعاد: مسیر پژوهشی اصلی، سست کردن فرض استقلال است. کاوش مدل‌های همبستگی سبک‌وزن (مانند شبکه‌های بیزی روی ابعاد) می‌تواند دقت را برای رمزهای عبور پیچیده بهبود بخشد بدون اینکه مزیت سرعت اصلی را فدا کند.

7. منابع

L. David and A. Wool, "Online Password Guessability via Multi-Dimensional Rank Estimation," arXiv preprint arXiv:1912.02551v2, 2020.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
M. Weir, S. Aggarwal, B. de Medeiros, and B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
W. Melicher, B. Ur, S. M. Segreti, S. Komanduri, L. Bauer, N. Christin, and L. F. Cranor, "Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks," USENIX Security Symposium, 2016.
D. Wang, H. Cheng, P. Wang, X. Huang, and G. Jian, "A Security Analysis of Honeywords," NDSS, 2018. (نمونه‌ای از تحلیل دقیق مرتبط با رمز عبور)
P. G. Kelley, S. Komanduri, M. L. Mazurek, R. Shay, T. Vidas, L. Bauer, N. Christin, L. F. Cranor, and J. Lopez, "Guess Again (and Again and Again): Measuring Password Strength by Simulating Password-Cracking Algorithms," IEEE Symposium on Security and Privacy, 2012.
National Institute of Standards and Technology (NIST), "Digital Identity Guidelines," NIST Special Publication 800-63B, 2017. (برای زمینه استانداردهای احراز هویت)