1. المقدمة
لا تزال كلمات المرور آلية المصادقة السائدة على الرغم من نقاط الضعف الأمنية المعروفة. يميل المستخدمون إلى إنشاء كلمات مرور يسهل تذكرها، مما يؤدي إلى توزيعات يمكن التنبؤ بها بدرجة كبيرة يستغلها المهاجمون. لا يمكن تعريف أمان النظام القائم على كلمات المرور بمعامل بسيط مثل حجم المفتاح؛ بل يتطلب ذلك نمذجة دقيقة لسلوك الخصم. تتناول هذه الورقة عيبًا حرجًا في تحليل أمان كلمات المرور الحالي: التحيز الكبير في القياس الناتج عن هجمات القاموس غير المُهيأة بشكل كافٍ، مما يؤدي إلى المبالغة في تقدير قوة كلمة المرور واستخلاص استنتاجات أمنية غير موثوقة.
2. الخلفية وبيان المشكلة
أكثر من ثلاثة عقود من البحث أنتجت نماذج احتمالية متطورة لكلمات المرور. ومع ذلك، فإن نمذجة المهاجمين في العالم الواقعي واستراتيجيات التخمين العملية الخاصة بهم شهدت تقدمًا محدودًا. غالبًا ما يستخدم المخترقون في العالم الواقعي هجمات القاموس مع قواعد التشويه، وهي مرنة للغاية ولكنها تتطلب تكوينًا وضبطًا على مستوى الخبراء - وهي عملية تعتمد على المعرفة المتخصصة التي تم صقلها على مر سنوات من الممارسة.
2.1 التحيز في القياس في أمان كلمات المرور
يُفتقر معظم الباحثين والممارسين الأمنيين إلى الخبرة المتخصصة للمهاجمين الخبراء. وبالتالي، يعتمدون في تحليلاتهم على تكوينات "جاهزة" للقاموس ومجموعات القواعد. كما تم توضيحه في أعمال سابقة (مثل [41])، تؤدي هذه الإعدادات الافتراضية إلى المبالغة الشديدة في تقدير قوة كلمة المرور، مما يفشل في تقريب القدرات العدائية الحقيقية بدقة. وهذا يخلق تحيزًا شديدًا في القياس يشوه بشكل أساسي نتائج التقييمات الأمنية، مما يجعلها غير موثوقة لتوجيه السياسة أو تصميم النظام.
2.2 قيود هجمات القاموس التقليدية
هجمات القاموس التقليدية ثابتة. فهي تستخدم قاموسًا ثابتًا ومجموعة محددة مسبقًا من قواعد التشويه (مثل تحويلات ليت سبيك مثل a->@، أو إلحاق أرقام) لتوليد كلمات مرور مرشحة. يعتمد فعاليتها بشكل كبير على التكوين الأولي. ومع ذلك، فإن الخبراء في العالم الواقعي يتكيفون ديناميكيًا مع استراتيجيات التخمين الخاصة بهم بناءً على معلومات محددة عن الهدف (مثل اسم الشركة، أو بيانات المستخدم الديموغرافية)، وهي قدرة مفقودة من الأدوات الأكاديمية والصناعية القياسية.
3. المنهجية المقترحة
يقدم هذا العمل جيلًا جديدًا من هجمات القاموس مصممًا ليكون أكثر مرونة تجاه التكوين السيئ وتقريب استراتيجيات المهاجم المتقدم تلقائيًا دون الحاجة إلى إشراف يدوي أو معرفة متخصصة عميقة.
3.1 الشبكة العصبية العميقة لنمذجة كفاءة الخصم
يستخدم المكون الأول الشبكات العصبية العميقة (DNNs) لنمذجة كفاءة المهاجمين الخبراء في بناء تكوينات هجوم فعالة. يتم تدريب الشبكة العصبية العميقة على بيانات مستمدة من تكوينات هجوم ناجحة أو تسريبات لكلمات المرور لتعلم العلاقات المعقدة وغير الخطية بين خصائص كلمة المرور (مثل الطول، وفئات الأحرف، والأنماط) واحتمالية فعالية قاعدة تشويه محددة أو كلمة قاموس. يلتقط هذا النموذج "الحدس" الخاص بالخبير في اختيار استراتيجيات التخمين وتحديد أولوياتها.
3.2 استراتيجيات التخمين الديناميكية
الابتكار الثاني هو إدخال استراتيجيات تخمين ديناميكية ضمن إطار هجوم القاموس. بدلاً من تطبيق جميع القواعد بشكل ثابت، يستخدم النظام تنبؤات الشبكة العصبية العميقة لضبط الهجوم ديناميكيًا. على سبيل المثال، إذا بدا أن مجموعة كلمات المرور المستهدفة تحتوي على العديد من بدائل ليت سبيك، فيمكن للنظام إعطاء الأولوية لقواعد التشويه تلك. وهذا يحاكي قدرة الخبير على تكييف نهجه في الوقت الفعلي بناءً على التعليقات أو المعرفة المسبقة عن الهدف.
3.3 الإطار التقني والصياغة الرياضية
جوهر النموذج يتضمن تعلم دالة $f_{\theta}(x)$ تقوم بتعيين كلمة مرور (أو ميزاتها) $x$ إلى توزيع احتمالي عبر قواعد التشويه المحتملة وكلمات القاموس. الهدف هو تقليل الفرق بين توزيع تخمين النموذج واستراتيجية الهجوم المثلى المستمدة من بيانات الخبراء. يمكن صياغة ذلك على أنه تحسين للمعلمات $\theta$ لتقليل دالة الخسارة $\mathcal{L}$:
$\theta^* = \arg\min_{\theta} \mathcal{L}(f_{\theta}(X), Y_{expert})$
حيث تمثل $X$ ميزات كلمات المرور في مجموعة التدريب، وتمثل $Y_{expert}$ ترتيب التخمين الأمثل أو اختيار القاعدة المستمد من تكوينات الخبراء أو بيانات الاختراق الحقيقية.
4. النتائج التجريبية والتحليل
4.1 مجموعة البيانات والإعداد التجريبي
أُجريت التجارب على مجموعات بيانات كبيرة لكلمات مرور من العالم الواقعي (مثل تلك الناتجة عن اختراقات سابقة). تمت مقارنة هجوم القاموس الديناميكي للتعلم العميق (DLDD) المقترح مع نماذج كلمات المرور الاحتمالية المتطورة (مثل نماذج ماركوف، وPCFGs) وهجمات القاموس التقليدية مع مجموعات القواعد القياسية (مثل قواعد "best64" الخاصة بـ JtR).
4.2 مقارنة الأداء وتقليل التحيز
المقياس الرئيسي هو تقليل عدد التخمينات المطلوبة لاختراق نسبة معينة من كلمات المرور مقارنة بهجمات القاموس القياسية. أظهر هجوم DLDD تحسنًا كبيرًا في الأداء، حيث اخترق كلمات المرور بعدد أقل بكثير من التخمينات. والأهم من ذلك، أنه أظهر اتساقًا أكبر عبر مجموعات البيانات والتكوينات الأولية المختلفة، مما يشير إلى تقليل في التحيز في القياس. بينما قد يفشل الهجوم القياسي فشلاً ذريعًا مع قاموس تم اختياره بشكل سيئ، فإن التكيف الديناميكي لهجوم DLDD وفر أداءً قويًا وفوق خط الأساس.
لقطة للنتائج
تقليل التحيز: قلل DLDD التباين في معدل نجاح الاختراق عبر التكوينات الأولية المختلفة بأكثر من 40٪ مقارنة بهجمات القاموس الثابتة.
كفاءة: حقق نفس معدل الاختراق كأفضل هجوم ثابت باستخدام عدد تخمينات أقل بنسبة 30-50٪ في المتوسط.
4.3 الرؤى الرئيسية من النتائج
- أتمتة الخبرة: نجحت الشبكة العصبية العميقة في استيعاب أنماط تكوين الخبراء، مما يؤكد فرضية إمكانية تعلم هذه المعرفة من البيانات.
- المرونة تجاه التكوين: جعل النهج الديناميكي الهجوم أقل حساسية بكثير لجودة القاموس البدئي، وهو مصدر رئيسي للتحيز في الدراسات.
- نموذج تهديد أكثر واقعية: كان سلوك الهجوم يشبه بشكل أوثق الاستراتيجيات التكيفية والموجهة للخصوم في العالم الواقعي مقارنة بالطرق الآلية السابقة.
5. إطار التحليل: دراسة حالة مثال
السيناريو: تقييم قوة كلمات المرور من شركة تكنولوجيا افتراضية "AlphaCorp".
النهج التقليدي: يقوم الباحث بتشغيل Hashcat مع قاموس rockyou.txt ومجموعة القواعد best64.rule. قد يؤدي هذا الهجوم الثابت أداءً متوسطًا ولكنه سيفوت الأنماط الخاصة بالشركة (مثل كلمات المرور التي تحتوي على "alpha"، "corp"، أسماء المنتجات).
تطبيق إطار عمل DLDD:
- حقن السياق: يتم تحضير النظام بسياق "AlphaCorp"، وهي شركة تكنولوجيا. يزيد نموذج الشبكة العصبية العميقة، المدرب على اختراقات شركات مماثلة، من أولوية قواعد التشويه التي تنطبق على أسماء الشركات والمصطلحات التقنية.
- توليد القواعد الديناميكي: بدلاً من قائمة ثابتة، يولد الهجوم القواعد ويُرتبها ديناميكيًا. بالنسبة لـ "alpha"، قد يجرب:
alpha،Alpha،@lpha،alpha123،AlphaCorp2023،@lph@C0rpبترتيب تتنبأ به النموذج ليكون الأكثر فعالية. - التكيف المستمر: بينما يخترق الهجوم بعض كلمات المرور (مثل العثور على العديد منها مع إلحاق سنوات)، فإنه يضبط استراتيجيته بشكل أكبر لإعطاء الأولوية لإلحاق السنوات الأخيرة بكلمات أساسية أخرى.
6. التطبيقات المستقبلية واتجاهات البحث
- عدادات قوة كلمات المرور الاستباقية: دمج هذه التكنولوجيا في واجهات إنشاء كلمات المرور لتقديم ملاحظات عن القوة في الوقت الفعلي واعية بالخصم، والانتقال إلى ما هو أبعد من قواعد التركيب البسيطة.
- التدقيق الأمني الآلي: أدوات لمسؤولي النظام تحاكي تلقائيًا هجمات تكيفية متطورة ضد تجزئات كلمات المرور لتحديد بيانات الاعتماد الضعيفة قبل أن يفعل المهاجمون ذلك.
- محاكاة الخصم لتدريب الذكاء الاصطناعي: استخدام نموذج الهجوم الديناميكي كخصم في بيئات التعلم المعزز لتدريب أنظمة مصادقة أو كشف شذوذ أكثر قوة.
- التكيف عبر المجالات: استكشاف تقنيات نقل التعلم للسماح لنموذج مدرب على نوع واحد من مجموعات البيانات (مثل كلمات مرور المستخدمين العامة) بالتكيف بسرعة مع نوع آخر (مثل كلمات المرور الافتراضية للراوتر) بأقل قدر من البيانات الجديدة.
- التدريب الأخلاقي والحافظ على الخصوصية: تطوير طرق لتدريب هذه النماذج القوية باستخدام بيانات اصطناعية أو التعلم الموحد لتجنب مخاوف الخصوصية المرتبطة باستخدام اختراقات كلمات المرور الحقيقية.
7. المراجع
- Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
- Ma, J., Yang, W., Luo, M., & Li, N. (2014). A Study of Probabilistic Password Models. IEEE Symposium on Security and Privacy.
- Ur, B., et al. (2015). Do Users' Perceptions of Password Security Match Reality? CHI.
- Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
- Wang, D., Cheng, H., Wang, P., Huang, X., & Jian, G. (2017). A Security Analysis of Honeywords. NDSS.
- Pasquini, D., et al. (2021). Reducing Bias in Modeling Real-world Password Strength via Deep Learning and Dynamic Dictionaries. USENIX Security Symposium.
- Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. (كمفهوم أساسي للتعلم العميق).
- NIST Special Publication 800-63B: Digital Identity Guidelines - Authentication and Lifecycle Management.
8. التحليل الخبير والمراجعة النقدية
الرؤية الأساسية: تقدم هذه الورقة ضربة جراحية على ثغرة حرجة، وغالبًا ما يتم تجاهلها، في منهجية أبحاث الأمن السيبراني: فجوة التحيز في القياس بين نماذج اختراق كلمات المرور الأكاديمية والواقع القاسي للهجمات التي يقودها الخبراء. يحدد المؤلفون بشكل صحيح أن "المعرفة المتخصصة" للمهاجمين هي القطعة المفقودة، واقتراحهم لأتمتتها عبر التعلم العميق طموح وضروري. لا يتعلق الأمر فقط باختراق المزيد من كلمات المرور؛ بل يتعلق بجعل التقييمات الأمنية موثوقة مرة أخرى.
التدفق المنطقي: الحجة مقنعة. 1) الهجمات في العالم الواقعي تعتمد على القاموس ويتم ضبطها من قبل الخبراء. 2) النماذج الأكاديمية/التطبيقية تستخدم تكوينات ثابتة وجاهزة، مما يخلق تحيزًا (المبالغة في تقدير القوة). 3) لذلك، لتقليل التحيز، يجب علينا أتمتة ضبط الخبير وقدرته على التكيف. 4) نستخدم الشبكة العصبية العميقة لنمذجة منطق تكوين الخبير وتضمينه في إطار هجوم ديناميكي. 5) تظهر التجارب أن هذا يقلل التباين (التحيز) ويحسن الكفاءة. المنطق واضح ويعالج السبب الجذري، وليس مجرد عرض.
نقاط القوة والعيوب:
نقاط القوة: التركيز على التحيز في القياس هو أكبر مساهمة لها، مما يرفع العمل من أداة اختراق بحتة إلى تقدم منهجي. النهج الهجين (التعلم العميق + القواعد الديناميكية) عملي، حيث يستفيد من التعرف على الأنماط بواسطة الشبكات العصبية - على غرار كيفية تعلم CycleGAN لنقل النمط دون أمثلة مقترنة - ضمن الإطار المنظم والعالي الإنتاجية لهجمات القاموس. هذا أكثر قابلية للتوسع والتفسير من مولد كلمات مرور عصبي بحت من البداية إلى النهاية.
العيوب والأسئلة: "بيانات الخبراء" لتدريب الشبكة العصبية العميقة هي نقطة ضعف محتملة. من أين تأتي؟ ملفات تكوين الخبراء المسربة؟ تشير الورقة إلى استخدام بيانات من اختراقات سابقة، ولكن هذا يحمل خطر تضمين تحيزات تاريخية (مثل عادات كلمات المرور القديمة). أداء النموذج جيد فقط بقدر ما تكون بيانات التدريب هذه ممثلة لاستراتيجيات الخبراء الحالية. علاوة على ذلك، بينما يقلل من تحيز التكوين، فقد يقدم تحيزات جديدة من بنية الشبكة العصبية العميقة وعملية التدريب. كما يتم التطرق إلى البعد الأخلاقي لنشر مثل هذه الأداة الآلية الفعالة بشكل عابر.
رؤى قابلة للتنفيذ: بالنسبة لمقيمي الأمن: توقفوا فورًا عن الاعتماد فقط على مجموعات القاموس/القواعد الافتراضية. توفر هذه الورقة مخططًا لبناء أو اعتماد أدوات اختبار أكثر تكيفًا. بالنسبة لواضعي سياسات كلمات المرور: افهموا أن قواعد التعقيد الثابتة عديمة الفائدة ضد الهجمات التكيفية. يجب أن تشجع السياسات العشوائية والطول، ويجب استخدام أدوات مثل هذه لاختبار فعالية السياسة. بالنسبة لباحثي الذكاء الاصطناعي: هذا مثال رئيسي لتطبيق التعلم العميق لنمذجة الخبرة البشرية في مجال الأمن - وهو نمط قابل للتطبيق على اكتشاف البرامج الضارة أو الدفاع ضد الهندسة الاجتماعية. المستقبل يكمن في الذكاء الاصطناعي الذي يمكنه محاكاة أفضل المهاجمين البشر للدفاع ضدهم، وهو مفهوم تدعمه نماذج التدريب العدائية كما هو موضح في أعمال مثل GANs لجودفيلو. الخطوة التالية هي إغلاق الحلقة، باستخدام نماذج الهجوم التكيفية هذه لتوليد بيانات تدريب لأنظمة دفاعية أكثر قوة.