اختر اللغة

تقليل التحيز في نمذجة قوة كلمات المرور عبر التعلم العميق والقواميس الديناميكية

نهج جديد يستخدم الشبكات العصبية العميقة وهجمات القاموس الديناميكي لنمذجة استراتيجيات كسر كلمات المرور الواقعية وتقليل التحيز في قياس أمنها.
computationalcoin.com | PDF Size: 1.4 MB
التقييم: 4.5/5
تقييمك
لقد قيمت هذا المستند مسبقاً
غلاف مستند PDF - تقليل التحيز في نمذجة قوة كلمات المرور عبر التعلم العميق والقواميس الديناميكية

1. المقدمة

لا تزال كلمات المرور آلية المصادقة السائدة على الرغم من نقاط الضعف الأمنية المعروفة. يميل المستخدمون إلى إنشاء كلمات مرور تتبع أنماطًا يمكن التنبؤ بها، مما يجعلها عرضة لهجمات التخمين. لا يمكن تعريف أمن مثل هذا النظام بمعامل بسيط مثل حجم المفتاح؛ بل يتطلب نمذجة دقيقة لسلوك الخصم. بينما أنتجت عقود من البحث نماذج احتمالية قوية لكلمات المرور (مثل نماذج ماركوف، PCFGs)، توجد فجوة كبيرة في نمذجة استراتيجيات المهاجمين الواقعيين العملية والقائمة على الخبرة بشكل منهجي، والذين يعتمدون على هجمات قاموسية عالية الضبط مع قواعد التشويه.

يتناول هذا العمل التحيز في القياس الذي يظهر عندما تستخدم التحليلات الأمنية تكوينات هجوم قاموسية جاهزة وثابتة تقارب بشكل ضعيف قدرات الخبراء. نقترح جيلًا جديدًا من هجمات القاموس التي تستفيد من التعلم العميق لأتمتة ومحاكاة استراتيجيات التخمين المتقدمة والديناميكية للخصوم المهرة، مما يؤدي إلى تقديرات أكثر قوة وواقعية لقوة كلمة المرور.

2. الخلفية وبيان المشكلة

2.1 الفجوة بين النماذج الأكاديمية والهجمات الواقعية

غالبًا ما تستخدم نماذج قوة كلمات المرور الأكاديمية نهجًا احتماليًا مؤتمتًا بالكامل مثل سلاسل ماركوف أو القواعد النحوية الخالية من السياق الاحتمالية (PCFGs). في المقابل، يهيمن على كسر كلمات المرور غير المتصل بالإنترنت في العالم الواقعي، كما تمارسه أدوات مثل Hashcat وJohn the Ripper، هجمات القاموس. تستخدم هذه الهجمات قائمة كلمات أساسية يتم توسيعها من خلال مجموعة من قواعد التشويه (مثل استبدالات `l33t`، إضافة لاحقة/بادئة) لتوليد كلمات مرور مرشحة. يعتمد الفعالية بشكل حاسم على جودة وضبط زوج القاموس-القاعدة، وهي عملية تتطلب معرفة عميقة بالمجال وخبرة.

2.2 مشكلة تحيز التكوين

عادةً ما يستخدم الباحثون والممارسون الذين يفتقرون إلى المعرفة على مستوى الخبراء تكوينات افتراضية وثابتة. وهذا يؤدي إلى مبالغة كبيرة في تقدير قوة كلمة المرور، كما أوضحت الدراسات السابقة [41]. يؤدي التحيز الناتج إلى تحريف التحليلات الأمنية، مما يجعل الأنظمة تبدو أكثر أمانًا مما هي عليه ضد خصم ماهر ومصمم. المشكلة الأساسية هي عدم القدرة على تكرار عملية الخبير في تكييف التكوين الديناميكي بناءً على معلومات محددة للهدف.

3. المنهجية المقترحة

3.1 الشبكة العصبية العميقة لنمذجة كفاءة المهاجم

يستخدم المكون الأول شبكة عصبية عميقة (DNN) لنمذجة كفاءة الخصم في إنشاء تكوينات هجوم فعالة. يتم تدريب الشبكة على أزواج من مجموعات بيانات كلمات المرور وتكوينات الهجوم عالية الأداء (قاموس + قواعد) مستمدة من أو تحاكي إعدادات الخبراء. الهدف هو تعلم دالة $f_{\theta}(\mathcal{D}_{target}) \rightarrow (Dict^*, Rules^*)$ والتي، عند إعطائها مجموعة بيانات كلمات مرور مستهدفة (أو خصائصها)، تخرج بتكوين هجوم شبه أمثل، متجاوزة الحاجة إلى الضبط اليدوي.

3.2 استراتيجيات التخمين الديناميكية

نتجاوز تطبيق القواعد الثابتة، ونقدم استراتيجيات تخمين ديناميكية. أثناء الهجوم، لا يطبق النظام جميع القواعد على جميع الكلمات بشكل أعمى. بدلاً من ذلك، يحاكي قدرة الخبير على التكيف من خلال تحديد أولويات أو توليد قواعد بناءً على التغذية الراجعة من التخمينات التي تمت تجربتها سابقًا والأنماط الملاحظة في مجموعة البيانات المستهدفة. وهذا يخلق نظام هجوم تكيفي ذو حلقة مغلقة.

3.3 الإطار التقني

يعمل الإطار المتكامل في مرحلتين: (1) توليد التكوين: يحلل DNN الهدف (أو عينة ممثلة) لإنتاج قاموس ومجموعة قواعد مبدئية ومصممة خصيصًا. (2) التنفيذ الديناميكي: يعمل هجوم القاموس، لكن تطبيق قواعده يحكمه سياسة يمكنها تعديل ترتيب التخمين واختيار القاعدة في الوقت الفعلي، مستخدمةً بشكل محتمل نموذجًا ثانويًا للتنبؤ بأكثر التحولات إثمارًا بناءً على النجاح الجزئي.

يمكن نمذجة تمثيل مبسط للأولوية الديناميكية كتحديث توزيع احتمالي على القواعد $R$ بعد كل دفعة من التخمينات: $P(r_i | \mathcal{H}_t) \propto \frac{\text{successes}(r_i)}{\text{attempts}(r_i)} + \lambda \cdot \text{similarity}(r_i, \mathcal{H}_t^{success})$ حيث $\mathcal{H}_t$ هو تاريخ التخمينات والنجاحات حتى الوقت $t$.

4. النتائج التجريبية والتقييم

4.1 مجموعة البيانات والإعداد

أُجريت التجارب على عدة مجموعات بيانات كبيرة لكلمات مرور من العالم الواقعي (مثل تلك من الاختراقات السابقة مثل RockYou). تمت مقارنة الطريقة المقترحة مع أحدث النماذج الاحتمالية (مثل FLA) وهجمات القاموس القياسية مع مجموعات القواعد الثابتة الشائعة (مثل `best64.rule`، `d3ad0ne.rule`). تم تدريب DNN على مجموعة منفصلة من أزواج مجموعة البيانات-التكوين.

4.2 مقارنة الأداء

وصف الرسم البياني (منحنى التخمين): رسم بياني خطي يقارن عدد كلمات المرور التي تم كسرها (المحور الصادي) مقابل عدد التخمينات التي تمت محاولتها (المحور السيني، مقياس لوغاريتمي). يرتفع منحنى هجوم "Dynamic DeepDict" المقترح بشكل أسرع بكثير ويصل إلى هضبة أعلى من منحنيات "Static Best64"، و"Static d3ad0ne"، و"PCFG Model". يوضح هذا بصريًا كفاءة تخمين فائقة وتغطية أعلى، مقاربًا بشكل وثيق منحنى هجوم "Expert-Tuned" الافتراضي.

مقياس الأداء الرئيسي

عند 10^10 تخمين، كسرت الطريقة المقترحة ~15-25% كلمات مرور أكثر من أفضل خط أساس لمجموعة القواعد الثابتة، مما أغلق بشكل فعال أكثر من نصف الفجوة بين التكوينات الافتراضية وهجوم مضبوط من قبل خبير.

4.3 تحليل تقليل التحيز

مقياس النجاح الأساسي هو تقليل تحيز المبالغة في تقدير القوة. عندما يتم قياس قوة كلمة المرور على أنها رقم التخمين المطلوب لكسرها (إنتروبيا التخمين)، تنتج الطريقة المقترحة تقديرات تكون دائمًا أقرب إلى تلك المستمدة من الهجمات المضبوطة من قبل الخبراء. كما انخفض التباين في تقديرات القوة عبر التكوينات الأولية المختلفة دون المثلى بشكل كبير، مما يشير إلى زيادة المتانة.

5. إطار التحليل ودراسة الحالة

مثال تطبيق الإطار (بدون كود): فكر في محلل أمني يقيم سياسة كلمة المرور لنظام شركة داخلي جديد. باستخدام هجوم قاموسي ثابت تقليدي (مع `rockyou.txt` و `best64.rule`)، يجد أن 70% من عينة اختبارية لكلمات مرور تشبه كلمات مرور الموظفين تقاوم 10^9 تخمين. وهذا يشير إلى أمن قوي. ومع ذلك، فإن تطبيق الإطار الديناميكي المقترح يغير التحليل.

  1. توصيف الهدف: يحلل مكون DNN عينة الاختبار، ويكشف عن تردد عالٍ للاختصارات الخاصة بالشركة (`XYZ`) وأسماء الفرق الرياضية المحلية (`Gladiators`).
  2. الهجوم الديناميكي: يولد الهجوم قواعد ديناميكيًا للاستفادة من هذه الأنماط (مثل `^XYZ`، `Gladiators$[0-9][0-9]`، استبدالات `leet` على هذه الكلمات الأساسية).
  3. النتيجة المنقحة: يكسر الهجوم الديناميكي 50% من نفس العينة خلال 10^9 تخمين. يتغير استنتاج المحلل: السياسة عرضة لهجوم مستهدف، وهناك حاجة إلى إجراءات مضادة (مثل حظر المصطلحات الخاصة بالشركة). يوضح هذا قوة الإطار في الكشف عن نقاط الضعف الخفيفة والمحددة سياقيًا.

6. التطبيقات المستقبلية والاتجاهات

  • عدادات قوة كلمة المرور الاستباقية: دمج هذه التكنولوجيا في مدققات كلمات المرور في الوقت الفعلي لتقديم تقديرات للقوة بناءً على هجمات ديناميكية واعية بالسياق بدلاً من القواعد المبسطة.
  • اختبار الاختراق والفرق الحمراء المؤتمتة: أدوات تتكيف تلقائيًا مع استراتيجيات كسر كلمات المرور مع بيئة الهدف المحددة (مثل الصناعة، الموقع الجغرافي، اللغة).
  • تحسين السياسة والاختبار A/B: محاكاة الهجمات المتقدمة لاختبار وتحسين سياسات تكوين كلمات المرور بدقة قبل النشر.
  • التعلم الموحد/الحافظ للخصوصية: تدريب نماذج DNN على بيانات كلمات المرور الموزعة دون تركيز مجموعات البيانات الحساسة، معالجة مخاوف الخصوصية.
  • التوسع إلى بيانات اعتماد أخرى: تطبيق النهج القائم على التعلم الديناميكي لنمذجة الهجمات على الرقم السري الشخصي (PIN)، أسئلة الأمان، أو كلمات المرور الرسومية.

7. المراجع

  1. Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  2. Ma, J., Yang, W., Luo, M., & Li, N. (2014). A Study of Probabilistic Password Models. IEEE Symposium on Security and Privacy.
  3. Ur, B., et al. (2015). Do Users' Perceptions of Password Security Match Reality? CHI.
  4. Wang, D., Cheng, H., Wang, P., Huang, X., & Jian, G. (2017). A Security Analysis of Honeywords. NDSS.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security.
  6. Hashcat. (n.d.). Advanced Password Recovery. Retrieved from https://hashcat.net/hashcat/
  7. Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. (كمفهوم DL أساسي للنمذجة التوليدية).
  8. NIST Special Publication 800-63B. (2017). Digital Identity Guidelines: Authentication and Lifecycle Management.

8. التحليل الأصلي والتعليق الخبير

الفكرة الأساسية

لقد ضرب باسكويني وزملاؤه في صميم وهم منتشر في أبحاث الأمن السيبراني: الاعتقاد بأن النماذج المؤتمتة والقائمة على النظرية أولاً يمكنها التقاط واقعية الحرفة العدائية الفوضوية والقائمة على الخبرة بدقة. يكشف عملهم عن فجوة محاكاة-واقع حرجة في أمن كلمات المرور. لسنوات، كان المجال راضيًا عن نماذج احتمالية أنيقة (PCFGs، سلاسل ماركوف) والتي، على الرغم من كونها سليمة أكاديميًا، هي من صنع المختبر. المهاجمون الحقيقيون لا يشغلون سلاسل ماركوف؛ بل يشغلون Hashcat مع قوائم كلمات مختارة بعناية وقواعد صقلت عبر سنوات من الخبرة—شكل من المعرفة الضمنية يصعب للغاية صياغته رسميًا. الفكرة الأساسية لهذه الورقة هي أنه لتقليل تحيز القياس، يجب أن نتوقف عن محاولة التفوق على المنطق الخاص بالمهاجم ونبدأ في محاولة محاكاة عملية التكيف العملية الخاصة بهم باستخدام الأدوات نفسها—التعلم العميق—التي تتفوق في تقريب الدوال المعقدة وغير الخطية من البيانات.

التدفق المنطقي

منطق الورقة مباشر ومقنع: (1) تشخيص التحيز: تحديد أن تكوينات القاموس الثابتة الجاهزة هي وكلاء ضعيفون للهجمات الخبيرة، مما يؤدي إلى المبالغة في تقدير القوة. (2) تفكيك الخبرة: تأطير مهارة الخبير على أنها ذات شقين: القدرة على تكوين هجوم (اختيار قاموس/قواعد) والقدرة على تكييفه ديناميكيًا. (3) الأتمتة بالذكاء الاصطناعي: استخدام DNN لتعلم تعيين التكوين من البيانات (معالجة المهارة الأولى) وتنفيذ حلقة تغذية راجعة لتغيير استراتيجية التخمين أثناء الهجوم (معالجة المهارة الثانية). يعكس هذا التدفق النموذج الناجح في مجالات الذكاء الاصطناعي الأخرى، مثل AlphaGo، والتي لم تحسب حالات اللوحة فحسب، بل تعلمت محاكاة وتجاوز اللعب البديهي القائم على الأنماط للأساتذة البشر.

نقاط القوة والضعف

نقاط القوة: المنهجية هي قفزة مفاهيمية كبيرة. إنها تنقل تقييم أمن كلمات المرور من تحليل ثابت إلى محاكاة ديناميكية. تكامل التعلم العميق مناسب، حيث أن الشبكات العصبية هي مقارب وظيفي مثبت للمهام ذات الهيكل الكامن، مثل "الفن المظلم" لإنشاء القواعد. إن تقليل التحيز الذي تم إظهاره ليس تافهًا وله آثار عملية فورية لتقييم المخاطر.

نقاط الضعف والمحاذير: ترتبط فعالية النهج بشكل أساسي بجودة واتساع بيانات التدريب الخاصة به. هل يمكن لنموذج تم تدريبه على اختراقات سابقة (مثل RockYou، 2009) تكوين هجمات بدقة لمجموعة بيانات مستقبلية تحولت ثقافيًا؟ هناك خطر من استبدال التحيز الزمني لتحيز التكوين. علاوة على ذلك، قد تقلل طبيعة "الصندوق الأسود" لـ DNN من القابلية للتفسير—لماذا اختار هذه القواعد؟—وهو أمر حاسم للحصول على رؤى أمنية قابلة للتنفيذ. كما أن العمل، ربما بالضرورة، يتجنب ديناميكية سباق التسلح: مع انتشار هذه الأدوات، ستتطور عادات إنشاء كلمات المرور (وتكتيكات المهاجمين الخبراء)، مما يتطلب إعادة تدريب مستمرة للنموذج.

رؤى قابلة للتنفيذ

لـ الممارسين الأمنيين: إلغاء الاعتماد فورًا على مجموعات القواعد الافتراضية للتحليل الجاد. اعتبار أي تقدير لقوة كلمة المرور لم يُشتق من طريقة ديناميكية واعية بالهدف على أنه سيناريو أفضل حالة، وليس واقعيًا. ابدأ في دمج محاكاة الكسر التكيفي في تقييمات الثغرات الأمنية.

لـ الباحثين: تحدد هذه الورقة معيارًا جديدًا. يجب أن تقارن أوراق نماذج كلمات المرور المستقبلية ضد الهجمات التكيفية المعززة بالتعلم، وليس فقط ضد القواميس الثابتة أو النماذج الاحتمالية الأقدم. يجب أن يستكشف المجال الشبكات التوليدية التنافسية (GANs)، كما تم الاستشهاد بها في العمل التأسيسي لجودفيلو وآخرون، لتوليد تخمينات كلمات مرور جديدة وعالية الاحتمال مباشرة، متجاوزةً بشكل محتمل نموذج القاموس/القواعد تمامًا.

لـ صانعي السياسات وهيئات المعايير (مثل NIST): يجب أن تتطور إرشادات سياسة كلمات المرور (مثل NIST SP 800-63B) لتوصية أو إلزام استخدام محاكاة الكسر المتقدمة والتكيفية لتقييم أنظمة كلمات المرور المقترحة وسياسات التكوين، متجاوزة قوائم التحقق المبسطة لفئات الأحرف.

في جوهر الأمر، لا يقدم هذا العمل أداة كسر أفضل فحسب؛ بل يطالب بتحول أساسي في كيفية تصورنا وقياسنا لأمن كلمات المرور—من خاصية لكلمة المرور نفسها إلى خاصية ناشئة عن التفاعل بين كلمة المرور والذكاء التكيفي لصائديها.