1. المقدمة

لا تزال كلمات المرور الطريقة الأكثر شيوعًا لمصادقة المستخدمين نظرًا لبساطتها ومرونتها. ومع ذلك، فإن أمنها يتعرض باستمرار لتحديات محاولات اختراق كلمات المرور. يُعد تخمين كلمات المرور، وهي عملية توليد كلمات مرور مرشحة لهجمات القاموس، حجر الزاوية في كل من اختبارات الأمن الهجومية وتقييم قوة كلمات المرور الدفاعية. الطرق التقليدية، من الاستدلالات القائمة على القواعد إلى النماذج الإحصائية مثل سلاسل ماركوف وPCFG، لها قيود جوهرية في التنوع والكفاءة. ظهور التعلم العميق، وخاصة الشبكات العصبية ذاتية الانحدار، وعد بتحول نموذجي. ومع ذلك، كان هناك إغفال حاسم وهو طريقة التوليد نفسها. إن أخذ العينات العشوائية القياسية من هذه النماذج ينتج تكرارات ومخرجات غير مرتبة، مما يقلل بشكل كبير من الكفاءة العملية لهجمات كلمات المرور. تقدم هذه الورقة البحثية SOPG (توليد كلمات المرور المرتّبة القائم على البحث)، وهي طريقة جديدة تفرض على النموذج ذاتي الانحدار توليد كلمات المرور بترتيب تنازلي شبه مثالي للاحتمالية، معالجةً هذا العيب الأساسي.

2. الخلفية والأعمال ذات الصلة

2.1 تطور تخمين كلمات المرور

تطور المجال عبر مراحل متميزة: التعداد القائم على القواعد (مثل قواعد John the Ripper)، والتي تعتمد على الخبرة اليدوية؛ النماذج الإحصائية مثل نماذج ماركوف (OMEN) وقواعد النحو الخالية من السياق الاحتمالية (PCFG)، والتي تتعلم الأنماط من مجموعات البيانات المسربة ولكنها غالبًا ما تعاني من الإفراط في التكيف؛ وعصر نماذج التعلم العميق الحالي.

2.2 النهج القائمة على الشبكات العصبية

نماذج مثل PassGAN (القائم على الشبكات التوليدية التنافسية)، وVAEPass (المشفرات التباينية الذاتية)، وPassGPT (القائم على بنية GPT) تستفيد من الشبكات العصبية العميقة لتعلم توزيعات كلمات المرور المعقدة. بينما تلتقط هذه النماذج الفروق الدقيقة بشكل أفضل من النماذج الإحصائية، فإن توليدها الافتراضي عبر أخذ العينات العشوائية غير فعال في سيناريوهات الهجوم حيث يكون تجربة كلمات المرور بترتيب احتمالية حدوثها أمرًا بالغ الأهمية.

3. طريقة SOPG

3.1 المفهوم الأساسي

SOPG ليست بنية شبكة عصبية جديدة، بل هي خوارزمية توليد تُطبق على نموذج ذاتي الانحدار موجود (مثل GPT). هدفها هو اجتياز فضاء مخرجات النموذج بذكاء، وتوليد كلمات المرور الأكثر احتمالية أولاً، دون تكرار.

3.2 خوارزمية البحث والتوليد المرتّب

بدلاً من أخذ عينات عشوائية من الرموز في كل خطوة، تستخدم SOPG استراتيجية بحث (مشابهة من حيث المفهوم لبحث الحزمة ولكنها مُحسّنة لتوليد كلمات المرور الكاملة). تحافظ على قائمة انتظار ذات أولوية للبادئات المرشحة لكلمات المرور، وتوسع دائمًا البادئة ذات الاحتمالية التراكمية الأعلى. وهذا يضمن توليد كلمات المرور الكاملة بترتيب تنازلي تقريبي.

3.3 التفاصيل التقنية والصياغة الرياضية

بالنظر إلى نموذج ذاتي الانحدار يحدد توزيع احتمالي لكلمات المرور $P(\mathbf{x})$، حيث $\mathbf{x} = (x_1, x_2, ..., x_T)$ هي سلسلة من الرموز (الأحرف)، فإن النموذج يحلل الاحتمالية على النحو التالي: $$P(\mathbf{x}) = \prod_{t=1}^{T} P(x_t | x_1, ..., x_{t-1})$$ تولد أخذ العينات العشوائية $x_t$ من $P(x_t | x_1, ..., x_{t-1})$ في كل خطوة $t$. بدلاً من ذلك، بالنسبة لبادئة معينة $\mathbf{x}_{البحث الأفضل أولاً فوق شجرة تسلسلات الرموز الممكنة.

4. نموذج SOPGesGPT

نفّذ المؤلفون نموذجًا ملموسًا لتخمين كلمات المرور باسم SOPGesGPT. يستخدم بنية محولات على طراز GPT كنموذج ذاتي الانحدار الأساسي، مُدرّبًا على مجموعات كبيرة من كلمات المرور الحقيقية المسربة. المميز الرئيسي هو أن توليد كلمات المرور يتم باستخدام خوارزمية SOPG بدلاً من أخذ العينات القياسية، مما يجعله أول نموذج يدمج التوليد المرتّب بشكل أصلي.

5. النتائج التجريبية والتحليل

معدل التغطية

35.06%

SOPGesGPT على مجموعة الاختبار

التحسن مقارنة بـ PassGPT

81%

تغطية أعلى

التحسن مقارنة بـ OMEN

254%

تغطية أعلى

5.1 المقارنة مع أخذ العينات العشوائية

تُظهر الورقة أولاً تفوق SOPG على أخذ العينات العشوائية على نفس النموذج الأساسي. النتائج الرئيسية:

  • صفر تكرارات: تولد SOPG قائمة فريدة ومرتبة.
  • كفاءة أعلى: لتحقيق نفس معدل التغطية (مثلاً 10%)، تتطلب SOPG عددًا أقل بكثير من استدعاءات النموذج وكلمات المرور المُولدة. يهدر أخذ العينات العشوائية الحسابات على التكرارات وكلمات المرور منخفضة الاحتمالية.
يترجم هذا مباشرة إلى اختراق أسرع لكلمات المرور في السيناريوهات الواقعية.

5.2 المقارنة مع أحدث التقنيات

تمت مقارنة SOPGesGPT في "اختبار موقع واحد" (التدريب والاختبار على بيانات من نفس الاختراق) مع النماذج الرئيسية: OMEN، FLA، PassGAN، VAEPass، ونموذج PassGPT المعاصر.

5.3 تفسير النتائج والرسوم البيانية

النتائج مذهلة. من حيث معدل التغطية (نسبة كلمات المرور في مجموعة الاختبار التي تم اختراقها ضمن حد تخمين معين)، وصل SOPGesGPT إلى 35.06%. يمثل هذا تحسنًا هائلاً عن السابقين:

  • أعلى بنسبة 254% من OMEN (ماركوف إحصائي).
  • أعلى بنسبة 298% من FLA.
  • أعلى بنسبة 421% من PassGAN (القائم على GAN).
  • أعلى بنسبة 380% من VAEPass (القائم على VAE).
  • أعلى بنسبة 81% من PassGPT (GPT مع أخذ عينات عشوائية).
وصف الرسم البياني: سيظهر مخطط شريطي "معدل التغطية (%)" على المحور الصادي وأسماء النماذج على المحور السيني. سيبرز شريط SOPGesGPT فوق جميع الآخرين. مخطط خطي ثانٍ، "كلمات المرور المخترقة التراكمية مقابل عدد التخمينات"، سيظهر خط SOPGesGPT يرتفع بشدة في البداية، مما يظهر كفاءته في اختراق العديد من كلمات المرور بمحاولات قليلة، بينما ترتفع خطوط النماذج الأخرى بشكل تدريجي أكثر.

6. إطار التحليل وحالة مثال

الإطار: يتطلب تقييم نموذج تخمين كلمات المرور تحليلاً متعدد الأوجه: 1) سلامة البنية (اختيار النموذج)، 2) كفاءة التوليد (التخمينات في الثانية، التكرارات)، 3) كفاءة الهجوم (منحنى معدل التغطية مقابل عدد التخمينات)، و4) التعميم (الأداء على أنماط بيانات غير مرئية). يركز معظم البحث على (1) و(3). تبتكر SOPG بشكل حاسم في (2)، مما يحسن مباشرة (3).

حالة مثال - تقييم قوة كلمة المرور: تريد شركة أمنية مراجعة سياسة كلمات مرور جديدة. باستخدام نموذج PassGPT قياسي مع أخذ عينات عشوائية، قد يستغرق توليد 10 ملايين تخمين X ساعات ويخترق Y% من قاموس اختبار. باستخدام SOPGesGPT (نفس البنية، توليد SOPG)، لاختراق نفس النسبة Y%، قد تحتاج فقط إلى توليد 2 مليون تخمين، مما يكمل المراجعة في جزء بسيط من الوقت. علاوة على ذلك، توفر القائمة المرتبة خريطة حرارية واضحة: تمثل أول 100,000 كلمة مرور من SOPG المجموعة "الأكثر احتمالية" وفقًا للنموذج، مما يقدم رؤية دقيقة حول مدى تعرض السياسة لهجمات عالية الاحتمالية.

7. التطبيقات المستقبلية واتجاهات البحث

التطبيقات:

  • مراجعة كلمات المرور الاستباقية: دمجها في أدوات المؤسسات لاختبار السياسات بشكل أسرع وأكثر كفاءة.
  • خدمات استعادة كلمات المرور: تحسين معدلات النجاح والسرعة بشكل كبير لمهام الاستعادة الأخلاقية.
  • نمذجة التهديدات المعززة: تزويد فرق الأحمر بمحاكيات هجوم أكثر كفاءة.
  • مقاييس قوة كلمة المرور: يمكن لمحركات الخلفية استخدام توليد مرتب شبيه بـSOPG لتقدير قابلية تخمين كلمة المرور الفعلية بشكل أكثر دقة من فحوصات القواعد البسيطة.
اتجاهات البحث:
  • النماذج الهجينة: الجمع بين التوليد المرتّب لـSOPG والتطورات المعمارية الأخرى (مثل نماذج الانتشار).
  • SOPG التكيفي/المباشر: ضبط البحث ديناميكيًا بناءً على التغذية الراجعة من نتائج الهجوم الجزئية.
  • الدفاع ضد SOPG: البحث في أنماط إنشاء كلمات المرور التي تضعف أداء هجمات التوليد المرتّب على وجه التحديد.
  • ما بعد كلمات المرور: تطبيق نموذج التوليد المرتّب على مهام توليد التسلسلات الأخرى حيث يكون الترتيب الاحتمالي ذا قيمة (مثل بعض مهام توليد الكود أو اكتشاف الأدوية).

8. المراجع

  1. M. Jin, J. Ye, R. Shen, H. Lu, "Search-based Ordered Password Generation of Autoregressive Neural Networks," Manuscript.
  2. A. Narayanan and V. Shmatikov, "Fast Dictionary Attacks on Passwords Using Time-Space Tradeoff," in Proceedings of CCS 2005.
  3. J. Ma, W. Yang, M. Luo, and N. Li, "A Study of Probabilistic Password Models," in Proceedings of IEEE S&P 2014.
  4. B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," in Proceedings of ACNS 2019.
  5. D. Pasquini, G. Ateniese, and M. Bernaschi, "Unleashing the Tiger: Inference Attacks on Split Learning," in Proceedings of CCS 2021 (introduces PassGPT).
  6. J. Goodfellow et al., "Generative Adversarial Networks," arXiv:1406.2661, 2014. (Seminal GAN paper, foundation for PassGAN).
  7. OpenAI, "GPT-4 Technical Report," arXiv:2303.08774, 2023. (Context for autoregressive transformer architecture).
  8. OWASP Foundation, "Authentication Cheat Sheet," https://cheatsheetseries.owasp.org/cheatsheets/Authentication_Cheat_Sheet.html.

9. التحليل الخبير والفكرة الأساسية

الفكرة الأساسية

تكمن براعة الورقة في ضربتها الجراحية على عنق زجاجة حاسم ولكن تم تجاهله. لسنوات، تعامل مجتمع تخمين كلمات المرور، المفتون بالقفزات المعمارية من GANs إلى المحولات، مع خطوة التوليد على أنها مشكلة محلولة—فقط خذ عينة من التوزيع. حدد Jin وزملاؤه هذا بشكل صحيح على أنه عدم كفاءة كارثي لحالة استخدام الهجوم. تعيد SOPG صياغة المشكلة: الأمر لا يتعلق بتعلم التوزيع بشكل أفضل، بل يتعلق باجتيازه بشكل أمثل. هذا يشبه امتلاك خريطة مثالية لمواقع الكنز (الشبكة العصبية) ولكن استخدام مشية عشوائية سابقًا للعثور عليها، مقابل SOPG التي توفر جدولاً زمنياً ذا أولوية. يثبت التحسن المذهل بنسبة 81% عن PassGPT، الذي يستخدم نفس بنية GPT، النقطة: يمكن أن تكون خوارزمية التوليد أكثر أهمية من النموذج نفسه لأداء المهمة النهائية.

التدفق المنطقي

الحجة مقنعة وخطية: 1) تتطلب هجمات كلمات المرور تجربة التخمينات بترتيب احتمالية الحدوث للكفاءة. 2) تتعلم النماذج ذاتية الانحدار توزيع الاحتمالية هذا. 3) فشل أخذ العينات العشوائية من هذه النماذج في إنتاج قائمة مرتبة ومليئة بالإهدار. 4) لذلك، نحتاج إلى خوارزمية بحث تستغل بنية النموذج لإنتاج قائمة مرتبة. 5) SOPG هي تلك الخوارزمية، مُنفّذة عبر بحث الأفضل أولاً فوق شجرة الرموز. 6) النتائج تؤكد الفرضية بأدلة كمية ساحقة. التدفق يعكس بنية المشكلة-الحل-التحقق الكلاسيكية، مُنفّذة بدقة.

نقاط القوة والعيوب

نقاط القوة: المفهوم أنيق ببساطته وفعال بقوة. تصميم التجربة قوي، مقارنةً بجميع المعايير المرجعية ذات الصلة. مكاسب الكفاءة ليست هامشية؛ إنها تغير قواعد اللعبة في سيناريوهات الاختراق العملية. يفتح العمل مجالًا فرعيًا جديدًا: تحسين التوليد للنماذج الأمنية.
العيوب والأسئلة: تلمح الورقة ولكنها لا تستكشف بعمق الحمل الحسابي لبحث SOPG نفسه مقابل أخذ العينات البسيط. بينما يقلل من إجمالي الاستدعاءات المطلوبة لتغطية معينة، فإن كل خطوة استدلال في البحث أكثر تعقيدًا (الحفاظ على كومة). هناك حاجة لتحليل التعقيد. علاوة على ذلك، فإن "اختبار موقع واحد" هو تقييم قياسي ولكنه محدود. كيف تعمم SOPG في إعداد "عبر المواقع" (التدريب على تسريبات LinkedIn، الاختبار على RockYou)، حيث يتحول التوزيع؟ قد يكون التوليد المرتّب أقل فعالية إذا كان ترتيب الاحتمالية للنموذج ضعيفًا على بيانات خارج التوزيع. أخيرًا، كما لاحظ المؤلفون في العمل المستقبلي، فإن هذه الكفاءة نفسها تتطلب استجابة دفاعية—ستحفز SOPG نفسها البحث في تقنيات التجزئة والتقوية لكلمات المرور من الجيل التالي.

رؤى قابلة للتنفيذ

لـ الممارسين الأمنيين: أعِد تقييم أدوات اختبار سياسة كلمات المرور الخاصة بك على الفور. أي أداة تستخدم الشبكات العصبية دون توليد مرتب من المحتمل أن تعمل بكفاءة أقل بكثير من إمكاناتها. اطلب ميزات شبيهة بـSOPG في مدققي كلمات المرور التجاريين ومفتوحي المصدر.
لـ الباحثين: هذا نداء واضح للتوقف عن التعامل مع التوليد على أنه أمر ثانوي. يجب تطبيق نموذج SOPG واختباره على نماذج أمنية ذاتية الانحدار أخرى (مثل توليد البرمجيات الخبيثة، توليد نص التصيد). تحقق من المقايضات بين عمق البحث (عرض الحزمة) والأداء.
لـ المدافعين وصانعي السياسات: لقد تحول مشهد الهجوم. انخفض وقت اختراق العديد من تجزئات كلمات المرور، خاصة الضعيفة منها، بشكل فعال. هذا يسرع من إلحاحية اعتماد المصادقة متعددة العوامل المقاومة للتصيد على نطاق واسع (كما يدعو إليه NIST وCISA) وإلغاء استخدام كلمات المرور كعامل مصادقة وحيد. SOPG ليست مجرد أداة اختراق أفضل؛ إنها حجة قوية لعصر ما بعد كلمة المرور.