SOPG: توليد كلمات المرور المرتّبة قائم على البحث للشبكات العصبية ذاتية الانحدار

جدول المحتويات

1. المقدمة
2. الخلفية والأعمال ذات الصلة
3. طريقة SOPG
4. التنفيذ التقني: SOPGesGPT
- 4.1 هيكلية النموذج
- 4.2 تقدير الاحتمال والبحث
5. النتائج التجريبية والتحليل
6. إطار التحليل ومثال تطبيقي
7. التطبيقات المستقبلية واتجاهات البحث
8. المراجع
9. التحليل الأصلي ورؤية الخبراء

1. المقدمة

لا تزال كلمات المرور الطريقة السائدة لمصادقة المستخدمين نظرًا لبساطتها ومرونتها. وبالتالي، يُعد تخمين كلمات المرور مكونًا حاسمًا في أبحاث الأمن السيبراني، وهو أساسي لكل من اختبارات الأمن الهجومي (مثل اختبار الاختراق، واستعادة كلمات المرور) وتقييم قوة الدفاعات. للمنهجيات التقليدية، من الهجمات القائمة على القواعد إلى النماذج الإحصائية مثل سلاسل ماركوف و PCFG، قيود جوهرية في قابلية التوسع والتكيف.

بَدَتْ قدوم التعلم العميق، وخاصة الشبكات العصبية ذاتية الانحدار مثل GPT، بوعد بتحول نموذجي من خلال تعلم توزيعات كلمات المرور المعقدة مباشرة من البيانات. ومع ذلك، كان هناك إغفال حاسم يتعلق باستراتيجية التوليد. تنتج طرق أخذ العينات القياسية (مثل أخذ العينات العشوائي، top-k) كلمات المرور بترتيب عشوائي، مما يؤدي إلى عدم كفاءة هائلة: معدلات تكرار عالية وفشل في إعطاء الأولوية لكلمات المرور عالية الاحتمال (وبالتالي الأكثر ترجيحًا) في وقت مبكر من الهجوم. تقدم هذه الورقة البحثية SOPG (توليد كلمات المرور المرتّبة قائم على البحث)، وهي طريقة جديدة تفرض على النموذج ذاتي الانحدار توليد كلمات المرور بترتيب تنازلي تقريبي للاحتمال، مما يزيد بشكل كبير من كفاءة هجمات تخمين كلمات المرور.

2. الخلفية والأعمال ذات الصلة

2.1 تطور تخمين كلمات المرور

تطور تخمين كلمات المرور عبر مراحل مميزة:

الهجمات القائمة على القواعد والقواميس: اعتمدت على القواعد اليدوية وقوائم الكلمات. تعتمد بشدة على المعرفة الخبيرة وعرضة لتفويت الأنماط الجديدة.
النماذج الإحصائية (مثل ماركوف، PCFG): قدمت إطارًا احتماليًا. أظهرت نماذج مثل OMEN و FLA أداءً محسنًا لكنها واجهت صعوبة في التعميم والتوزيعات طويلة الذيل.
عصر التعلم العميق: تستفيد نماذج مثل PassGAN (المبنية على GANs)، وVAEPass (المبنية على VAEs)، وPassGPT (المبنية على GPT) من الشبكات العصبية لنمذجة توزيعات كلمات المرور المعقدة عالية الأبعاد دون هندسة ميزات يدوية.

2.2 منهجيات الشبكات العصبية

النماذج ذاتية الانحدار، مثل GPT، مناسبة بشكل خاص لتوليد كلمات المرور لأنها تنمذج احتمالية التسلسل رمزًا تلو الآخر: $P(password) = \prod_{t=1}^{T} P(c_t | c_1, ..., c_{t-1})$. هذا يسمح بتوليد كلمات مرور ذات أطوال متغيرة ويُحسّن التقاط التبعيات السياقية بشكل فعال.

2.3 مشكلة ترتيب التوليد

عدم الكفاءة الأساسي الذي حدده المؤلفون ليس في سعة النموذج، بل في ترتيب التوليد. يؤدي أخذ العينات العشوائي من نموذج مدرب إلى إنتاج كلمات مرور دون مراعاة احتمالية حدوثها. بالنسبة لهجوم قاموس ناجح، فإن توليد كلمات المرور عالية الاحتمال أولاً هو أمر بالغ الأهمية. تعالج SOPG هذه المشكلة عن طريق استبدال أخذ العينات العشوائي بخوارزمية بحث موجهة.

3. طريقة SOPG

3.1 المبدأ الأساسي

تحول SOPG توليد كلمات المرور من عملية عشوائية إلى مشكلة بحث بالأولوية (أفضل أولاً). الهدف هو اجتياز فضاء تسلسلات كلمات المرور المحتملة (شجرة) بترتيب يُخرج التسلسلات من الأعلى إلى الأقل احتمالًا مقدرًا.

3.2 خوارزمية البحث

تستخدم الطريقة قائمة انتظار ذات أولوية (مثل متغير بحث الحزمة أو خوارزمية توسيع احتمالية). في كل خطوة، يتم توسيع التسلسل الجزئي ذي الاحتمال التراكمي الأعلى بواسطة رمز واحد. يتم تقدير احتمالية التسلسل الجزئي $s = (c_1, ..., c_k)$ بواسطة النموذج: $P(s) = \prod_{t=1}^{k} P(c_t | c_1, ..., c_{t-1})$. يستمر البحث حتى يتم استيفاء شرط إنهاء (مثل رمز نهاية التسلسل)، مما يُخرج كلمة مرور كاملة. يتم توليد كلمة المرور التالية عن طريق استئناف البحث من أفضل تسلسل جزئي تالي في قائمة الانتظار.

الصيغة الأساسية لتوسيع التسلسل: عند توسيع عقدة (تسلسل جزئي)، تكون الأولوية لتسلسل مرشح جديد $s'$ (يتكون من إلحاق الرمز $c$ بـ $s$) هي احتماليته المشتركة: $Priority(s') = P(s) \cdot P(c | s)$. يوسع البحث دائمًا العقدة ذات الأولوية الحالية الأعلى.

3.3 التكامل مع النماذج ذاتية الانحدار

طريقة SOPG مستقلة عن النموذج. فهي تستخدم النموذج ذاتي الانحدار المدرب مسبقًا (مثل متغير GPT) بشكل بحت كـ مقدر احتمالي $P(c_t | context)$. تقوم خوارزمية البحث بتنظيم الاستدعاءات لهذا المقدر لاستكشاف فضاء التسلسل بشكل منهجي.

4. التنفيذ التقني: SOPGesGPT

4.1 هيكلية النموذج

ينفذ المؤلفون SOPGesGPT، وهو نموذج لتخمين كلمات المرور مبني على هيكلية GPT (مثل كتل فك تشفير المحولات) وتم تدريبه على مجموعات بيانات كلمات المرور المسربة. يتعلم النموذج التوزيع على مستوى الحرف/البايت لكلمات المرور الحقيقية.

4.2 تقدير الاحتمال والبحث

أثناء التوليد، لا يقتصر SOPGesGPT على أخذ العينات ببساطة. بدلاً من ذلك، بالنسبة لتسلسل جزئي معين، يحسب توزيع الاحتمال على المفردات بأكملها للرمز التالي. تستخدم خوارزمية SOPG هذه الاحتمالات لترتيب وإدارة حدود البحث في قائمة الانتظار ذات الأولوية الخاصة بها.

مقاييس الأداء الرئيسية (مفاهيمية)

معدل التغطية
النسبة المئوية لكلمات المرور المستهدفة التي تم اختراقها من مجموعة الاختبار.

المعدل الفعّال
معدل توليد كلمات المرور الفريدة والصالحة.

كفاءة الاستدلال
عدد استدعاءات/تخمينات النموذج اللازمة للوصول إلى تغطية معينة.

5. النتائج التجريبية والتحليل

5.1 إعداد التجربة

أُجريت التجارب على مجموعات بيانات كلمات مرور مسربة من العالم الحقيقي (مثل RockYou). تم تدريب النموذج على جزء من البيانات، وتم تقييم أدائه في التخمين مقابل مجموعة اختبار محجوزة.

5.2 المقارنة مع أخذ العينات العشوائي

النتيجة: SOPG مقابل أخذ العينات العشوائي القياسي من نفس نموذج GPT الأساسي.

إزالة التكرارات: تولد SOPG بشكل طبيعي كلمات مرور فريدة؛ بينما ينتج أخذ العينات العشوائي العديد من التكرارات.
كفاءة الترتيب: لتحقيق نفس معدل التغطية (مثلاً 10%)، تطلبت SOPG عددًا أقل بكثير من عمليات الاستدلال وأنتجت عددًا أقل بكثير من إجمالي كلمات المرور مقارنة بأخذ العينات العشوائي. هذا لأن التوليد المرتب لـ SOPG "يضرب" كلمات المرور المرجحة في وقت أبكر بكثير.

تضمين الرسم البياني: سيظهر مخطط التغطية مقابل عدد التخمينات منحنى SOPG يرتفع بشدة في البداية، بينما يرتفع منحنى أخذ العينات العشوائي ببطء وبشكل خطي، مما يوضح كفاءة هجومية فائقة.

5.3 المقارنة مع أحدث التقنيات

النتيجة: تمت مقارنة SOPGesGPT مع OMEN و FLA و PassGAN و VAEPass و PassGPT في اختبار موقع واحد.

معدل التغطية: حقق SOPGesGPT معدل تغطية قدره 35.06%.
التحسن النسبي: يمثل هذا زيادة بنسبة 254% عن OMEN، و 298% عن FLA، و 421% عن PassGAN، و 380% عن VAEPass، و 81% عن PassGPT.
المعدل الفعّال: تصدر SOPGesGPT أيضًا في المعدل الفعّال لتوليد كلمات المرور.

تضمين الرسم البياني: سيظهر مخطط شريطي يقارن معدلات التغطية لجميع النماذج شريط SOPGesGPT أطول بشكل كبير من جميع الآخرين، مما يؤكد بصريًا أداءه المتفوق.

5.4 مقاييس الأداء الرئيسية

تُظهر التجارب بشكل قاطع أن SOPG تحل عدم الكفاءة الأساسي في تخمين كلمات المرور العصبي. لا يأتي تحسن الأداء بشكل أساسي من نموذج أساسي أفضل (على الرغم من أن GPT قوي)، بل من استراتيجية التوليد المرتبة التي تضمن أن كل تخمين يكون فعالًا قدر الإمكان.

6. إطار التحليل ومثال تطبيقي

السيناريو: تُكلف شركة أمنية بمراجعة قوة كلمات المرور لنظام مؤسسي. لديها نموذج كلمات مرور ذاتي الانحدار مدرب.

المنهجية التقليدية (أخذ العينات العشوائي): يولد المراجع 10 ملايين كلمة مرور. بسبب العشوائية والتكرارات، قد تظهر كلمة المرور عالية الاحتمال "اسم_الشركة2023!" فقط بعد 5 ملايين تخمين، مما يهدر الوقت وموارد الحوسبة.

المنهجية المعززة بـ SOPG: باستخدام نفس النموذج مع SOPG، يولد المراجع كلمات المرور بترتيب تنازلي للاحتمال. تظهر "اسم_الشركة2023!" والأنماط الشائعة الأخرى ضمن أول 100,000 تخمين. تصل المراجعة إلى تقييم حاسم للضعف (مثلاً "30% من كلمات مرور المستخدمين قابلة للاختراق بمليون تخمين") أسرع بمقدار أضعاف مضاعفة وبحوسبة أقل.

خلاصة الإطار: توفر SOPG إطارًا منهجيًا وفعالًا لتحويل نموذج احتمالي إلى أداة هجوم عالية العائد، مما يزيد من العائد على الاستثمار لكل استدلال للنموذج.

7. التطبيقات المستقبلية واتجاهات البحث

مدققات قوة كلمات المرور الاستباقية: التكامل مع أنظمة إنشاء كلمات المرور في الوقت الفعلي لمحاكاة الهجمات القائمة على SOPG ورفض كلمات المرور الضعيفة على الفور.
تدريب أمني معزز: استخدام القوائم المولدة بواسطة SOPG لإنشاء قوائم سوداء أكثر واقعية لـ "كلمات المرور الشائعة" لمسؤولي النظام.
التعلم الآلي الخصومي: قد تؤدي دراسة كفاءة SOPG إلى دفاعات أفضل، مثل تصميم سياسات كلمات مرور أو خوارزميات تجزئة أكثر مقاومة للتخمين المرتب والذكي.
ما بعد كلمات المرور: يمكن تطبيق مبدأ SOPG على مهام توليد ذاتية الانحدار أخرى حيث يكون الإخراج المرتب حسب الاحتمال مفيدًا، مثل توليد حالات اختبار لاختبار البرمجيات العشوائي أو استكشاف فضاءات المركبات الكيميائية في اكتشاف الأدوية.
البحث في كفاءة البحث: مزيد من تحسين خوارزمية البحث نفسها (مثل استخدام استدلالات أكثر تطورًا، التوازي) للتعامل مع مساحات كلمات مرور أكبر.

8. المراجع

M. Jin, J. Ye, R. Shen, H. Lu, "Search-based Ordered Password Generation of Autoregressive Neural Networks," Manuscript Under Review.
J. T. G. H. M. Weir, "Using Probabilistic Context-Free Grammars for Password Guessing," in Proceedings of the 5th USENIX conference on Offensive technologies, 2009.
A. Radford, et al., "Language Models are Unsupervised Multitask Learners," OpenAI Blog, 2019. (ورقة تأسيسية لـ GPT)
B. Hitaj, et al., "PassGAN: A Deep Learning Approach for Password Guessing," in Proceedings of the 16th International Conference on Applied Cryptography and Network Security, 2019.
M. Pasquini, et al., "PassGPT: Password Modeling and (Guessed)Strength Evaluation with Large Language Models," arXiv preprint arXiv:2306.01745, 2023.
P. G. Kelley, et al., "Guess Again (and Again and Again): Measuring Password Strength by Simulating Password-Cracking Algorithms," in IEEE Symposium on Security and Privacy, 2012.

9. التحليل الأصلي ورؤية الخبراء

الرؤية الأساسية: تكمن براعة الورقة البحثية ليس في اختراع هيكلية عصبية جديدة، بل في تحديد وتصحيح عيب نظامي حاسم ومُغفل في تطبيق نماذج الذكاء الاصطناعي القوية. إنها تدرك أنه بالنسبة لتخمين كلمات المرور، فإن ترتيب التوليد ليس مجرد تفصيل تنفيذي—بل هو العامل الحاسم بين نموذج قوي نظريًا وسلاح عملي فعال. هذا يحول تركيز البحث من سعة النموذج البحتة (سباق تسلح ذو عوائد متناقصة، كما يظهر في التقدم من PassGAN إلى PassGPT) إلى تحسين استراتيجية التوليد، وهو تحسين أكثر خوارزمية وأساسية.

التدفق المنطقي: الحجة مقنعة وبسيطة: 1) النماذج ذاتية الانحدار تتقن تعلم توزيعات كلمات المرور. 2) أخذ العينات العشوائي من هذا التوزيع غير فعال للغاية للهجوم. 3) لذلك، يجب علينا أخذ العينات بذكاء. حل SOPG—معاملة التوليد كبحث "أفضل أولاً" فوق شجرة الاحتمال—هو ترجمة أنيقة ومباشرة لهذا المنطق إلى خوارزمية. إنها تستفيد من الكفاءة الأساسية للنموذج (تقدير الاحتمال) لتوجيه استكشافه الخاص، مما يخلق دورة حميدة من الكفاءة.

نقاط القوة والضعف: القوة لا يمكن إنكارها: التحسن بنسبة 81-421% عن المعاصرين هو انتصار ساحق في مجال ناضج، مما يثبت الأهمية القصوى للمفهوم. الطريقة أيضًا مستقلة عن النموذج بشكل أنيق، مما يجعلها ترقية قابلة للإضافة لأي نموذج كلمات مرور ذاتي الانحدار موجود. ومع ذلك، فإن العيب المحتمل، الذي تم الاعتراف به بشكل غير مباشر، هو الحمل الحسابي لكل كلمة مرور. الحفاظ على قائمة انتظار ذات أولوية والاستعلام عنها أكثر تكلفة من خطوة أخذ عينات واحدة. تعارض الورقة هذا بشكل صحيح من خلال إظهار الانخفاض الهائل في إجمالي كلمات المرور المطلوبة للتغطية، مما يجعل المقايضة إيجابية بشكل ساحق. عيب أعمق للمهاجمين في العالم الحقيقي هو افتراض الوصول المباشر إلى الاحتمال لتوزيع إخراج النموذج، والذي قد لا ينطبق ضد الأنظمة المحصنة باستخدام التجزئة المتقدمة (مثل Argon2) أو الفلفل (pepper). كما لوحظ في دراسة Kelley et al. لعام 2012 حول محاكاة خوارزميات الاختراق، فإن نموذج التهديد في العالم الحقيقي معقد.

رؤى قابلة للتنفيذ: بالنسبة لمحترفي الأمن السيبراني، هذه الورقة البحثية هي تفويض: إلغاء استخدام أي تقييم لقوة كلمات المرور يستخدم أخذ العينات الساذج من نماذج الذكاء الاصطناعي على الفور. يجب أن تدمج الأدوات توليدًا مرتبًا مشابهًا لـ SOPG لتقديم تقييمات واقعية للمخاطر. بالنسبة للباحثين، فإن المسار واضح: الحدود التالية هي المنهجيات الهجينة. اجمع بين البحث المرتب لـ SOPG وفوائد تجنب انهيار الأنماط (mode collapse) لـ GANs أو استكشاف الفضاء الكامن لـ VAEs. علاوة على ذلك، مع تحول نماذج اللغة الكبيرة (LLMs) إلى متعددة الوسائط، قد يتضمن "تخمين كلمات المرور" المستقبلي توليد عبارات مرور معقولة بناءً على بيانات شخصية المستخدم المستخرجة من وسائل التواصل الاجتماعي، مع توجيه SOPG للتوليد. يجب أن يستجيب مجتمع الدفاع بالمثل، والانتقال إلى ما بعد قواعد التركيب لتعزيز استخدام مديري كلمات المرور واعتماد معايير FIDO2/WebAuthn على نطاق واسع، كما توصي إرشادات NIST، لجعل حتى أكثر هجمات التخمين كفاءة عفا عليها الزمن.