SOPG: توليد كلمات المرور المرتبة القائم على البحث للشبكات العصبية ذاتية الانحدار

جدول المحتويات

1. المقدمة

لا تزال كلمات المرور الطريقة الأكثر شيوعًا لمصادقة المستخدمين. وبالتالي، يُعد تخمين كلمات المرور مكونًا حاسمًا في أبحاث الأمن السيبراني، حيث يدعم كلًا من اختبارات الأمن الهجومي (الاختراق) وتقييم قوة الدفاع. للمنهجيات التقليدية، من العدّ القائم على القواعد إلى النماذج الإحصائية مثل سلاسل ماركوف وPCFG، قيود جوهرية في الكفاءة والتنوع. ظهور التعلم العميق، وخاصة الشبكات العصبية ذاتية الانحدار، وعد بتحول نموذجي. ومع ذلك، استمر عنق الزجاجة الحرج: طريقة توليد أخذ العينات العشوائية القياسية. يؤدي هذا إلى تكرار كلمات المرور، والأكثر ضررًا، ترتيب توليد عشوائي، مما يجبر المهاجمين على فرز قوائم ضخمة وغير فعالة. تقدم هذه الورقة البحثية SOPG (توليد كلمات المرور المرتبة القائم على البحث)، وهي طريقة جديدة مصممة لجعل نماذج تخمين كلمات المرور ذاتية الانحدار تولد كلمات المرور بترتيب تنازلي تقريبي للاحتمال، مما يزيد من كفاءة الهجوم بشكل كبير.

2. الخلفية والأعمال ذات الصلة

2.1 تطور تخمين كلمات المرور

تطور تخمين كلمات المرور عبر مراحل متميزة. اعتمدت الطرق المبكرة على هجمات القاموس وقواعد التشويه المصممة يدويًا (مثل John the Ripper)، والتي كانت استدلالية ومعتمدة على الخبرة. مكّن انتشار تسريبات كلمات المرور واسعة النطاق (مثل RockYou في 2009) من استخدام المنهجيات الإحصائية القائمة على البيانات. قدم نموذج ماركوف (Weir et al., 2009) والقواعد النحوية الخالية من السياق الاحتمالية (PCFG) (Ma et al., 2014) إطارًا أكثر منهجية وقائمًا على الاحتمال للتوليد، على الرغم من أنها كانت معرضة لخطر الإفراط في التخصيص وافتقرت إلى القدرة على نمذجة التبعيات المعقدة طويلة المدى في هياكل كلمات المرور.

2.2 منهجيات الشبكات العصبية

تتعلم نماذج التعلم العميق، وخاصة الشبكات التوليدية التنافسية (GANs) مثل PassGAN (Hitaj et al., 2017) والنماذج ذاتية الانحدار مثل تلك القائمة على معماريات LSTM أو GPT، توزيع احتمالية كلمات المرور مباشرة من البيانات. يمكنها توليد كلمات مرور متنوعة للغاية وواقعية. ومع ذلك، فإنها تستخدم عادةً أخذ العينات العشوائية (مثل أخذ العينات متعدد الحدود) من التوزيع المُتعلم في كل خطوة توليد. هذه العملية الأساسية لا تعترف بالترتيب العالمي لاحتمالات كلمات المرور الكاملة، مما يؤدي إلى عدم الكفاءة التي تهدف SOPG إلى حلها.

تحسين معدل التغطية

35.06%

معدل التغطية الذي حققه SOPGesGPT، متفوقًا بشكل كبير على السابقين.

مكاسب الكفاءة مقابل أخذ العينات العشوائي

أقل بكثير

عدد كلمات المرور والاستدلالات التي تحتاجها SOPG للوصول إلى نفس التغطية.

معدل التكرار

تضمن SOPG عدم توليد كلمات مرور مكررة.

3. طريقة SOPG

3.1 المفهوم الأساسي

تعيد SOPG صياغة توليد كلمات المرور من مشكلة أخذ عينات عشوائية إلى مشكلة بحث موجه. بدلاً من اختيار الحرف التالي عشوائيًا، تستخدم خوارزمية بحث (على الأرجح نوع من بحث الحزمة أو البحث الأفضل أولاً) لاستكشاف فضاء استكمالات كلمات المرور المحتملة، مع إعطاء الأولوية للمسارات التي تؤدي إلى كلمات مرور كاملة ذات احتمالات تقديرية أعلى. الهدف هو إخراج قائمة كلمات المرور بترتيب يقترب تقريبًا من الترتيب التنازلي الحقيقي حسب $P(كلمة المرور|النموذج)$.

3.2 خوارزمية البحث

على الرغم من أن ملخص PDF لا يوضح الخوارزمية المحددة، فإن السلوك الموصوف يشير إلى طريقة تحافظ على قائمة انتظار ذات أولوية للبادئات المرشحة لكلمات المرور. في كل خطوة، تقوم بتوسيع البادئة الأكثر وعدًا (أعلى احتمال تراكمي) عن طريق الاستعلام من الشبكة العصبية حول توزيع الحرف التالي، مما يولد مرشحين جدد. من خلال استكشاف مناطق الاحتمال العالي في فضاء كلمات المرور بشكل منهجي أولاً، تضمن التوليد المبكر لأكثر كلمات المرور احتمالية وتتجنب التكرارات بشكل طبيعي.

3.3 نموذج SOPGesGPT

يطبق المؤلفون طريقتهم على معمارية قائمة على GPT، مما يخلق SOPGesGPT. يتم تدريب نموذج GPT (مثل محول وحيد الجانب للمفكك) على مجموعات بيانات كلمات المرور المسربة للتنبؤ بالحرف التالي في التسلسل. ثم يتم تطبيق SOPG كطريقة توليد/استدلال فوق هذا النموذج المُدرب، ليحل محل أخذ العينات القياسي.

4. التفاصيل التقنية والصياغة الرياضية

يحدد النموذج ذاتي الانحدار احتمالية كلمة المرور $\mathbf{x} = (x_1, x_2, ..., x_T)$ كحاصل ضرب الاحتمالات الشرطية: $$P(\mathbf{x}) = \prod_{t=1}^{T} P(x_t | x_1, ..., x_{t-1})$$ حيث $x_t$ هو الحرف في الموضع $t$، و $T$ هو طول كلمة المرور. يختار أخذ العينات القياسي $x_t \sim P(\cdot | x_1, ..., x_{t-1})$.

تهدف SOPG، من الناحية المفاهيمية، إلى العثور على التسلسلات $\mathbf{x}$ وإخراجها بترتيب تنازلي لـ $P(\mathbf{x})$. يمكن النظر إلى هذا كمشكلة بحث عن أقصر مسار في شجرة حيث العقد هي البادئات، وتكاليف الحواف مرتبطة بـ $-\log P(x_t | البادئة)$، والهدف هو تعداد المسارات (كلمات المرور) بترتيب زيادة التكلفة الإجمالية (أي تناقص الاحتمال). يمكن لخوارزميات مثل بحث التكلفة الموحدة (UCS) أو نوعها المحدود، بحث الحزمة بعرض حزمة كبير وتقليم ديناميكي، تحقيق هذا الترتيب التقريبي. المفتاح هو أن حدود البحث تُعطى الأولوية بناءً على درجة احتمالية المسار الحالي.

5. النتائج التجريبية والتحليل

5.1 المقارنة مع أخذ العينات العشوائي

تقدم الورقة نتائج مقنعة تقارن SOPG بأخذ العينات العشوائي القياسي على نفس النموذج الأساسي. النتائج الرئيسية:

صفر تكرارات: تولد SOPG قائمة فريدة، بينما ينتج أخذ العينات العشوائي العديد من التكرارات، مما يهدر الجهد الحسابي.
كفاءة هجومية فائقة: لتحقيق نفس معدل التغطية (نسبة كلمات المرور في مجموعة اختبار تم اختراقها)، تحتاج SOPG إلى عدد أقل بكثير من استدلالات النموذج وتولد قائمة إجمالية أصغر بكثير. يترجم هذا مباشرة إلى اختراق أسرع لكلمات المرور في السيناريوهات الواقعية.

5.2 المقارنة المعيارية مع أحدث التقنيات

تمت مقارنة SOPGesGPT مع نماذج تخمين كلمات المرور الرئيسية: OMEN (ماركوف)، FLA، PassGAN (GAN)، VAEPass (VAE)، و PassGPT المعاصر. في اختبار موقع واحد:

معدل التغطية: حقق SOPGesGPT 35.06%، متفوقًا على OMEN بنسبة 254%، وعلى FLA بنسبة 298%، وعلى PassGAN بنسبة 421%، وعلى VAEPass بنسبة 380%، وعلى PassGPT بنسبة 81%.
المعدل الفعال: تدعي الورقة أيضًا الريادة في "المعدل الفعال"، وهو على الأرجح مقياس مرتبط بجودة أو معدل إصابة كلمات المرور المُولدة مبكرًا، وهي القوة الأساسية لـ SOPG.

يوضح هذا أن طريقة التوليد (SOPG) لا تقل أهمية عن معمارية النموذج للأداء.

تفسير الرسم البياني (افتراضي بناءً على النص): سيظهر مخطط خطي يقارن "معدل التغطية مقابل عدد كلمات المرور المُولدة" منحنى SOPGesGPT يرتفع بشدة ويستقر مبكرًا، بينما يرتفع منحنى أخذ العينات العشوائي ببطء أكثر ويتطلب عددًا أكبر بكثير على المحور السيني للوصول إلى نفس الارتفاع. سيظهر مخطط شريطي لـ "معدل التغطية النهائي" شريط SOPGesGPT أطول بكثير من أشرطة OMEN و PassGPT و PassGAN.

6. إطار التحليل ومثال تطبيقي

إطار عمل لتقييم نماذج تخمين كلمات المرور:

معمارية النموذج والتدريب: ما هي الشبكة العصبية الأساسية (GAN، VAE، محول ذاتي الانحدار)؟ كيف يتم تدريبها؟
طريقة التوليد: كيف يتم إنتاج كلمات المرور من النموذج المُدرب؟ (مثل أخذ العينات العشوائي، بحث الحزمة، SOPG). هذا هو محور الورقة الرئيسي.
الترتيب والكفاءة: هل تنتج الطريقة كلمات المرور بترتيب مفيد (تنازلي الاحتمال)؟ ما هي كفاءة الحساب/التخمين؟
التنوع والتكرار: هل تولد كلمات مرور جديدة أم العديد من التكرارات؟
الأداء المعياري: معدل التغطية، المعدل الفعال، والسرعة على مجموعات البيانات القياسية (مثل RockYou).

مثال تطبيقي غير برمجي: فكر في مهاجمين، أليس وبوب، يستخدمان نفس نموذج كلمات المرور GPT المُدرب. تستخدم أليس أخذ العينات العشوائي القياسي. يستخدم بوب SOPG. لاختراق مجموعة اختبار مكونة من 1000 كلمة مرور، قد يحتاج برنامج أليس إلى توليد 10 ملايين تخمين، مع 30% تكرارات، لاختراق 350. قد يولد برنامج بوب المدعوم بـ SOPG مليون تخمين فريد فقط بالترتيب الأمثل لاختراق نفس الـ 350. هجوم بوب أكثر كفاءة في استخدام الموارد بعشر مرات وينتهي أسرع.

7. آفاق التطبيق والاتجاهات المستقبلية

التطبيقات الفورية:

اختبار قوة كلمات المرور الاستباقي: يمكن لفرق الأمن استخدام النماذج المعززة بـ SOPG لمراجعة سياسات كلمات المرور المقترحة بكفاءة أكبر من خلال توليد ناقلات الهجوم الأكثر احتمالية أولاً.
استعادة كلمات المرور في التحقيقات الجنائية: يمكن لأدوات استعادة كلمات المرور القانونية دمج SOPG لزيادة معدلات النجاح ضمن ميزانيات زمنية/حسابية محدودة.

اتجاهات البحث المستقبلية:

نماذج هجينة: الجمع بين التوليد المرتب لـ SOPG وقوى المعماريات الأخرى (مثل دمج المعرفة الدلالية من نماذج اللغة الكبيرة).
SOPG التكيفي/المباشر: تعديل استراتيجية البحث في الوقت الفعلي بناءً على التغذية الراجعة من نتائج الهجوم الجزئية.
إجراءات مضادة دفاعية: البحث في تقنيات جديدة لتجزئة أو تخزين كلمات المرور تكون مقاومة بشكل خاص لهجمات مرتبة ومدفوعة بالاحتمال مثل SOPG.
ما بعد كلمات المرور: تطبيق نموذج التوليد المرتب على مجالات أمنية أخرى مثل توليد عناوين URL للتصيد الاحتيالي المحتملة أو متغيرات البرمجيات الخبيثة.

8. المراجع

Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password Cracking Using Probabilistic Context-Free Grammars. In IEEE Symposium on Security and Privacy.
Ma, J., Yang, W., Luo, M., & Li, N. (2014). A Study of Probabilistic Password Models. In IEEE Symposium on Security and Privacy.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2017). PassGAN: A Deep Learning Approach for Password Guessing. In International Conference on Applied Cryptography and Network Security.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. In USENIX Security Symposium.

9. التحليل الأصلي والتعليقات الخبيرة

الرؤية الأساسية: تقدم الورقة البحثية لـ Jin وآخرون ضربة جراحية لعنق زجاجة حرج ومهمل في الأمن الهجومي المدعوم بالذكاء الاصطناعي: استراتيجية التوليد. لسنوات، كان المجال مهووسًا بمعمارية النموذج — GANs مقابل VAEs مقابل المحولات — مقترضًا بشكل كبير من تعلم الآلة السائد، كما يظهر في المسار من PassGAN (مستوحى من GANs الصور [4]) إلى PassGPT (مستوحى من نماذج اللغة الكبيرة مثل GPT-2 [5]). تجادل هذه الورقة بشكل صحيح بأن حتى النموذج المثالي يُعاقب بأخذ العينات العشوائي الساذج. SOPG ليست مجرد تحسين تدريجي؛ إنها إعادة تفكير أساسية في عملية الاستدلال، تحول النموذج من "التوليد العشوائي" إلى "الاستكشاف الموجه الأمثل". هذه الرؤية لا تقل قيمة لتخمين كلمات المرور عن بحث شجرة مونت كارلو لـ AlphaGo لألعاب الذكاء الاصطناعي — إنها تتعلق بالبحث في الفضاء المُتعلم بذكاء.

التسلسل المنطقي ونقاط القوة: المنطق لا تشوبه شائبة. 1) توفر النماذج ذاتية الانحدار توزيع احتمالي قابل للمعالجة على التسلسلات. 2) أخذ العينات العشوائي من هذا التوزيع غير فعال للعثور على العناصر عالية الاحتمال بسرعة. 3) لذلك، استخدم خوارزمية بحث (مفهوم علوم حاسوب راسخ) لتعداد المخرجات حسب الاحتمال. تكمن القوة في بساطتها وتأثيرها العميق. النتائج مذهلة: تحسن بنسبة 81% عن أحدث نموذج PassGPT فقط من خلال تغيير طريقة التوليد. يؤكد هذا على مبدأ غالبًا ما يُنسى في الذكاء الاصطناعي التطبيقي: هندسة الاستدلال يمكن أن تحقق عوائد أكبر من توسيع النموذج. ضمان صفر تكرارات هو فوز عملي رئيسي آخر، يلغي دورات الحساب المهدرة.

العيوب والأسئلة المفتوحة: إيجاز الورقة في المقتطف المقدم هو ضعفها الرئيسي. "خوارزمية البحث" هي صندوق أسود. هل هي A*؟ بحث الحزمة مع تقنين استدلالي متطور؟ لم يتم مناقشة الحمل الحسابي للبحث نفسه. بينما يقلل من عدد الاستدلالات المطلوبة لمعدل تغطية معين، قد تكون كل خطوة استدلال في البحث أكثر تعقيدًا من أخذ العينات البسيط. هناك مقايضة بين عمق البحث، اتساعه، وزمن الوصول تحتاج إلى تحليل. علاوة على ذلك، التقييم هو "اختبار موقع واحد". كيف تعمم SOPG عبر مجموعات بيانات متنوعة (شركات مقابل مستهلكين، لغات مختلفة)؟ يحتاج المتانة إلى التحقق.

رؤى قابلة للتنفيذ: بالنسبة لممارسي الأمن: هذه الورقة هي دعوة للاستيقاظ. يجب أن تأخذ مقدرات قوة كلمات المرور الدفاعية الآن في الاعتبار هجمات مرتبة تشبه SOPG، والتي هي أقوى بكثير من هجمات القوة الغاشمة التقليدية أو حتى الهجمات العصبية القديمة. يجب أن تتطور سياسة كلمات المرور. بالنسبة لباحثي الذكاء الاصطناعي: الدرس هو النظر إلى ما وراء دالة الخسارة. آلية الاستدلال/التوليد هي مواطن من الدرجة الأولى في تصميم الأنظمة التوليدية للأمن، الطب، أو التصميم. يمكن تطبيق هذا النهج على مهام أمنية ذاتية الانحدار أخرى، مثل توليد حمولات هجوم الشبكة. بالنسبة للمؤلفين: الخطوة التالية هي جعل الخوارزمية مفتوحة المصدر، تفصيل تعقيدها، وإجراء مقاييس معيارية واسعة النطاق وعبر مجموعات البيانات. يمكن للتعاون مع منظمات مثل مركز أمن الإنترنت (CIS) أو الرجوع إلى أطر عمل من إرشادات الهوية الرقمية لـ NIST (SP 800-63B) أن يرسي العمل في معايير دفاعية عملية. SOPG هي رافعة عبقرية؛ الآن نحتاج إلى قياس قوتها الكاملة وتعليم المدافعين كيفية التحصن ضدها.