1. المقدمة

لا تزال كلمات المرور الطريقة الأكثر شيوعًا لمصادقة المستخدمين نظرًا لبساطتها ومرونتها. وبالتالي، يُعد تخمين كلمات المرور مكونًا حاسمًا في أبحاث الأمن السيبراني، وهو أساسي لكل من اختبارات الأمن الهجومية (مثل اختبار الاختراق، واستعادة كلمات المرور) وتقييم قوة الدفاعات. الطرق التقليدية، من القواميس القائمة على القواعد إلى النماذج الإحصائية مثل سلاسل ماركوف وPCFG، لها قيود جوهرية في قابلية التوسع والتكيف. ظهور التعلم العميق، وخاصة الشبكات العصبية ذاتية الانحدار، وعد بتحول نموذجي من خلال تعلم توزيعات كلمات المرور المعقدة مباشرة من البيانات. ومع ذلك، لا يزال هناك عنق زجاجة كبير: طريقة التوليد القياسية لأخذ العينات العشوائية المستخدمة مع هذه النماذج غير فعالة للغاية، فهي تنتج تكرارات وتفتقر إلى أي ترتيب أمثل، مما يبطئ بشكل كبير هجمات كلمات المرور العملية. تقدم هذه الورقة SOPG (توليد كلمات المرور المرتّبة القائم على البحث)، وهي طريقة جديدة مصممة لتوليد كلمات المرور من نموذج ذاتي الانحدار بترتيب تنازلي تقريبي للاحتمال، مما يحدث ثورة في كفاءة تخمين كلمات المرور العصبي.

2. الخلفية والأعمال ذات الصلة

2.1 طرق تخمين كلمات المرور التقليدية

اعتمدت الأساليب المبكرة على هجمات القاموس وقواعد التعديل المصممة يدويًا (مثل John the Ripper). على الرغم من بساطتها، تفتقر هذه الطرق إلى أساس نظري ويعتمد فعاليتها بشكل كبير على المعرفة الخبيرة. انتشار تسريبات كلمات المرور واسعة النطاق (مثل RockYou في 2009) مكّن من استخدام الطرق الاحتمالية القائمة على البيانات. مثلت نماذج ماركوف (مثل OMEN) وقواعد النحو الخالية من السياق الاحتمالية (PCFG) تقدمًا كبيرًا، حيث قامت بنمذجة هياكل كلمات المرور واحتمالاتها بشكل منهجي. ومع ذلك، غالبًا ما تعاني من الإفراط في التخصيص وتواجه صعوبة في توليد مجموعة متنوعة وضخمة من كلمات المرور المحتملة، مما يحد من معدل التغطية لديها.

2.2 النهج القائمة على الشبكات العصبية

تتعلم نماذج التعلم العميق، بما في ذلك الشبكات التوليدية التنافسية (GANs) مثل PassGAN والمشفرات التلقائية المتغيرة (VAEs) مثل VAEPass، التوزيع الأساسي لمجموعات بيانات كلمات المرور. مؤخرًا، أظهرت النماذج ذاتية الانحدار، وخاصة تلك القائمة على بنية المحول (Transformer) (مثل PassGPT)، أداءً فائقًا من خلال نمذجة كلمات المرور كمتواليات والتنبؤ بالرمز التالي بناءً على الرموز السابقة. تلتقط هذه النماذج التبعيات طويلة المدى بشكل أكثر فعالية. العيب الأساسي في جميع هذه الأساليب العصبية هو الاستخدام الافتراضي لأخذ العينات العشوائية (مثل أخذ العينات النووية، أخذ العينات الأعلى k) لتوليد كلمات المرور، وهي بطبيعتها غير مرتبة ومتكررة.

3. طريقة SOPG

3.1 المفهوم الأساسي والهدف

الفكرة الأساسية لـ SOPG هي أنه لكي يكون هجوم تخمين كلمة المرور فعالاً، يجب أن تكون قائمة كلمات المرور المُولدة غير مكررة ومرتبة من الأكثر احتمالية إلى الأقل احتمالية. يفشل أخذ العينات العشوائية في كلا الجانبين. يتعامل SOPG مع هذا من خلال التعامل مع النموذج ذاتي الانحدار كدليل احتمالي لخوارزمية بحث منهجية، تشبه البحث الحزمي (beam search) ولكنها مُحسنة لتوليد مجموعة كاملة ومرتبة من المرشحين الفريدين بدلاً من متوالية واحدة أفضل.

3.2 خوارزمية البحث والتوليد المرتّب

يستخدم SOPG استراتيجية بحث قائمة على قائمة انتظار الأولوية عبر فضاء كلمات المرور المحتملة. يبدأ من رمز أولي (مثل بداية المتوالية) ويوسع كلمات المرور الجزئية بشكل تكراري. في كل خطوة، يستخدم الشبكة العصبية للتنبؤ باحتمالات الحرف التالي المحتمل. بدلاً من أخذ العينات عشوائيًا، يستكشف الفروع بشكل استراتيجي، مع إعطاء الأولوية للتوسعات التي تؤدي إلى كلمات المرور الكاملة ذات الاحتمال الأعلى. تقوم هذه العملية بتعداد كلمات المرور بشكل منهجي بترتيب شبه أمثل، مما يؤدي بشكل فعال إلى اجتياز موجه لتوزيع احتمالية النموذج.

3.3 بنية نموذج SOPGesGPT

يطبق المؤلفون طريقتهم في SOPGesGPT، وهو نموذج لتخمين كلمات المرور مبني على بنية GPT (المحول المُدرّب مسبقًا التوليدي). يتم تدريب النموذج على تسريبات كلمات مرور حقيقية لتعلم التوزيع الاحتمالي المشترك $P(x_1, x_2, ..., x_T)$ لرموز كلمات المرور. الطبيعة الذاتية الانحدار لـ GPT، حيث $P(x_t | x_{

4. التفاصيل التقنية والصياغة الرياضية

بالنظر إلى نموذج ذاتي الانحدار يعرّف احتمالية كلمة المرور $\mathbf{x} = (x_1, x_2, ..., x_T)$ على النحو التالي: $$P(\mathbf{x}) = \prod_{t=1}^{T} P(x_t | x_1, ..., x_{t-1})$$ هدف SOPG هو توليد متوالية $\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, ...$ بحيث يكون $P(\mathbf{x}^{(1)}) \geq P(\mathbf{x}^{(2)}) \geq ...$ و $\mathbf{x}^{(i)} \neq \mathbf{x}^{(j)}$ من أجل $i \neq j$.

يمكن تصور الخوارزمية على أنها بحث في شجرة حيث كل عقدة تمثل كلمة مرور جزئية. تدير قائمة انتظار الأولوية العقد، مصنفة حسب تقدير الحد الأعلى لاحتمالية أي كلمة مرور كاملة تنحدر من تلك العقدة. يُشتق هذا التقدير من الاحتمالات الشرطية للنموذج. تقوم الخوارزمية باستخراج العقدة ذات الحد الأعلى بشكل متكرر، وتوسعها برمز واحد (توليد عقد فرعية)، وتحسب حدودًا عليا جديدة، وتعيد إدراجها في قائمة الانتظار. عندما يتم استخراج عقدة ورقية (كلمة مرور كاملة)، يتم إخراجها ككلمة المرور التالية في القائمة المرتبة. يضمن هذا بحثًا بأفضل أولوية (best-first search) في فضاء الاحتمالات.

5. النتائج التجريبية والتحليل

معدل التغطية

35.06%

أداء SOPGesGPT على مجموعة الاختبار

التحسن مقارنة بـ PassGPT

81%

معدل تغطية أعلى

كفاءة الاستدلال

أقل بكثير

عدد كلمات المرور المطلوبة مقابل أخذ العينات العشوائية

5.1 المقارنة مع أخذ العينات العشوائية

تُظهر الورقة أولاً الميزة الأساسية لـ SOPG مقارنة بأخذ العينات العشوائية على نفس نموذج GPT الأساسي. لتحقيق نفس معدل التغطية (نسبة كلمات المرور التي تم اختراقها في الاختبار)، يتطلب SOPG عددًا أقل من كلمات المرور المُولدة واستدلالات النموذج بمقدار رتبة قدرها. وذلك لأن كل كلمة مرور يولدها SOPG فريدة وعالية الاحتمال، في حين يهدر أخذ العينات العشوائي الحسابات على التكرارات والتخمينات منخفضة الاحتمال. يترجم هذا مباشرة إلى أوقات هجوم أسرع وتكلفة حسابية أقل.

5.2 المقارنة مع أحدث التقنيات

في اختبار موقع واحد، تتم مقارنة SOPGesGPT مع المعايير الرئيسية: OMEN (ماركوف)، FLA، PassGAN (GAN)، VAEPass (VAE)، والمعاصر PassGPT (المحول مع أخذ العينات العشوائية). النتائج حاسمة. يحقق SOPGesGPT معدل تغطية بنسبة 35.06%، متفوقًا على PassGPT بنسبة 81%، وعلى VAEPass بنسبة 380%، وعلى PassGAN بنسبة 421%، وعلى FLA بنسبة 298%، وعلى OMEN بنسبة 254%. وهذا يضع معيارًا جديدًا لأحدث التقنيات، مسلطًا الضوء على أن طريقة التوليد (SOPG) لا تقل أهمية عن بنية النموذج.

5.3 مقاييس الأداء الرئيسية

المعدل الفعّال: نسبة كلمات المرور المُولدة التي تكون حقيقية (تطابق كلمة مرور في مجموعة الاختبار). يتصدر SOPGesGPT أيضًا في هذا المقياس، مما يشير إلى أنه يولد تخمينات ذات جودة أفضل وليس فقط عددًا أكبر.
كفاءة التوليد: تُقاس بعدد استدعاءات/استدلالات النموذج المطلوبة لاختراق نسبة معينة من كلمات المرور. يوفر النهج المرتب لـ SOPG منحنى كفاءة حادًا، حيث يتم اختراق العديد من كلمات المرور بعدد قليل جدًا من الاستدلالات.
وصف الرسم البياني: سيظهر رسم بياني افتراضي خطين: أحدهما لـ "تغطية أخذ العينات العشوائية مقابل عدد كلمات المرور المُولدة" يرتفع ببطء ويقترب من الخط المقارب، مع ذيل طويل من التكرارات. بينما يرتفع خط "تغطية SOPG مقابل عدد كلمات المرور المُولدة" بشكل حاد وشبه خطي في البداية، ثم يستقر لاحقًا، مما يوضح ترتيب تخمين شبه أمثل.

6. إطار التحليل ومثال تطبيقي

الإطار: ربع كفاءة تخمين كلمة المرور. يمكننا تحليل أي نظام لتخمين كلمات المرور على محورين: (1) جودة النموذج (القدرة على تعلم التوزيع الحقيقي لكلمات المرور)، و (2) أمثالية التوليد (القدرة على إخراج التخمينات بترتيب تنازلي للاحتمال دون إهدار).

  • الربع الأول (نموذج منخفض، أمثالية منخفضة): الهجمات التقليدية القائمة على القواعد.
  • الربع الثاني (نموذج عالي، أمثالية منخفضة): PassGPT، PassGAN – نماذج قوية مقيدة بأخذ العينات العشوائية.
  • الربع الثالث (نموذج منخفض، أمثالية عالية): ماركوف/PCFG المرتب – نماذج محدودة ولكن توليد فعال.
  • الربع الرابع (نموذج عالي، أمثالية عالية): SOPGesGPT – الحالة المستهدفة، تجمع بين نموذج عصبي عالي السعة وخوارزمية التوليد الأمثل SOPG.

مثال تطبيقي (بدون كود): ضع في اعتبارك نموذجًا يعرف أن كلمة المرور "password123" لها احتمال $10^{-3}$ وأن "xq7!kLp2" لها احتمال $10^{-9}$. قد يستغرق أخذ العينات العشوائي ملايين التخمينات للوصول إلى "password123". باستخدام بحثه، سيتعرف SOPG على "password123" ويخرجها كواحدة من أوائل تخميناته، مما يساهم فورًا في التغطية. هذا الاستهداف المرتب هو مصدر كفاءته المذهلة.

7. آفاق التطبيق والاتجاهات المستقبلية

مدققات قوة كلمات المرور الاستباقية: يمكن لـ SOPG تشغيل الجيل التالي من مقاييس قوة كلمات المرور في الوقت الفعلي التي لا تتحقق من القواميس فحسب، بل تحاكي هجومًا حديثًا وفعالًا، مما يمنح المستخدمين تقييمًا أكثر واقعية للمخاطر.
الطب الشرعي الرقمي والاستعادة القانونية: تسريع استعادة كلمات المرور للتحقيقات المصرح بها على الأجهزة المضبوطة.
التدريب العدائي لأنظمة المصادقة: استخدام القوائم المُولدة بواسطة SOPG لاختبار الضغط وتحصين أنظمة المصادقة ضد الهجمات الذكية.
اتجاهات البحث المستقبلية:

  • النماذج الهجينة: الجمع بين التوليد المرتب لـ SOPG وهياكل توليدية أخرى (مثل نماذج الانتشار) لكلمات المرور.
  • SOPG التكيفي/المباشر: تعديل البحث في الوقت الفعلي بناءً على ردود الفعل من النظام المستهدف (مثل استجابات تحديد المعدل).
  • ما بعد كلمات المرور: تطبيق نموذج التوليد المرتب على مجالات أمنية أخرى مثل توليد عناوين URL للتصيد الاحتيالي المحتملة أو متغيرات البرامج الضارة.
  • إجراءات مضادة دفاعية: البحث في اكتشاف وتخفيف الهجمات التي تستخدم استراتيجيات التوليد المرتب.

8. المراجع

  1. J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
  2. M. Weir, S. Aggarwal, B. de Medeiros, and B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
  3. A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, "Improving Language Understanding by Generative Pre-Training," OpenAI, 2018. (ورقة أساسية لـ GPT)
  4. B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," International Conference on Applied Cryptography and Network Security (ACNS), 2019.
  5. D. Pasquini, G. Ateniese, and M. Bernaschi, "Unleashing the Tiger: Inference Attacks on Split Learning," ACM SIGSAC Conference on Computer and Communications Security (CCS), 2021. (يتضمن مناقشة حول استدلال كلمات المرور).
  6. M. J. H. Almeida, I. M. de Sousa, and N. Neves, "Using Deep Learning for Password Guessing: A Systematic Review," Computers & Security, 2023.

9. تحليل أصلي وتعليقات الخبراء

الفكرة الأساسية

الاختراق في هذه الورقة ليس بنية عصبية جديدة، بل هو إعادة صياغة أساسية للمشكلة. لسنوات، كان مجتمع تخمين كلمات المرور، محاكيًا لاتجاهات معالجة اللغات الطبيعية، مهووسًا ببناء مقدرات كثافة أكبر وأفضل (جزء GPT). يحدد SOPG بشكل صحيح أنه بالنسبة للمهمة اللاحقة للاختراق، فإن استراتيجية فك التشفير هي الأهم. إنه الفرق بين امتلاك خريطة مثالية لحقل ألغام (النموذج) ومعرفة كيفية عبوره دون إهدار خطوة واحدة (SOPG). وهذا يحول أولوية البحث من سعة النموذج الخالص إلى خوارزميات استدلال فعالة فوق هذه النماذج — وهو درس تعلمته مجالات الذكاء الاصطناعي التوليدية الأخرى في وقت سابق (مثل البحث الحزمي في الترجمة الآلية).

التسلسل المنطقي

الحجة مقنعة: 1) يتم تعريف كفاءة هجوم كلمة المرور من خلال منحنى معدل الضرب مقابل رقم التخمين. 2) تعطي النماذج ذاتية الانحدار احتمالات لكل رمز. 3) أخذ العينات العشوائية من هذا التوزيع غير أمثل للغاية لإنشاء قائمة تخمين مرتبة. 4) لذلك، نحتاج إلى خوارزمية بحث تستخدم النموذج كمرجع لبناء المتواليات الأكثر احتمالية أولاً بشكل صريح. القفزة من التعرف على المشكلة (3) إلى هندسة الحل (4) هي موضع الجدة. الارتباط بخوارزميات البحث الكلاسيكية في علوم الكمبيوتر (A*، البحث الحزمي) واضح، لكن تكييفها مع فضاء الإخراج الواسع والمنظم لكلمات المرور ليس بالأمر الهين.

نقاط القوة والضعف

نقاط القوة: النتائج التجريبية مذهلة ولا تترك مجالًا للشك في تفوق SOPG في التقييم القياسي غير المتصل لموقع واحد. حجة الكفاءة سليمة نظريًا ومُتحقق منها عمليًا. إنها طريقة عامة قابلة للتطبيق على أي نموذج ذاتي الانحدار، وليس فقط تنفيذهم لـ GPT.
نقاط الضعف والأسئلة: التقييم، على الرغم من إعجابه، لا يزال في إطار مختبري. تواجه الهجمات في العالم الحقيقي دفاعات تكيفية (تحديد المعدل، الإقفال، كلمات المرور الفخية)، والورقة لا تختبر مرونة SOPG في هذه السيناريوهات. من المحتمل أن يكون الحمل الحسابي لخوارزمية البحث نفسها لكل كلمة مرور مُولدة أعلى من أخذ عينة عشوائية واحدة، على الرغم من أن مكسب الكفاءة الإجمالي إيجابي صافٍ. هناك أيضًا الفيل الأخلاقي في الغرفة: بينما يضع المؤلفون الأداة للاستخدام الدفاعي، فإن هذه الأداة تخفض بشكل كبير عتبة الهجمات عالية الكفاءة. يجب على المجال أن يتعامل مع الطبيعة المزدوجة الاستخدام لمثل هذه التطورات، على غرار المناقشات حول نماذج الذكاء الاصطناعي التوليدية مثل CycleGAN أو نماذج اللغة الكبيرة.

رؤى قابلة للتنفيذ

لـ الممارسين في مجال الأمن: هذه الورقة هي دعوة للاستيقاظ. يجب أن تتطور سياسات كلمات المرور إلى ما هو أبعد من منع الكلمات البسيطة في القاموس. يحتاج المدافعون إلى البدء في اختبار الضغط لأنظمتهم ضد هجمات مرتبة تشبه SOPG، والتي أصبحت الآن المعيار الجديد. تحتاج أدوات مثل Have I Been Pwned أو zxcvbn إلى دمج تقنيات التوليد المتقدمة هذه لتقدير قوة أكثر واقعية.
لـ الباحثين: تم تمرير الشعلة. لم تعد الجبهة التالية هي النموذج فقط، بل التوليد التكيفي والكفء في الاستعلام. هل يمكننا بناء نماذج تتعلم من ردود الفعل الجزئية للهجوم؟ هل يمكننا تطوير نماذج دفاعية تكتشف وتشوش التوليد المرتب؟ علاوة على ذلك، كما أشارت مؤسسات مثل NIST في إرشاداتها للهوية الرقمية، فإن الحل طويل الأمد يكمن في التحرك إلى ما بعد كلمات المرور. يسلط هذا البحث الضوء في الوقت نفسه على ذروة اختراق كلمات المرور ويؤكد قيودها الجوهرية، مما يدفعنا نحو المصادقة بدون كلمات مرور. SOPG هي خطوة نهاية لعبة بارعة لتخمين كلمات المرور وحجة قوية لتقاعدها.