جدول المحتويات
1. المقدمة
لا تزال كلمات المرور آلية المصادقة السائدة نظرًا لبساطتها وقابليتها للنشر. ومع ذلك، تشكل تسريبات كلمات المرور تهديدًا كبيرًا، مما يتيح الهجمات والبحث في أنماط إنشاء كلمات المرور البشرية. تبحث هذه الورقة في تطبيق نماذج اللغة الكبيرة (LLMs) على نمذجة كلمات المرور، وتقدم PassGPT. PassGPT هو نموذج لغة كبير تم تدريبه على تسريبات كلمات المرور من أجل التوليد وتقدير القوة، ويظهر أداءً متفوقًا على الطرق السابقة القائمة على شبكات الخصومة التوليدية (GAN) ويقدم قدرات جديدة مثل التوليد الموجه.
2. المنهجية والهيكلية
يُبنى PassGPT على هيكلية GPT-2، مع تكييفها لتوليد كلمات المرور على مستوى الأحرف بشكل تسلسلي. يختلف هذا النهج جوهريًا عن شبكات GAN التي تولد كلمات المرور كوحدات ذرية مفردة.
2.1. هيكلية نموذج PassGPT
يستند النموذج إلى هيكلية وحدة فك تشفير المحولات (Transformer decoder). يعالج كلمات المرور كتسلسلات من الأحرف (أو الرموز)، ويتعلم الاحتمال الشرطي للحرف التالي في ضوء السياق السابق: $P(x_t | x_{
2.2. التوليد الموجه لكلمات المرور
الابتكار الرئيسي هو التوليد الموجه لكلمات المرور. من خلال التلاعب بإجراء أخذ العينات (مثل استخدام الاحتمالات الشرطية أو فك التشفير المقيد)، يمكن لـ PassGPT توليد كلمات مرور تلبي قيودًا محددة من قبل المستخدم (مثل "يجب أن تحتوي على رقم وحرف كبير")، وهي مهمة غير ممكنة مع شبكات GAN القياسية.
2.3. التدريب والبيانات
يتم تدريب النموذج على تسريبات كلمات المرور واسعة النطاق بطريقة غير خاضعة للإشراف وبشكل غير متصل بالإنترنت، بما يتماشى مع نموذج التهديد الشائع في أبحاث الأمن وهو تخمين كلمات المرور غير المتصل.
3. النتائج التجريبية والتحليل
3.1. أداء تخمين كلمات المرور
يتفوق PassGPT بشكل كبير على نماذج التوليد العميقة المتطورة السابقة (مثل شبكات GAN). حيث يخمن 20% أكثر من كلمات المرور غير المرئية سابقًا ويظهر تعميمًا قويًا على مجموعات بيانات كلمات المرور الجديدة التي لم تُرَ أثناء التدريب.
ملخص الأداء
زيادة بنسبة 20% في تخمين كلمات المرور غير المرئية مقارنة بشبكات GAN السابقة.
ضعف عدد كلمات المرور التي تم تخمينها مقارنة ببعض النماذج الأساسية.
3.2. تحليل التوزيع الاحتمالي والإنتروبيا
على عكس شبكات GAN، يوفر PassGPT توزيعًا احتماليًا صريحًا على مساحة كلمات المرور بأكملها. يُظهر التحليل أن PassGPT يعطي احتمالات أقل (مفاجأة أعلى) لكلمات المرور التي تعتبر "قوية" بواسطة مقدرات القوة المعتمدة (مثل zxcvbn)، مما يشير إلى التوافق. كما يحدد كلمات المرور التي تعتبرها المقدرات قوية ولكنها محتملة إحصائيًا تحت النموذج، مما يكشف عن نقاط ضعف محتملة.
3.3. المقارنة مع النهج القائمة على شبكات GAN
يقدم التوليد التسلسلي لـ PassGPT مزايا على شبكات GAN: 1) توزيعات احتمالية صريحة، 2) قدرة التوليد الموجه، 3) أداء أفضل على البيانات غير المرئية. تضع الورقة هذا كنقلة نوعية من التوليد ذو المخرج الواحد إلى النمذجة التسلسلية الاحتمالية القابلة للتحكم لكلمات المرور.
4. التفاصيل التقنية والإطار الرياضي
جوهر PassGPT هو هدف نمذجة اللغة التلقائي، الذي يعظم احتمالية بيانات التدريب:
$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{ حيث $N$ هو عدد كلمات المرور، $T_i$ هو طول كلمة المرور $i$، $x_t^{(i)}$ هو الحرف $t$، و $\theta$ هي معلمات النموذج. يستخدم أخذ العينات للتوليد طرقًا مثل أخذ العينات الأعلى-k أو أخذ العينات النووية لتحقيق التوازن بين التنوع والجودة. احتمال كلمة المرور الكاملة $S$ هو: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{ الفكرة الأساسية: الاختراق الحقيقي للورقة ليس مجرد أداة أفضل لكسر كلمات المرور؛ بل هو إضفاء الطابع الرسمي على إنشاء كلمات المرور كمشكلة توليد تسلسلي قابل للتحكم. من خلال تطبيق التنبؤ بالرمز التالي – وهو العمود الفقري لمعالجة اللغات الطبيعية الحديثة – على كلمات المرور، ينتقل PassGPT إلى ما هو أبعد من التوليد الفوري ذي الصندوق الأسود لشبكات GAN (مثل تلك الموجودة في ترجمة الصور بأسلوب CycleGAN) إلى عملية شفافة وقابلة للتوجيه. يعيد هذا صياغة الأمن من مجرد تقدير القوة إلى نمذجة العملية البشرية وراء اختيار كلمة المرور. التدفق المنطقي: الحجة مقنعة: 1) تتفوق نماذج اللغة الكبيرة في التقاط التوزيعات المعقدة للعالم الحقيقي (النص). 2) كلمات المرور هي لغة فرعية بشرية مقيدة. 3) لذلك، يجب أن تنمذجها نماذج اللغة الكبيرة بشكل فعال – وهو ما تفعله، متفوقة على شبكات GAN. 4) الطبيعة التسلسلية لنماذج اللغة الكبيرة تفتح التوليد الموجه، وهو تطبيق قاتل للتخمين الواعي للسياسات أو الاختبار الاستباقي للقوة. 5) ناتج الاحتمال الصريح يوفر مقياسًا مباشرًا وقابلًا للتفسير للأمن، جسرًا بين الهجمات التوليدية ومقدرات القوة الاحتمالية. نقاط القوة والضعف: القوة لا يمكن إنكارها: أداء متفوق ووظائف جديدة. عرض التوليد الموجه هو ضربة بارعة، يظهر فائدة عملية فورية. ومع ذلك، يحتوي التحليل على عيب خطير شائع في أوراق التعلم الآلي للأمن: فهو يدور حول الطبيعة ذات الاستخدام المزدوج. بينما يذكر "تعزيز مقدرات القوة"، فإن الاستخدام الأساسي المُظهر هو هجومي (تخمين). الإطار الأخلاقي ضعيف. علاوة على ذلك، بينما يتفوق على شبكات GAN، فإن المقارنة مع أدوات الكسر الضخمة القائمة على القواعد مثل Hashcat مع مجموعات القواعد المتقدمة أقل وضوحًا. أداء النموذج لا يزال مقيدًا ببيانات تدريبه – التسريبات – التي قد لا تمثل كل سلوك كلمات المرور البشري. رؤى قابلة للتنفيذ: بالنسبة للمدافعين، هذا ليس إشارة دمار بل دعوة للاستعداد. أولاً، يجب على مقدرات قوة كلمات المرور دمج مثل هذه الاحتمالات التوليدية، كما هو مقترح. يجب تعديل أدوات مثل zxcvbn للتحقق من كلمات المرور مقابل احتمالية نموذج يشبه PassGPT، وليس فقط القواعد الثابتة. ثانيًا، يجب على فرق الاختبار الأحمر اعتماد هذه المنهجية فورًا للتدقيق الداخلي؛ التوليد الموجه مثالي لاختبار الامتثال لسياسات كلمات المرور المحددة. ثالثًا، يثبت هذا البحث الحاجة للانتقال إلى ما هو أبعد من كلمات المرور. إذا كان نموذج لغة كبير يمكنه نمذجتها بهذه الجودة، فإن الإنتروبيا طويلة المدى تنهار. يصبح الاستثمار في FIDO2/WebAuthn ومفاتيح المرور أكثر إلحاحًا. الخلاصة: عالج PassGPT ليس كأداة كسر، بل كأكثر محاكاة دقة لضعف كلمات المرور البشرية تم بناؤها حتى الآن. استخدمه لإصلاح دفاعاتك قبل أن يفعل الخصم ذلك. السيناريو: تتطلب سياسة شركة كلمات مرور تحتوي على حرف كبير واحد على الأقل، ورقم واحد، وحرف خاص واحد. قد يستخدم أداة كسر تقليدية قائمة على القواعد قواعد تشويه. ستواجه شبكة GAN صعوبة في توليد كلمات مرور متوافقة فقط. نهج التوليد الموجه لـ PassGPT:
قصير المدى (1-2 سنة):
5. الفكرة الأساسية ومنظور المحلل
6. إطار التحليل: حالة دراسية مثال
هذا يوضح كيف يمكن استخدام PassGPT لـ اختبار الأمن الواعي للسياسات، وتوليد أضعف كلمات المرور احتمالية التي لا تزال تجتاز فحص السياسة، وتحديد الثغرات في السياسات.7. آفاق التطبيق والاتجاهات المستقبلية
متوسط المدى (3-5 سنوات):
طويل المدى وحدود البحث:
الاتجاه النهائي، كما تشير إليه نجاح الورقة، هو الاستبدال التدريجي لقواعد كلمات المرور الاستدلالية بنماذج أمنية احتمالية مدفوعة بالبيانات.
8. المراجع
- Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
- Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
- Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
- Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
- Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
- FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.