PassGPT: نمذجة كلمات المرور والتوليد الموجه باستخدام نماذج اللغة الكبيرة

1. المقدمة

على الرغم من انتشار آليات المصادقة البديلة، تظل كلمات المرور الطريقة السائدة نظرًا لبساطتها وقابليتها للنشر. هذا الانتشار يجعل تسريبات كلمات المرور ناقل تهديد بالغ الأهمية. لقد كان التعلم الآلي، وخاصة نماذج التوليد العميقة، أداة فعالة في تحليل تسريبات كلمات المرور لكل من هجمات التخمين وتقدير القوة. تقدم هذه الورقة البحثية PassGPT، وهي نهج جديد يستفيد من نماذج اللغة الكبيرة (LLMs) لنمذجة كلمات المرور. تبحث في السؤال الأساسي: ما مدى فعالية نماذج اللغة الكبيرة في التقاط الأنماط المعقدة، وغالبًا اللاواعية، في كلمات المرور التي ينشئها البشر؟ يتم وضع PassGPT كأداة تخمين كلمات مرور دون اتصال، متوافقة مع سيناريوهات البحث العدائية السابقة حيث يمتلك المهاجم كلمات مرور مشفرة.

2. المنهجية الأساسية والهيكل

يغير PassGPT بشكل أساسي نموذج نمذجة كلمات المرور التوليدية العميقة من التوليد الشامل إلى التنبؤ المتسلسل على مستوى الحرف.

2.1. تصميم نموذج PassGPT

يعتمد PassGPT على بنية المحول GPT-2. يتم تدريبه مباشرة على تسريبات كلمات المرور واسعة النطاق، حيث يتعلم توزيع الاحتمال $P(c_i | c_1, c_2, ..., c_{i-1})$ للحرف التالي $c_i$ بالنظر إلى التسلسل السابق. تتيح هذه النمذجة الذاتية الانحدارية له توليد كلمات المرور رمزًا تلو الآخر، مما يمكنه من التقاط الأنماط المورفولوجية المعقدة (مثل البادئات الشائعة مثل "Summer"، واللواحق مثل "123!"، واستبدالات لغة الليت).

2.2. التوليد الموجه لكلمات المرور

هذا ابتكار رئيسي مقارنة بالطرق السابقة القائمة على شبكات GAN. من خلال أخذ العينات من توزيع النموذج أثناء التوليد، يمكن لـ PassGPT دمج قيود تعسفية. على سبيل المثال، يمكن للمهاجم (أو المدافع الذي يختبر امتثال السياسة) توجيه التوليد لإنتاج كلمات مرور: يجب أن تحتوي على حرف كبير، يجب أن تنتهي برقم، أو يجب أن تتضمن سلسلة فرعية محددة. وهذا يتيح استكشافًا مستهدفًا لفضاء كلمات المرور الذي كان سابقًا غير ممكن مع النماذج التي تولد كلمات المرور كمخرجات واحدة غير مقيدة.

2.3. تحسين PassVQT

يقدم المؤلفون PassVQT، وهو متغير محسن بتقنيات المحول الكمي المتجهي. يهدف هذا التعديل إلى زيادة الحيرة (مقياس عدم اليقين) لكلمات المرور المُولدة، مما قد يؤدي إلى مخرجات أكثر تنوعًا وأقل قابلية للتنبؤ، على الرغم من أن المقايضات مع قابلية التخمين تتطلب تقييماً دقيقاً.

3. النتائج التجريبية والأداء

مقياس الأداء الرئيسي

20% زيادة في كلمات المرور غير المرئية سابقًا: خمّن PassGPT عددًا أكبر بنسبة 20% من كلمات المرور التي لم تُرَ سابقًا مقارنة بأحدث النماذج القائمة على GAN (مثل PassGAN).

3.1. أداء تخمين كلمات المرور

تُظهر الورقة البحثية أداءً متفوقًا في هجمات التخمين دون اتصال. عند التقييم على مجموعات بيانات كلمات المرور المحجوزة، حقق PassGPT تقريبًا ضعف معدل الضربات على كلمات المرور التي لم تُرَ سابقًا مقارنة بخطوط الأساس لشبكات GAN. يشير هذا إلى قدرة تعميم أفضل بشكل ملحوظ، حيث يتعلم التوزيع الأساسي لكلمات المرور التي يختارها البشر بشكل أكثر فعالية من الشبكات الخصومة.

3.2. تحليل تقدير القوة

نتيجة حاسمة هي أن الاحتمال الصريح $P(password)$ الذي يعيّنه PassGPT يرتبط بقوة كلمة المرور. فهو يعيّن باستمرار احتمالات أقل لكلمات المرور الأقوى، متوافقًا مع مقدرات القوة الراسخة مثل zxcvbn. علاوة على ذلك، يحدد التحليل كلمات المرور التي تعتبر "قوية" من قبل المقدرات التقليدية ولكنها مُنحت احتمالية عالية من قبل PassGPT - مما يسلط الضوء على فئة جديدة من كلمات المرور القابلة للاختراق بواسطة التعلم الآلي والتي قد تفوتها المدققات الحالية.

4. التفاصيل التقنية والإطار الرياضي

جوهر PassGPT هو هدف نمذجة اللغة الذاتية الانحدارية. بالنظر إلى كلمة مرور ممثلة كتسلسل من الرموز (أحرف أو كلمات فرعية) $x = (x_1, x_2, ..., x_T)$، يتم تدريب النموذج لتعظيم الاحتمالية: $$L = \sum_{t=1}^{T} \log P(x_t | x_{

5. إطار التحليل ودراسة الحالة

دراسة الحالة: تحديد كلمات المرور الضعيفة الممتثلة للسياسة
السيناريو: تفرض شركة سياسة لكلمات المرور: "12 حرفًا على الأقل، حرف كبير واحد، رقم واحد، حرف خاص واحد". هجوم القوة الغاشمة التقليدي على هذا الفضاء هائل ($\sim94^{12}$ احتمالاً).
تطبيق PassGPT: باستخدام التوليد الموجه، يمكن للمحلل أخذ عينات من PassGPT مع هذه القيود الدقيقة. النموذج، بعد أن تعلم ميول البشر، سيولد مرشحين مثل "Summer2023!Sun"، "January01?Rain"، والتي تمتثل للسياسة ولكنها قابلة للتخمين بشدة بسبب الأنماط الدلالية الشائعة. يوضح هذا كيف يمكن لـ PassGPT أن يجد بكفاءة "النقاط الضعيفة" داخل فضاء محدد بسياسة قوي نظريًا، وهي مهمة شبه مستحيلة لمولدات القوة الغاشمة أو القائمة على القواعد مثل أقنعة Hashcat.

6. التطبيقات المستقبلية واتجاهات البحث

تقدير قوة كلمة المرور الاستباقي: دمج درجات احتمالية PassGPT في مدققات إنشاء كلمات المرور في الوقت الفعلي للإشارة إلى كلمات المرور القابلة للاختراق بواسطة التعلم الآلي والتي تجتاز القواعد التقليدية.
محاكاة الخصومة وفريق القرصنة الأحمر: استخدام PassGPT الموجه لمحاكاة مهاجمين متطورين واعين بالسياق لتصميم سياسة دفاعية أفضل لكلمات المرور.
تعلم الأنماط عبر المجالات: استكشاف ما إذا كانت نماذج اللغة الكبيرة المدربة على كلمات المرور يمكنها تحديد الأنماط الخاصة بالمستخدم عبر الخدمات المختلفة، مما يثير مخاوف بشأن الهجمات المستهدفة.
توليد بيانات التدريب الدفاعية: استخدام PassGPT لتوليد مجموعات بيانات كلمات مرور اصطناعية ضخمة وواقعية لتدريب نماذج التعلم الآلي الدفاعية دون الكشف عن بيانات المستخدمين الحقيقية.
التكامل مع سياق أكبر: قد تدمج النماذج المستقبلية بيانات سياقية (مثل البيانات الديموغرافية للمستخدم، نوع الخدمة) لنمذجة اختيار كلمة المرور بدقة أكبر، كما تشير إليه اتجاهات التخصيص في نماذج اللغة الكبيرة.

7. المراجع

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Cryptography and Network Security.
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.

8. التحليل الأصلي والتعليقات الخبيرة

الفكرة الأساسية

PassGPT ليس مجرد تحسين تدريجي؛ إنه تحول نموذجي يكشف الهشاشة الأساسية للأسرار التي يختارها البشر أمام الذكاء الاصطناعي الحديث. الاستنتاج الأكثر إدانة في الورقة البحثية هو أن الطبيعة المتسلسلة والمطابقة للأنماط لـ LLMs - التي تجعلها جيدة جدًا في اللغة - تجعلها فعالة بشكل مرعب في نمذجة "اللغة" شبه المنظمة لكلمات المرور. هذا ينقل التهديد من القوة الغاشمة الإحصائية إلى النمذجة المعرفية.

التدفق المنطقي

الحجة مقنعة: 1) تهيمن LLMs على معالجة اللغة الطبيعية من خلال تعلم الأنماط الإحصائية العميقة في التسلسلات. 2) كلمات المرور هي تسلسلات منشأة بواسطة البشر لها أنماط إحصائية عميقة، وغالبًا لا واعية (مثل المشي على لوحة المفاتيح، تنسيقات التاريخ، التسلسلات الدلالية). 3) لذلك، يجب أن تهيمن LLMs على نمذجة كلمات المرور. تؤكد النتائج ذلك بكفاءة قاسية. ميزة التوليد الموجه هي التطبيق القاتل المنطقي - فهي تسلح هذا الفهم، مما يسمح للمهاجمين باستغلال تقاطع السياسة وكسل البشر بشكل جراحي.

نقاط القوة والضعف

نقاط القوة: تحسين الأداء بنسبة 20% على شبكات GAN مهم في مجال يصعب تحقيق المكاسب فيه. التوزيع الاحتمالي الصريح هو ميزة نظرية وعملية رئيسية، يربط بين التوليد والتقدير. التوليد الموجه ابتكار حقيقي.
نقاط الضعف والأسئلة: الورقة البحثية، مثل الكثير من أبحاث التعلم الآلي العدائية، خفيفة في الآثار الدفاعية. كيف نبني سياسات مقاومة لهذا؟ بيانات التدريب (تسريبات كلمات المرور) غامضة أخلاقيًا. علاوة على ذلك، كما لوحظ في ورقة CycleGAN وأدبيات نماذج التوليد الأخرى، فإن انهيار الأنماط والتنوع قضايا دائمة؛ بينما يعالج PassVQT الحيرة، فإن الذيل الطويل لكلمات المرور العشوائية حقًا قد يظل آمنًا. المقارنة هي في المقام الأول ضد شبكات GAN؛ ستوفر المقارنة مع أنظمة قائمة على القواعد ضخمة ومحسنة مثل JtR أو Hashcat مع قواعد متقدمة صورة أكثر اكتمالاً.

رؤى قابلة للتنفيذ

لـ مسؤولي أمن المعلومات والمدافعين: انتهى عصر قواعد التعقيد. يجب أن تفرض السياسات استخدام عبارات مرور عشوائية حقًا أو كلمات مرور يتم إنشاؤها بواسطة مدير آمن تشفيريًا. يجب تعزيز أدوات مثل zxcvbn على الفور بدرجة "قابلية التخمين بواسطة التعلم الآلي"، والتي من المحتمل أن تُشتق من نماذج مثل PassGPT نفسه. يجب أن يشمل البحث الاستباقي عن التهديدات محاكاة هجمات على غرار PassGPT ضد تجزئات كلمات المرور الخاصة بك (بترخيص مناسب).
لـ الباحثين: يجب أن تكون الأولوية دفاعية. يجب أن تكون الأوراق البحثية القادمة حول "خطط إنشاء كلمات مرور مقاومة لـ PassGPT". هناك أيضًا حاجة ملحة لأطر أخلاقية للبحث باستخدام البيانات المسربة، كما أكدت عليه مؤسسات مثل مركز الأمن السيبراني طويل الأمد (CLTC). أخيرًا، قد يكون استكشاف تطبيق التعلم المعزز من التغذية الراجعة البشرية (RLHF) لتوجيه LLMs بعيدًا عن توليد أنماط قابلة للتخمين إجراءً دفاعيًا مضادًا واعدًا.

باختصار، PassGPT هو دعوة للاستيقاظ. يوضح أن أحدث تقنيات الذكاء الاصطناعي، المطورة للمهام الإبداعية والتواصلية، يمكن إعادة توظيفها بكفاءة مروعة لكسر أحد أقدم آليات الأمن الرقمي. لم يعد بإمكان الدفاع الاعتماد فقط على التفوق على قابلية التنبؤ البشرية؛ يجب عليه الآن أيضًا التفوق على الذكاء الاصطناعي الذي تعلم تقليدها بشكل مثالي.