PassGPT: نمذجة كلمات المرور والتوليد الموجه باستخدام نماذج اللغة الكبيرة

1. المقدمة

على الرغم من التقدم في تقنيات المصادقة، تظل كلمات المرور الآلية السائدة نظرًا لبساطتها وقابليتها للنشر. تشكل تسريبات كلمات المرور تهديدات أمنية كبيرة، مما يتيح الوصول غير المصرح به وتحسين أدوات الاختراق. تبحث هذه الورقة في تطبيق نماذج اللغة الكبيرة (LLMs) على نمذجة كلمات المرور، وتقدم PassGPT—نموذجًا تم تدريبه على تسريبات كلمات المرور من أجل التوليد وتقدير القوة.

يُظهر البحث أن PassGPT يتفوق على الطرق الحالية القائمة على الشبكات التوليدية التنافسية (GAN) من خلال تخمين 20% أكثر من كلمات المرور غير المرئية سابقًا ويقدم توليد كلمات مرور موجهة—قدرة جديدة لتوليد كلمات مرور تحت قيود تعسفية.

2. المنهجية والهيكلية

يُبنى PassGPT على هيكلية GPT-2، مع تكييفها من أجل التوليد التسلسلي لأحرف كلمات المرور. تختلف هذه الطريقة عن شبكات GAN التي تولد كلمات المرور كوحدات كاملة.

2.1. تصميم نموذج PassGPT

النموذج هو محول ذاتي الانحدار (autoregressive Transformer) تم تدريبه على تسريبات كلمات مرور واسعة النطاق. يتعلم توزيع الاحتمال $P(x_t | x_{

2.2. التوليد الموجه لكلمات المرور

الابتكار الرئيسي هو التوليد الموجه على مستوى الأحرف. من خلال التلاعب بإجراء أخذ العينات (مثل استخدام الاحتمالات الشرطية أو الإخفاء)، يمكن لـ PassGPT توليد كلمات مرور تلقي قيودًا محددة، مثل احتوائها على رموز معينة، أو تلبية متطلبات الطول، أو تضمين سلاسل فرعية محددة—وهو إنجاز لا يمكن تحقيقه باستخدام شبكات GAN القياسية.

2.3. تحسين PassVQT

يدمج PassVQT تقنيات المحول الكمي المتجه (Vector Quantized Transformer - VQT)، باستخدام قاموس رموز منفصل لتمثيل التضمينات الكامنة. يمكن أن يزيد هذا من التعقيد والتنوع لكلمات المرور المُولدة، على الرغم من أنه قد يأتي بتكلفة حسابية.

3. النتائج التجريبية

3.1. أداء تخمين كلمات المرور

تُظهر التجارب على تسريبات كلمات المرور الواقعية (مثل RockYou) أن PassGPT يتفوق بشكل كبير على نماذج التوليد العميقة السابقة المتطورة مثل PassGAN. في إحدى الاختبارات، خمّن PassGPT ضعف عدد كلمات المرور الفريدة غير المرئية سابقًا مقارنةً بالطرق القائمة على GAN. كما أظهر تعميمًا قويًا على مجموعات بيانات جديدة محجوزة.

مقارنة الأداء

PassGPT مقابل GANs: معدل نجاح أعلى بنسبة 20% في تخمين كلمات المرور غير المرئية.

التعميم: أداء فعال على تسريبات كلمات مرور جديدة لم تُرَ أثناء التدريب.

3.2. تحليل توزيع الاحتمالات

على عكس شبكات GAN، يوفر PassGPT توزيع احتمالات صريحًا لكلمات المرور. يُظهر التحليل ارتباطًا قويًا بين انخفاض احتمالية كلمة المرور (ارتفاع الاحتمال اللوغاريتمي السالب) وقوتها العالية كما يقيسها مقدرات مثل zxcvbn. ومع ذلك، حدد PassGPT حالات حيث كانت كلمات المرور التي تعتبر "قوية" من قبل المقدرات التقليدية لها احتمالية عالية نسبيًا تحت نموذجه، مما يشير إلى نقاط ضعف محتملة.

تضمين الرسم البياني: سيوضح مخطط الانتشار الافتراضي احتمالية كلمة المرور (PassGPT) على المحور السيني ودرجة القوة (zxcvbn) على المحور الصادي، مما يكشف عن اتجاه سلبي عام مع قيم شاذة ملحوظة حيث تتمتع كلمات المرور عالية القوة باحتمالية عالية بشكل غير متوقع.

4. التحليل التقني والإطار

منظور محلل صناعي: تقييم نقدي لنهج PassGPT، وتداعياته، والاستنتاجات العملية.

4.1. الفكرة الأساسية

الاختراق الأساسي للورقة ليس مجرد نموذج ذكاء اصطناعي آخر لكلمات المرور؛ بل هو تحول نموذجي من مطابقة الأنماط التمييزية إلى نمذجة التسلسل التوليدية. بينما تعتمد أدوات مثل Hashcat على القواعد وسلاسل ماركوف، وتولد شبكات GAN مثل PassGAN مخرجات شاملة، يعامل PassGPT إنشاء كلمات المرور كفعل لغوي. هذا يعكس كيفية قيام نماذج LLM مثل GPT-3 بالتقاط "قواعد" و"دلالات" اللغة الطبيعية، ولكن هنا يتم تطبيقه على "لغة" إنشاء كلمات المرور البشرية. القيمة الحقيقية المقترحة هي توزيع الاحتمالات الصريح والقابل للتتبع الذي توفره—ميزة غائبة بشكل واضح في شبكات GAN، التي غالبًا ما تُنتقد على أنها "صناديق سوداء" (Goodfellow et al., 2014). هذا ينقل أمن كلمات المرور من التخمين الاستدلالي إلى التفكير الاحتمالي.

4.2. التسلسل المنطقي

يتقدم الجدال بمنطق مقنع: (1) تهيمن نماذج LLM على معالجة اللغة الطبيعية من خلال نمذجة التسلسلات؛ (2) كلمات المرور هي تسلسلات أحرف ذات هيكل كامن؛ (3) لذلك، يجب أن تنمذج نماذج LLM كلمات المرور بشكل فعال. التحقق قوي: الأداء المتفوق في التخمين يثبت الفرضية. إدخال التوليد الموجه هو امتداد طبيعي للهيكلية التسلسلية—يشبه التوليد النصي الموجه في نماذج مثل CTRL (Keskar et al., 2019). تحليل توزيع الاحتمالات هو الخطوة الحاسمة التالية، ويربط النمذجة التوليدية مرة أخرى بمجال تقدير القوة العملي. التسلسل من النمذجة -> التوليد -> التحليل -> التطبيق متماسك ومؤثر.

4.3. نقاط القوة والضعف

نقاط القوة: مكاسب الأداء لا يمكن إنكارها. قدرة التوليد الموجه هي ابتكار حقيقي مع تطبيقات فورية لاختبار الاختراق (توليد مرشحي كلمات مرور متوافقة مع القواعد) وربما لمساعدة المستخدمين على إنشاء كلمات مرور سهلة التذكر ومعقدة. توفير توزيع احتمالات هو ميزة نظرية وعملية كبرى، مما يتيح حساب الإنتروبيا والتكامل مع أطر الأمان الحالية.

نقاط الضعف والمخاوف: تتجاهل الورقة قضايا كبيرة. أولاً، الاستخدام المزدوج الأخلاقي: هذه أداة اختراق قوية. بينما يتم وضعها لأبحاث "التخمين دون اتصال"، فإن إمكانية إساءة استخدامها عالية، ويتطلب إصدار الرموز/النماذج إرشادات أخلاقية صارمة، تشبه النقاشات المحيطة بأبحاث الذكاء الاصطناعي الأخرى ذات الاستخدام المزدوج (Brundage et al., 2018). ثانيًا، الاعتماد على البيانات: مثل جميع نماذج التعلم الآلي، PassGPT جيد فقط بقدر جودة بيانات تدريبه. قد يفشل في نمذجة كلمات المرور من ثقافات أو لغات ممثلة تمثيلاً ناقصًا في التسريبات الشائعة. ثالثًا، التكلفة الحسابية: تدريب وتشغيل المحولات الكبيرة كثيف الموارد مقارنة ببعض الطرق القديمة، مما قد يحد من التطبيق في الوقت الفعلي. تم ذكر زيادة "التعقيد" في متغير PassVQT ولكن لم يتم تقييمها بدقة—هل يؤدي التنوع الأعلى إلى تخمين أكثر فعالية، أم مجرد سلاسل حروف غير منطقية أكثر؟

4.4. رؤى قابلة للتطبيق

لـ فرق الأمن: قيّم فورًا كيف قد تكون سياسات كلمات المرور في مؤسستك عرضة لهذا الجيل الجديد من الهجمات المدعومة بالذكاء الاصطناعي. السياسات التي تفرض أنماطًا معقدة ولكن يمكن التنبؤ بها (مثل "اسم الشركة2024!") أصبحت الآن أكثر عرضة. ادعُ إلى التحول نحو استخدام العشوائية الحقيقية (مديري كلمات المرور) أو العبارات السرية.

لـ الباحثين والبائعين: ادمج تقديرات الاحتمالية القائمة على LLM في مقاييس القوة. يمكن أن يكون المقدر الهجين الذي يجمع بين القواعد التقليدية (zxcvbn) واحتمالية PassGPT أكثر قوة. طور نماذج دفاعية يمكنها اكتشاف كلمات المرور التي يحتمل أن يتم توليدها بواسطة PassGPT، مما يخلق سباق تسلح بين الذكاء الاصطناعي والذكاء الاصطناعي في أمن كلمات المرور.

لـ صانعي السياسات: موّل الأبحاث في التطبيقات الدفاعية لهذه التكنولوجيا وأنشئ أطرًا أخلاقية واضحة لنشر أدوات الذكاء الاصطناعي الهجومية القوية في الأمن السيبراني.

مثال على الإطار (غير برمجي): فكر في سياسة كلمة مرور مؤسسة مالية: "12 حرفًا، حرف كبير واحد، حرف صغير واحد، رقم واحد، حرف خاص واحد." قد تستخدم أداة اختراق تقليدية القوة الغاشمة أو قواعد التشويه. قد تواجه شبكة GAN صعوبة في توليد مخرجات تلقي جميع القيود بدقة. يمكن توجيه التوليد الموجه لـ PassGPT لأخذ عينات فقط من التسلسلات التي تفي بهذه السياسة بالضبط، واستكشاف الفضاء الجزئي عالي الاحتمالية من فضاء البحث المقيد هذا بكفاءة، مما يجعله أداة قوية لكل من فرق الاختبار الأحمر التي تختبر هذه السياسة والمهاجمين ذوي الصندوق الأسود.

5. التطبيقات المستقبلية والاتجاهات

تقدير قوة محسّن: دمج درجات احتمالية PassGPT في مقاييس قوة كلمات المرور الفورية للمواقع والتطبيقات.
مراجعة كلمات المرور الاستباقية: يمكن للمؤسسات استخدام نماذج PassGPT الموجهة لتوليد واختبار كلمات مرور تتوافق مع السياسات الداخلية بشكل استباقي، وتحديد النقاط الضعف قبل أن يفعل المهاجمون ذلك.
نماذج دفاع هجينة: تطوير نماذج تمييزية يمكنها التمييز بين كلمات المرور المختارة بواسطة البشر وتلك المُولدة بواسطة LLM للإشارة إلى بيانات الاعتماد المحتملة الضعف أو المخترقة.
نمذجة التسلسل عبر المجالات: تطبيق نفس الهيكلية على تسلسلات أخرى ذات صلة بالأمان، مثل بصمات بروتوكولات الشبكة، أو تسلسلات استدعاءات واجهة برمجة التطبيقات للبرامج الضارة، أو أنماط المعاملات الاحتيالية.
التدريب الموحد والحافظ للخصوصية: استكشاف تقنيات لتدريب مثل هذه النماذج على بيانات كلمات مرور موزعة ومجهولة الهوية دون تركيز التسريبات الحساسة.
توليد كلمات مرور خصومية: استخدام التوليد الموجه لإنشاء "أمثلة خصومية"—كلمات مرور تبدو قوية للمقدرات ولكن يمكن تخمينها بسهولة بواسطة النموذج—لاختبار الضغط وتحسين تلك المقدرات.

6. المراجع

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.