PassGPT: बड़े भाषा मॉडल के साथ पासवर्ड मॉडलिंग और निर्देशित जनरेशन

1. परिचय

प्रमाणीकरण प्रौद्योगिकियों में प्रगति के बावजूद, उनकी सरलता और तैनाती के कारण पासवर्ड प्रमुख तंत्र बने हुए हैं। पासवर्ड लीक महत्वपूर्ण सुरक्षा खतरे पैदा करते हैं, जो अनधिकृत पहुंच और क्रैकिंग टूल्स के परिष्करण दोनों को सक्षम बनाते हैं। यह शोध पेपर पासवर्ड मॉडलिंग के लिए बड़े भाषा मॉडल (एलएलएम) के अनुप्रयोग की जांच करता है, PassGPT का परिचय देता है—जनरेशन और स्ट्रेंथ एस्टीमेशन के लिए पासवर्ड लीक पर प्रशिक्षित एक मॉडल।

यह शोध प्रदर्शित करता है कि PassGPT मौजूदा जनरेटिव एडवरसैरियल नेटवर्क (GAN)-आधारित विधियों से बेहतर प्रदर्शन करता है, 20% अधिक पहले कभी न देखे गए पासवर्ड का अनुमान लगाकर और निर्देशित पासवर्ड जनरेशन का परिचय देता है—मनमानी बाधाओं के तहत पासवर्ड जनरेट करने की एक नवीन क्षमता।

2. पद्धति एवं आर्किटेक्चर

PassGPT, GPT-2 आर्किटेक्चर पर आधारित है, जिसे पासवर्ड कैरेक्टर्स के अनुक्रमिक जनरेशन के लिए अनुकूलित किया गया है। यह दृष्टिकोण उन GANs के विपरीत है जो पासवर्ड को पूर्ण इकाइयों के रूप में जनरेट करते हैं।

2.1. PassGPT मॉडल डिज़ाइन

यह मॉडल बड़े पैमाने पर पासवर्ड लीक पर प्रशिक्षित एक ऑटोरेग्रेसिव ट्रांसफॉर्मर है। यह अगले कैरेक्टर $x_t$ की प्रायिकता वितरण $P(x_t | x_{

2.2. निर्देशित पासवर्ड जनरेशन

एक प्रमुख नवाचार कैरेक्टर-लेवल निर्देशित जनरेशन है। सैंपलिंग प्रक्रिया में हेरफेर करके (जैसे, सशर्त प्रायिकताओं या मास्किंग का उपयोग करके), PassGPT ऐसे पासवर्ड जनरेट कर सकता है जो विशिष्ट बाधाओं को पूरा करते हैं, जैसे कि कुछ प्रतीकों को शामिल करना, लंबाई आवश्यकताओं को पूरा करना, या विशिष्ट सबस्ट्रिंग्स को शामिल करना—एक ऐसा कारनामा जो मानक GANs के साथ प्राप्त करने योग्य नहीं है।

2.3. PassVQT एन्हांसमेंट

PassVQT, वेक्टर क्वांटाइज्ड ट्रांसफॉर्मर (VQT) तकनीकों को शामिल करता है, जो लेटेंट एम्बेडिंग्स का प्रतिनिधित्व करने के लिए एक असतत कोडबुक का उपयोग करता है। यह जनरेट किए गए पासवर्ड की पेरप्लेक्सिटी और विविधता को बढ़ा सकता है, हालांकि इसकी कम्प्यूटेशनल लागत अधिक हो सकती है।

3. प्रायोगिक परिणाम

3.1. पासवर्ड गेसिंग प्रदर्शन

वास्तविक दुनिया के पासवर्ड लीक (जैसे, RockYou) पर प्रयोग दर्शाते हैं कि PassGPT, PassGAN जैसे पिछले अत्याधुनिक डीप जनरेटिव मॉडल्स से काफी बेहतर प्रदर्शन करता है। एक परीक्षण में, PassGPT ने GAN-आधारित दृष्टिकोणों की तुलना में दोगुने अद्वितीय, पहले कभी न देखे गए पासवर्ड का अनुमान लगाया। इसने नए, होल्ड-आउट डेटासेट्स पर मजबूत सामान्यीकरण भी प्रदर्शित किया।

प्रदर्शन तुलना

PassGPT बनाम GANs: अनदेखे पासवर्ड का अनुमान लगाने में 20% अधिक सफलता दर।

सामान्यीकरण: प्रशिक्षण के दौरान न देखे गए नए पासवर्ड लीक पर प्रभावी प्रदर्शन।

3.2. प्रायिकता वितरण विश्लेषण

GANs के विपरीत, PassGPT पासवर्ड पर एक स्पष्ट प्रायिकता वितरण प्रदान करता है। विश्लेषण से पता चलता है कि कम पासवर्ड प्रायिकता (उच्च नकारात्मक लॉग-संभावना) और zxcvbn जैसे अनुमानकों द्वारा मापी गई उच्च स्ट्रेंथ के बीच एक मजबूत सहसंबंध है। हालांकि, PassGPT ने ऐसे उदाहरणों की पहचान की जहां पारंपरिक अनुमानकों द्वारा "मजबूत" माने जाने वाले पासवर्ड की इसके मॉडल के तहत अपेक्षाकृत उच्च प्रायिकता थी, जो संभावित कमजोरियों का संकेत देती है।

चार्ट निहितार्थ: एक काल्पनिक स्कैटर प्लॉट x-अक्ष पर पासवर्ड प्रायिकता (PassGPT) और y-अक्ष पर स्ट्रेंथ स्कोर (zxcvbn) दिखाएगा, जो एक सामान्य नकारात्मक प्रवृत्ति को प्रकट करेगा, जिसमें उल्लेखनीय आउटलायर्स होंगे जहां उच्च-स्ट्रेंथ पासवर्ड की अप्रत्याशित रूप से उच्च प्रायिकता है।

4. तकनीकी विश्लेषण एवं फ्रेमवर्क

उद्योग विश्लेषक परिप्रेक्ष्य: PassGPT दृष्टिकोण, इसके निहितार्थ और व्यावहारिक निष्कर्षों का एक आलोचनात्मक मूल्यांकन।

4.1. मूल अंतर्दृष्टि

पेपर की मौलिक सफलता केवल पासवर्ड के लिए एक और एआई मॉडल नहीं है; यह विभेदक पैटर्न मिलान से जनरेटिव अनुक्रम मॉडलिंग की ओर एक प्रतिमान बदलाव है। जबकि Hashcat जैसे टूल नियमों और मार्कोव चेन पर निर्भर करते हैं, और PassGAN जैसे GANs समग्र आउटपुट जनरेट करते हैं, PassGPT पासवर्ड क्रिएशन को एक भाषाई कार्य के रूप में मानता है। यह दर्शाता है कि GPT-3 जैसे एलएलएम प्राकृतिक भाषा के "व्याकरण" और "शब्दार्थ" को कैसे पकड़ते हैं, लेकिन यहां इसे मानव पासवर्ड क्रिएशन की "भाषा" पर लागू किया गया है। वास्तविक मूल्य प्रस्ताव वह स्पष्ट, ट्रेसेबल प्रायिकता वितरण है जो यह प्रदान करता है—GANs में स्पष्ट रूप से अनुपस्थित एक विशेषता, जिन्हें अक्सर "ब्लैक बॉक्स" (Goodfellow et al., 2014) के रूप में आलोचना की जाती है। यह पासवर्ड सुरक्षा को अनुमानी अनुमान से प्रायिकता तर्क की ओर ले जाता है।

4.2. तार्किक प्रवाह

तर्क प्रभावशाली तर्क के साथ आगे बढ़ता है: (1) एलएलएम अनुक्रमों को मॉडल करके एनएलपी पर हावी हैं; (2) पासवर्ड अव्यक्त संरचना वाले कैरेक्टर्स के अनुक्रम हैं; (3) इसलिए, एलएलएम को पासवर्ड को प्रभावी ढंग से मॉडल करना चाहिए। सत्यापन मजबूत है: श्रेष्ठ गेसिंग प्रदर्शन आधार को सिद्ध करता है। निर्देशित जनरेशन का परिचय अनुक्रमिक आर्किटेक्चर का एक स्वाभाविक विस्तार है—CTRL (Keskar et al., 2019) जैसे मॉडल में नियंत्रित टेक्स्ट जनरेशन के समान। प्रायिकता वितरण का विश्लेषण अगला महत्वपूर्ण कदम है, जो जनरेटिव मॉडलिंग को स्ट्रेंथ एस्टीमेशन के व्यावहारिक डोमेन से वापस जोड़ता है। मॉडलिंग -> जनरेशन -> विश्लेषण -> अनुप्रयोग का प्रवाह सुसंगत और प्रभावशाली है।

4.3. शक्तियाँ एवं कमियाँ

शक्तियाँ: प्रदर्शन लाभ निर्विवाद हैं। निर्देशित जनरेशन क्षमता एक वास्तविक नवाचार है जिसके पास पैनेट्रेशन टेस्टिंग (नियम-अनुपालन पासवर्ड उम्मीदवार जनरेट करना) और संभवतः उपयोगकर्ताओं को यादगार लेकिन जटिल पासवर्ड बनाने में मदद करने के लिए तत्काल अनुप्रयोग हैं। एक प्रायिकता वितरण प्रदान करना एक प्रमुख सैद्धांतिक और व्यावहारिक लाभ है, जो एन्ट्रॉपी गणना और मौजूदा सुरक्षा फ्रेमवर्क के साथ एकीकरण को सक्षम बनाता है।

कमियाँ एवं चिंताएँ: पेपर महत्वपूर्ण मुद्दों को सतही रूप से छूता है। पहला, नैतिक द्वैध उपयोग: यह एक शक्तिशाली क्रैकिंग टूल है। जबकि इसे "ऑफ़लाइन गेसिंग" शोध के लिए स्थित किया गया है, इसके दुरुपयोग की संभावना अधिक है, और कोड/मॉडल की रिलीज़ को अन्य द्वैध उपयोग एआई शोध (Brundage et al., 2018) से जुड़ी बहसों के समान कठोर नैतिक दिशानिर्देशों की आवश्यकता है। दूसरा, डेटा निर्भरता: सभी एमएल मॉडल्स की तरह, PassGPT केवल उतना ही अच्छा है जितना कि इसका प्रशिक्षण डेटा। यह सामान्य लीक में कम प्रतिनिधित्व वाली संस्कृतियों या भाषाओं के पासवर्ड को मॉडल करने में विफल हो सकता है। तीसरा, कम्प्यूटेशनल लागत: कुछ पुरानी विधियों की तुलना में बड़े ट्रांसफॉर्मर्स को प्रशिक्षित और चलाना संसाधन-गहन है, जो वास्तविक समय के अनुप्रयोग को सीमित कर सकता है। PassVQT वेरिएंट की बढ़ी हुई "पेरप्लेक्सिटी" का उल्लेख किया गया है लेकिन पूरी तरह से मूल्यांकन नहीं किया गया है—क्या उच्च विविधता अधिक प्रभावी गेसिंग में तब्दील होती है, या केवल अधिक बकवास स्ट्रिंग्स में?

4.4. क्रियान्वयन योग्य अंतर्दृष्टि

सुरक्षा टीमों के लिए: तुरंत आकलन करें कि आपकी संगठन की पासवर्ड नीतियाँ एआई-संचालित हमलों की इस नई पीढ़ी के प्रति कैसे कमजोर हो सकती हैं। जटिल लेकिन अनुमानित पैटर्न (जैसे, "CompanyName2024!") अनिवार्य करने वाली नीतियाँ अब अधिक उजागर हैं। सच्ची यादृच्छिकता (पासवर्ड मैनेजर) या पासफ्रेज़ की ओर बदलाव की वकालत करें।

शोधकर्ताओं और विक्रेताओं के लिए: स्ट्रेंथ मीटर में एलएलएम-आधारित प्रायिकता अनुमानों को एकीकृत करें। पारंपरिक नियमों (zxcvbn) और PassGPT की संभावना को जोड़ने वाला एक हाइब्रिड अनुमानक अधिक मजबूत हो सकता है। ऐसे रक्षात्मक मॉडल विकसित करें जो PassGPT द्वारा जनरेट किए जाने की संभावना वाले पासवर्ड का पता लगा सकें, जिससे पासवर्ड सुरक्षा में एआई बनाम एआई हथियारों की दौड़ पैदा हो।

नीति निर्माताओं के लिए: इस प्रौद्योगिकी के रक्षात्मक अनुप्रयोगों में शोध को निधि दें और साइबर सुरक्षा में शक्तिशाली आक्रामक एआई टूल्स के प्रकाशन के लिए स्पष्ट नैतिक फ्रेमवर्क स्थापित करें।

फ्रेमवर्क उदाहरण (नॉन-कोड): एक वित्तीय संस्थान की पासवर्ड नीति पर विचार करें: "12 कैरेक्टर, 1 अपरकेस, 1 लोअरकेस, 1 नंबर, 1 स्पेशल कैरेकर।" एक पारंपरिक क्रैकिंग टूल ब्रूट-फोर्स या मैंगलिंग नियमों का उपयोग कर सकता है। एक GAN सभी बाधाओं को सख्ती से पूरा करने वाले आउटपुट जनरेट करने में संघर्ष कर सकता है। PassGPT के निर्देशित जनरेशन को केवल उस सटीक नीति को पूरा करने वाले अनुक्रमों को सैंपल करने के लिए निर्देशित किया जा सकता है, उस प्रतिबंधित खोज स्थान के उच्च-प्रायिकता उप-स्थान का कुशलता से अन्वेषण करता है, जिससे यह इस नीति का परीक्षण करने वाली रेड टीमों और ब्लैक-बॉक्स हमलावरों दोनों के लिए एक शक्तिशाली टूल बन जाता है।

5. भविष्य के अनुप्रयोग एवं दिशाएँ

उन्नत स्ट्रेंथ एस्टीमेशन: वेबसाइटों और एप्लिकेशनों के लिए रीयल-टाइम पासवर्ड स्ट्रेंथ मीटर में PassGPT के प्रायिकता स्कोर का एकीकरण।
सक्रिय पासवर्ड ऑडिटिंग: संगठन आंतरिक नीतियों का अनुपालन करने वाले पासवर्ड को सक्रिय रूप से जनरेट और परीक्षण करने के लिए निर्देशित PassGPT मॉडल का उपयोग कर सकते हैं, हमलावरों से पहले कमजोर स्थानों की पहचान कर सकते हैं।
हाइब्रिड डिफेंस मॉडल: ऐसे विभेदक मॉडल विकसित करना जो मानव-चुने हुए और एलएलएम-जनरेटेड पासवर्ड के बीच अंतर कर सकें, ताकि संभावित रूप से समझौता या कमजोर क्रेडेंशियल्स को चिह्नित किया जा सके।
क्रॉस-डोमेन अनुक्रम मॉडलिंग: एक ही आर्किटेक्चर को अन्य सुरक्षा-संबंधी अनुक्रमों पर लागू करना, जैसे नेटवर्क प्रोटोकॉल फिंगरप्रिंट्स, मैलवेयर एपीआई कॉल अनुक्रम, या धोखाधड़ी लेनदेन पैटर्न।
फ़ेडरेटेड और गोपनीयता-संरक्षण प्रशिक्षण: संवेदनशील लीक को केंद्रीकृत किए बिना वितरित, गुमनाम पासवर्ड डेटा पर ऐसे मॉडल को प्रशिक्षित करने के लिए तकनीकों का अन्वेषण।
प्रतिकूल पासवर्ड जनरेशन: अनुमानकों के लिए मजबूत दिखने वाले लेकिन मॉडल द्वारा आसानी से अनुमान लगाए जाने वाले पासवर्ड बनाने के लिए निर्देशित जनरेशन का उपयोग करना—उन अनुमानकों को तनाव-परीक्षण और सुधारने के लिए।

6. संदर्भ

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.