विषय सूची
1. परिचय
पासवर्ड अपनी सरलता और तैनाती की क्षमता के कारण प्रमुख प्रमाणीकरण तंत्र बने हुए हैं। हालांकि, पासवर्ड लीक एक महत्वपूर्ण खतरा पैदा करते हैं, जो हमले और मानव पासवर्ड निर्माण पैटर्न पर शोध दोनों को सक्षम बनाते हैं। यह पेपर बड़े भाषा मॉडल (एलएलएम) के पासवर्ड मॉडलिंग में अनुप्रयोग की जांच करता है, PassGPT का परिचय देता है। PassGPT एक एलएलएम है जिसे जनरेशन और स्ट्रेंथ एस्टीमेशन के लिए पासवर्ड लीक पर प्रशिक्षित किया गया है, जो पूर्व के जनरेटिव एडवरसैरियल नेटवर्क (GAN)-आधारित तरीकों से बेहतर प्रदर्शन प्रदर्शित करता है और निर्देशित जनरेशन जैसी नई क्षमताओं का परिचय देता है।
2. पद्धति एवं आर्किटेक्चर
PassGPT GPT-2 आर्किटेक्चर पर आधारित है, जिसे पासवर्ड के अनुक्रमिक, वर्ण-स्तरीय जनरेशन के लिए अनुकूलित किया गया है। यह दृष्टिकोण मौलिक रूप से उन GANs से भिन्न है जो पासवर्ड को एकल, अविभाज्य इकाइयों के रूप में उत्पन्न करते हैं।
2.1. PassGPT मॉडल आर्किटेक्चर
मॉडल ट्रांसफॉर्मर डिकोडर आर्किटेक्चर पर आधारित है। यह पासवर्ड को वर्णों (या टोकन) के अनुक्रम के रूप में प्रोसेस करता है, पिछले संदर्भ को देखते हुए अगले वर्ण की सशर्त प्रायिकता सीखता है: $P(x_t | x_{
2.2. निर्देशित पासवर्ड जनरेशन
एक प्रमुख नवाचार निर्देशित पासवर्ड जनरेशन है। सैंपलिंग प्रक्रिया में हेरफेर करके (जैसे, सशर्त प्रायिकताओं या सीमित डिकोडिंग का उपयोग करके), PassGPT ऐसे पासवर्ड उत्पन्न कर सकता है जो मनमाना उपयोगकर्ता-परिभाषित बाधाओं को संतुष्ट करते हैं (जैसे, "इसमें एक अंक और एक अपरकेस अक्षर अवश्य होना चाहिए"), एक ऐसा कार्य जो मानक GANs के साथ संभव नहीं है।
2.3. प्रशिक्षण एवं डेटा
मॉडल को बड़े पैमाने पर पासवर्ड लीक पर ऑफ़लाइन, अनिरीक्षित तरीके से प्रशिक्षित किया जाता है, जो सुरक्षा शोध में आम ऑफ़लाइन पासवर्ड अनुमान खतरे के मॉडल के अनुरूप है।
3. प्रायोगिक परिणाम एवं विश्लेषण
3.1. पासवर्ड अनुमान प्रदर्शन
PassGPT पिछले अत्याधुनिक गहरे जनरेटिव मॉडल (जैसे, GANs) से काफी बेहतर प्रदर्शन करता है। यह 20% अधिक पहले कभी न देखे गए पासवर्ड का अनुमान लगाता है और प्रशिक्षण के दौरान न देखे गए नए पासवर्ड डेटासेट के लिए मजबूत सामान्यीकरण प्रदर्शित करता है।
प्रदर्शन सारांश
20% वृद्धि पिछले GANs की तुलना में अनदेखे पासवर्ड अनुमान में।
2 गुना अधिक पासवर्ड कुछ बेसलाइन की तुलना में अनुमानित।
3.2. प्रायिकता वितरण एवं एन्ट्रॉपी विश्लेषण
GANs के विपरीत, PassGPT संपूर्ण पासवर्ड स्पेस पर एक स्पष्ट प्रायिकता वितरण प्रदान करता है। विश्लेषण से पता चलता है कि PassGPT स्थापित स्ट्रेंथ एस्टीमेटर (जैसे zxcvbn) द्वारा "मजबूत" माने जाने वाले पासवर्ड को कम प्रायिकता (उच्च आश्चर्य) प्रदान करता है, जो संरेखण का संकेत देता है। यह उन पासवर्ड की भी पहचान करता है जो एस्टीमेटर द्वारा मजबूत माने जाते हैं लेकिन मॉडल के तहत संभाव्य रूप से संभावित हैं, जो संभावित कमजोरियों को प्रकट करते हैं।
3.3. GAN-आधारित दृष्टिकोणों से तुलना
PassGPT का अनुक्रमिक जनरेशन GANs पर लाभ प्रदान करता है: 1) स्पष्ट प्रायिकता वितरण, 2) निर्देशित जनरेशन क्षमता, 3) अनदेखे डेटा पर बेहतर प्रदर्शन। पेपर इसे पासवर्ड के लिए एकल-आउटपुट जनरेशन से नियंत्रणीय, संभाव्य अनुक्रम मॉडलिंग में एक प्रतिमान बदलाव के रूप में प्रस्तुत करता है।
4. तकनीकी विवरण एवं गणितीय ढांचा
PassGPT का मूल ऑटोरेग्रेसिव भाषा मॉडलिंग उद्देश्य है, जो प्रशिक्षण डेटा की संभावना को अधिकतम करता है:
$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{ जहां $N$ पासवर्ड की संख्या है, $T_i$ पासवर्ड $i$ की लंबाई है, $x_t^{(i)}$ $t$-वां वर्ण है, और $\theta$ मॉडल पैरामीटर हैं। जनरेशन के लिए सैंपलिंग विविधता और गुणवत्ता को संतुलित करने के लिए टॉप-के या न्यूक्लियस सैंपलिंग जैसी विधियों का उपयोग करती है। एक पूर्ण पासवर्ड $S$ की प्रायिकता है: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{ मूल अंतर्दृष्टि: पेपर की वास्तविक सफलता केवल एक बेहतर पासवर्ड क्रैकर नहीं है; यह पासवर्ड निर्माण को एक नियंत्रणीय अनुक्रम जनरेशन समस्या के रूप में औपचारिक रूप देता है। अगले टोकन की भविष्यवाणी—आधुनिक एनएलपी का मुख्य आधार—को पासवर्ड पर लागू करके, PassGPT GANs के ब्लैक-बॉक्स, वन-शॉट जनरेशन (जैसे CycleGAN शैली की छवि अनुवाद में) से आगे बढ़कर एक पारदर्शी, नियंत्रणीय प्रक्रिया में चला जाता है। यह सुरक्षा को केवल स्ट्रेंथ एस्टीमेशन से पासवर्ड चुनाव के पीछे मानवीय प्रक्रिया के मॉडलिंग के रूप में पुनः परिभाषित करता है। तार्किक प्रवाह: तर्क प्रभावशाली है: 1) एलएलएम जटिल, वास्तविक-विश्व वितरण (टेक्स्ट) को पकड़ने में उत्कृष्ट हैं। 2) पासवर्ड एक सीमित, मानव-जनित उप-भाषा हैं। 3) इसलिए, एलएलएम उन्हें प्रभावी ढंग से मॉडल करने चाहिए—जो वे करते हैं, GANs को हराकर। 4) एलएलएम की अनुक्रमिक प्रकृति निर्देशित जनरेशन को अनलॉक करती है, जो नीति-जागरूक क्रैकिंग या सक्रिय स्ट्रेंथ टेस्टिंग के लिए एक किलर ऐप है। 5) स्पष्ट प्रायिकता आउटपुट सुरक्षा के लिए एक प्रत्यक्ष, व्याख्यात्मक मीट्रिक प्रदान करता है, जनरेटिव हमलों और संभाव्य स्ट्रेंथ एस्टीमेटर के बीच की खाई को पाटता है। शक्तियां एवं कमियां: शक्ति निर्विवाद है: श्रेष्ठ प्रदर्शन और नई कार्यक्षमता। निर्देशित जनरेशन डेमो एक उत्कृष्ट प्रदर्शन है, जो तत्काल व्यावहारिक उपयोगिता दिखाता है। हालांकि, विश्लेषण में एमएल-फॉर-सिक्योरिटी पेपर में आम एक महत्वपूर्ण कमी है: यह दोहरे उपयोग की प्रकृति के आसपास घूमता है। जबकि "स्ट्रेंथ एस्टीमेटर को बढ़ाने" का उल्लेख करता है, प्राथमिक प्रदर्शित उपयोग आक्रामक (अनुमान) है। नैतिक ढांचा कमजोर है। इसके अलावा, जबकि यह GANs से बेहतर प्रदर्शन करता है, उन्नत रूलसेट के साथ Hashcat जैसे बड़े, नियम-आधारित क्रैकिंग टूल से तुलना कम स्पष्ट है। मॉडल का प्रदर्शन अभी भी उसके प्रशिक्षण डेटा—लीक—द्वारा सीमित है, जो सभी मानव पासवर्ड व्यवहार का प्रतिनिधित्व नहीं कर सकता है। कार्रवाई योग्य अंतर्दृष्टि: रक्षकों के लिए, यह एक विनाश का संकेत नहीं बल्कि एक कार्रवाई का आह्वान है। पहला, पासवर्ड स्ट्रेंथ एस्टीमेटर को अवश्य ऐसी जनरेटिव प्रायिकताओं को एकीकृत करना चाहिए, जैसा सुझाव दिया गया है। zxcvbn जैसे टूल को केवल स्थिर नियमों के विरुद्ध नहीं, बल्कि PassGPT जैसे मॉडल की प्रायिकता के विरुद्ध पासवर्ड की जांच करने के लिए रेट्रोफिट किया जाना चाहिए। दूसरा, रेड टीमों को आंतरिक ऑडिट के लिए इस पद्धति को तुरंत अपनाना चाहिए; निर्देशित जनरेशन विशिष्ट पासवर्ड नीतियों के अनुपालन का परीक्षण करने के लिए आदर्श है। तीसरा, यह शोध पासवर्ड से आगे बढ़ने की आवश्यकता को मान्य करता है। यदि एक एलएलएम उन्हें इतनी अच्छी तरह से मॉडल कर सकता है, तो दीर्घकालिक एन्ट्रॉपी समाप्त हो रही है। FIDO2/WebAuthn और पासकी में निवेश और भी अधिक जरूरी हो जाता है। निष्कर्ष: PassGPT को एक क्रैकर के रूप में नहीं, बल्कि अब तक निर्मित मानव पासवर्ड कमजोरी के सबसे सटीक सिम्युलेटर के रूप में देखें। विरोधी के करने से पहले अपनी रक्षा को ठीक करने के लिए इसका उपयोग करें। परिदृश्य: एक कंपनी की नीति के लिए कम से कम एक अपरकेस अक्षर, एक अंक और एक विशेष वर्ण वाले पासवर्ड की आवश्यकता होती है। एक पारंपरिक नियम-आधारित क्रैकर मैंगलिंग नियमों का उपयोग कर सकता है। एक GAN केवल अनुपालनकारी पासवर्ड उत्पन्न करने के लिए संघर्ष करेगा। PassGPT निर्देशित जनरेशन दृष्टिकोण:
अल्पकालिक (1-2 वर्ष):
5. मूल अंतर्दृष्टि एवं विश्लेषक का परिप्रेक्ष्य
6. विश्लेषण ढांचा: उदाहरण केस
यह प्रदर्शित करता है कि PassGPT का उपयोग नीति-जागरूक सुरक्षा परीक्षण के लिए कैसे किया जा सकता है, सबसे संभावित कमजोर पासवर्ड उत्पन्न करके जो अभी भी नीति जांच पास करते हैं, नीति के छिद्रों की पहचान करना।7. अनुप्रयोग संभावनाएं एवं भविष्य की दिशाएं
मध्यम अवधि (3-5 वर्ष):
दीर्घकालिक एवं शोध सीमाएं:
अंतिम दिशा, जैसा कि पेपर की सफलता से संकेत मिलता है, ह्यूरिस्टिक पासवर्ड नियमों को डेटा-संचालित, संभाव्य सुरक्षा मॉडल द्वारा क्रमिक प्रतिस्थापन है।
8. संदर्भ
- Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
- Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
- Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
- Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
- Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
- FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.