SOPG: खोज-आधारित क्रमबद्ध पासवर्ड जनन विधि - ऑटोरेग्रेसिव न्यूरल नेटवर्क के लिए

सामग्री सूची

1. परिचय

पासवर्ड आज भी सबसे व्यापक रूप से उपयोग की जाने वाली उपयोगकर्ता प्रमाणीकरण विधि बना हुआ है। इसलिए, पासवर्ड अनुमान लगाना साइबर सुरक्षा अनुसंधान का एक महत्वपूर्ण घटक है, जो आक्रामक सुरक्षा परीक्षण (क्रैकिंग) के लिए आधार के रूप में और रक्षात्मक शक्ति मूल्यांकन के लिए आधारशिला के रूप में कार्य करता है। पारंपरिक विधियों, नियम-आधारित गणना से लेकर मार्कोव श्रृंखला और PCFG जैसे सांख्यिकीय मॉडल तक, में दक्षता और विविधता के मामले में अंतर्निहित सीमाएँ हैं। गहन शिक्षा का उदय, विशेष रूप से ऑटोरेग्रेसिव न्यूरल नेटवर्क, एक प्रतिमान बदलाव का संकेत देता है। हालाँकि, एक महत्वपूर्ण बाधा हमेशा बनी रहती है: मानक यादृच्छिक नमूना जनन विधि। इससे पासवर्ड दोहराव होता है, और इससे भी अधिक प्रतिकूल रूप से, जनन क्रम यादृच्छिक होता है, जो हमलावर को विशाल और अक्षम सूचियों को छानने के लिए मजबूर करता है। यह पेपर SOPG (सर्च-आधारित ऑर्डर पासवर्ड जनरेशन) पेश करता है, एक नवीन दृष्टिकोण जिसका उद्देश्य ऑटोरेग्रेसिव पासवर्ड अनुमान मॉडल को संभाव्यता के अनुसार लगभग अवरोही क्रम में पासवर्ड उत्पन्न करने में सक्षम बनाना है, जिससे हमले की दक्षता में उल्लेखनीय वृद्धि होती है।

2. पृष्ठभूमि एवं संबंधित कार्य

2.1 पासवर्ड अनुमान तकनीकों का विकास

पासवर्ड अनुमान तकनीकों ने विभिन्न विकास चरणों से गुजरा है। प्रारंभिक विधियाँडिक्शनरी अटैकऔर मैन्युअल रूप से तैयार किए गएट्रांसफॉर्मेशन नियम(उदाहरण के लिए John the Ripper), ये विधियाँ ह्यूरिस्टिक प्रकृति की हैं और अनुभव पर निर्भर करती हैं। बड़े पैमाने पर पासवर्ड लीक (जैसे 2009 का RockYou) की बढ़ती घटनाओं ने डेटा-संचालितसांख्यिकीय विधियाँ。मार्कोव मॉडल(Weir et al., 2009) औरप्रोबेबिलिस्टिक कॉन्टेक्स्ट-फ्री ग्रामर (PCFG)(Ma et al., 2014) ने एक अधिक व्यवस्थित, संभाव्यता-आधारित जनरेटिव फ्रेमवर्क प्रदान किया, हालांकि उनमें ओवरफिटिंग का जोखिम है और पासवर्ड संरचनाओं में जटिल, लंबी दूरी की निर्भरताओं को मॉडल करने की क्षमता का अभाव है।

2.2 न्यूरल नेटवर्क विधियाँ

गहन शिक्षण मॉडल, विशेष रूप से PassGAN (Hitaj et al., 2017) जैसेजनरेटिव एडवरसैरियल नेटवर्क (GAN)और LSTM या GPT आर्किटेक्चर पर आधारितऑटोरेग्रेसिव मॉडल, जो सीधे डेटा से पासवर्ड के संभाव्यता वितरण को सीख सकते हैं। वे अत्यधिक विविध और यथार्थवादी पासवर्ड उत्पन्न कर सकते हैं। हालांकि, वे आमतौर पर प्रत्येक उत्पादन चरण में सीखे गए वितरण सेयादृच्छिक नमूनाकरण(उदाहरण के लिए बहुपदीय नमूनाकरण)। यह मूल प्रक्रिया संपूर्ण पासवर्ड संभाव्यता के वैश्विक क्रम के साथ असंबंधित है, जिससे SOPG द्वारा हल किए जाने वाली अक्षमताएं उत्पन्न होती हैं।

कवरेज में वृद्धि

35.06%

SOPGesGPT द्वारा प्राप्त कवरेज ने पिछले मॉडलों को काफी पीछे छोड़ दिया।

यादृच्छिक नमूनाकरण की तुलना में दक्षता लाभ

बहुत कम

SOPG द्वारा समान कवरेज प्राप्त करने के लिए आवश्यक पासवर्डों की संख्या और मॉडल अनुमानों की संख्या।

पुनरावृत्ति दर

SOPG दोहराए जाने वाले पासवर्ड उत्पन्न नहीं करने की गारंटी देता है।

3. SOPG विधि

3.1 मूल अवधारणाएँ

SOPG पासवर्ड जनन समस्या को एक यादृच्छिक नमूनाकरण समस्या से पुनः परिभाषित करता हैमार्गदर्शित खोज समस्यायह अब अगले वर्ण का यादृच्छिक चयन नहीं करता, बल्कि संभावित पासवर्ड अनुवर्ती स्थान का पता लगाने के लिए एक खोज एल्गोरिदम (संभवतः बीम सर्च या बेस्ट-फर्स्ट सर्च का एक रूपांतर) का उपयोग करता है, जो उन रास्तों को प्राथमिकता देता है जो उच्च अनुमानित संभावना वाले पूर्ण पासवर्ड की ओर ले जाते हैं। इसका लक्ष्य पासवर्डों की एक सूची को वास्तविक संभावना $P(पासवर्ड|मॉडल)$ के अवरोही क्रम के बहुत करीब क्रम में आउटपुट करना है।

3.2 खोज एल्गोरिदम

हालांकि PDF सारांश विशिष्ट एल्गोरिदम का विस्तार से वर्णन नहीं करता है, लेकिन वर्णित व्यवहार उम्मीदवार पासवर्ड उपसर्गों की प्राथमिकता कतार को बनाए रखने की एक विधि का संकेत देता है। प्रत्येक चरण में, यह सबसे आशाजनक उपसर्ग (उच्चतम संचयी संभावना) को तंत्रिका नेटवर्क से अगले वर्ण के वितरण का पूछकर विस्तारित करता है, जिससे नए उम्मीदवार पासवर्ड उत्पन्न होते हैं। पासवर्ड स्थान के उच्च-संभावना वाले क्षेत्रों का पहले व्यवस्थित रूप से पता लगाकर, यह सुनिश्चित करता है कि सबसे संभावित पासवर्ड प्रारंभ में ही उत्पन्न हो जाएं और मूल रूप से पुनरावृत्ति से बचा जाए।

3.3 SOPGesGPT मॉडल

लेखकों ने GPT-आधारित आर्किटेक्चर पर अपनी विधि को लागू किया, जिससे बनाया गयाSOPGesGPTGPT मॉडल (जैसे केवल डिकोडर ट्रांसफॉर्मर) को लीक हुए पासवर्ड डेटासेट पर प्रशिक्षित किया जाता है ताकि अनुक्रम में अगले वर्ण की भविष्यवाणी की जा सके। फिर, इस प्रशिक्षित मॉडल पर SOPG को एक जनरेटिव/इन्फरेंस विधि के रूप में लागू किया जाता है, जो मानक सैंपलिंग को प्रतिस्थापित करता है।

4. तकनीकी विवरण एवं गणितीय प्रस्तुतीकरण

ऑटोरेग्रेसिव मॉडल पासवर्ड $\mathbf{x} = (x_1, x_2, ..., x_T)$ की प्रायिकता को सशर्त प्रायिकताओं के गुणनफल के रूप में परिभाषित करता है:

संकल्पनात्मक रूप से, SOPG का उद्देश्य अनुक्रम $\mathbf{x}$ को $P(\mathbf{x})$ के घटते क्रम में खोजना और आउटपुट करना है। इसे एक पेड़ में सबसे छोटे पथ की खोज समस्या के रूप में देखा जा सकता है, जहाँ नोड्स उपसर्ग हैं, किनारे की लागत $-\log P(x_t | उपसर्ग)$ से संबंधित है, और लक्ष्य कुल लागत बढ़ाने (यानी संभावना घटाने) के क्रम में पथ (पासवर्ड) को गिनना है। जैसेयूनिफॉर्म कॉस्ट सर्च (UCS)या इसके बाउंडेड वेरिएंट - बड़ी बीम चौड़ाई और डायनेमिक प्रूनिंग के साथबीम सर्च——इस तरह के एल्गोरिदम इस अनुमानित क्रमबद्धता को प्राप्त कर सकते हैं। मुख्य बिंदु यह है कि खोज का मोर्चा वर्तमान पथ की संभावना स्कोर के आधार पर प्राथमिकता के अनुसार क्रमबद्ध किया जाता है।

5. प्रयोगात्मक परिणाम और विश्लेषण

5.1 यादृच्छिक नमूनाकरण के साथ तुलना

शोध पत्र में समान अंतर्निहित मॉडल पर SOPG और मानक यादृच्छिक नमूनाकरण की तुलना के शक्तिशाली परिणाम प्रस्तुत किए गए हैं। मुख्य निष्कर्ष:

शून्य पुनरावृत्ति:SOPG अद्वितीय सूचियाँ उत्पन्न करता है, जबकि यादृच्छिक नमूनाकरण कई दोहराव पैदा करता है, जिससे कम्प्यूटेशनल संसाधनों की बर्बादी होती है।
उत्कृष्ट आक्रमण दक्षता:समान प्राप्त करने के लिएकवरेज(प्रतिशत पासवर्ड जो टेस्ट सेट में क्रैक किए गए), SOPG की आवश्यकता हैबहुत कममॉडल अनुमानों की यादृच्छिक रूप से नमूना ली गई संख्या, और उत्पन्न करेंबहुत छोटी कुल सूचीयह सीधे तौर पर वास्तविक दुनिया में तेज़ पासवर्ड क्रैकिंग गति में परिवर्तित होता है।

5.2 अग्रणी तकनीकों के साथ बेंचमार्किंग

SOPGesGPT का प्रमुख पासवर्ड अनुमान मॉडलों के साथ बेंचमार्क परीक्षण किया गया: OMEN (Markov), FLA, PassGAN (GAN), VAEPass (VAE) और समकालीन PassGPT। एकल-साइट परीक्षण में:

कवरेज:SOPGesGPT ने प्राप्त किया35.06%OMEN से 254%, FLA से 298%, PassGAN से 421%, VAEPass से 380% और PassGPT से 81% अधिक।
प्रभावी दर:शोध पत्र ने यह भी दावा किया है कि "प्रभावी दर" में अग्रणी है, जो शुरुआती उत्पन्न पासवर्ड की गुणवत्ता या हिट दर से संबंधित एक मीट्रिक हो सकता है, और यही SOPG का मुख्य लाभ है।

यह दर्शाता है कि, प्रदर्शन के लिए,उत्पादन विधि(SOPG) के साथमॉडल आर्किटेक्चरसमान रूप से महत्वपूर्ण।

चार्ट व्याख्या (पाठ-आधारित धारणा):"कवरेज बनाम उत्पन्न पासवर्डों की संख्या" की तुलना करने वाला एक लाइन चार्ट दिखाएगा कि SOPGesGPT की वक्र रेखा तेजी से बढ़ती है और शीघ्र ही स्थिर हो जाती है, जबकि यादृच्छिक नमूनाकरण की वक्र रेखा धीरे-धीरे बढ़ती है और समान ऊंचाई तक पहुंचने के लिए x-अक्ष पर कहीं अधिक संख्या की आवश्यकता होती है। "अंतिम कवरेज" पर एक बार चार्ट दिखाएगा कि SOPGesGPT का बार OMEN, PassGAN और PassGPT की तुलना में काफी ऊंचा है।

6. विश्लेषणात्मक ढांचा एवं केस उदाहरण

पासवर्ड अनुमान मॉडल के मूल्यांकन का ढांचा:

मॉडल आर्किटेक्चर और प्रशिक्षण:नीचे के न्यूरल नेटवर्क क्या हैं (GAN, VAE, ऑटोरेग्रेसिव ट्रांसफॉर्मर)? उन्हें कैसे प्रशिक्षित करें?
जनरेटिव विधियाँ:प्रशिक्षित मॉडल से पासवर्ड कैसे उत्पन्न करें? (उदाहरण के लिए, रैंडम सैंपलिंग, बीम सर्च, SOPG)। यह पेपर का मुख्य बिंदु है।
रैंकिंग और दक्षता:क्या यह विधि उपयोगी क्रम (संभाव्यता अवरोही) में पासवर्ड उत्पन्न करती है? गणना/अनुमान दक्षता कैसी है?
विविधता और पुनरावृत्ति:क्या यह नवीन पासवर्ड उत्पन्न करता है या बड़ी मात्रा में दोहराए गए पासवर्ड?
बेसलाइन प्रदर्शन:मानक डेटासेट (जैसे RockYou) पर कवरेज, प्रभावशीलता और गति।

गैर-कोड केस उदाहरण:मान लीजिए कि दो हमलावर एलिस और बॉब एक ही प्रशिक्षित जीपीटी पासवर्ड मॉडल का उपयोग करते हैं। एलिस मानक यादृच्छिक नमूनाकरण का उपयोग करती है। बॉब एसओपीजी का उपयोग करता है। 1000 पासवर्ड वाले एक परीक्षण सेट को क्रैक करने के लिए, एलिस के सॉफ़्टवेयर को 350 क्रैक करने के लिए 1 करोड़ अनुमान उत्पन्न करने की आवश्यकता हो सकती है, जिनमें से 30% दोहराए जाते हैं। जबकि बॉब का एसओपीजी-संचालित सॉफ़्टवेयर समान 350 पासवर्ड क्रैक करने के लिए केवल 10 लाख अद्वितीय अनुमान उत्पन्न कर सकता है जो इष्टतम क्रम में व्यवस्थित हैं। बॉब के हमले की संसाधन दक्षता 10 गुना बढ़ जाती है और यह तेजी से पूरा होता है।

7. अनुप्रयोग संभावनाएं और भविष्य की दिशाएं

प्रत्यक्ष अनुप्रयोग:

सक्रिय पासवर्ड शक्ति परीक्षण:सुरक्षा टीम SOPG-संवर्धित मॉडल का उपयोग करके, सबसे संभावित हमले वेक्टर पहले उत्पन्न करके, प्रस्तावित पासवर्ड नीतियों का अधिक कुशलता से ऑडिट कर सकती है।
फोरेंसिक पासवर्ड पुनर्प्राप्ति:वैध पासवर्ड रिकवरी टूल SOPG को एकीकृत कर सकते हैं, ताकि सीमित समय/गणना बजट के भीतर सफलता दर बढ़ाई जा सके।

भविष्य के अनुसंधान दिशाएँ:

हाइब्रिड मॉडल:SOPG के क्रमबद्ध जनन को अन्य आर्किटेक्चर के लाभों के साथ संयोजित करना (उदाहरण के लिए, बड़े भाषा मॉडल से शब्दार्थ ज्ञान को एकीकृत करना)।
अनुकूली/ऑनलाइन SOPG:आंशिक हमले के परिणामों के प्रतिक्रिया के आधार पर खोज रणनीति को वास्तविक समय में संशोधित करना।
रक्षात्मक प्रतिकार:नए क्रिप्टोग्राफ़िक हैश या भंडारण तकनीकों पर शोध करना जो SOPG जैसे क्रमबद्ध, संभाव्यता-संचालित हमलों के प्रति विशेष रूप से प्रतिरोधी हों।
पासवर्ड से परे:क्रमबद्ध जनन प्रतिमान को अन्य सुरक्षा क्षेत्रों, जैसे संभावित फ़िशिंग URL या मैलवेयर प्रकारों के निर्माण में लागू करना।

8. संदर्भ सूची

Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password Cracking Using Probabilistic Context-Free Grammars. In IEEE Symposium on Security and Privacy.
Ma, J., Yang, W., Luo, M., & Li, N. (2014). A Study of Probabilistic Password Models. In IEEE Symposium on Security and Privacy.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2017). PassGAN: A Deep Learning Approach for Password Guessing. In International Conference on Applied Cryptography and Network Security.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. In USENIX Security Symposium.

9. मौलिक विश्लेषण एवं विशेषज्ञ टिप्पणी

मुख्य अंतर्दृष्टि:Jin et al. का पेपर AI-चालित आक्रामक सुरक्षा में एक महत्वपूर्ण लेकिन उपेक्षित बाधा पर प्रकाश डालता है -जनन रणनीतिएक सटीक प्रहार किया गया है। वर्षों से, यह क्षेत्र मॉडल आर्किटेक्चर - GANs vs. VAEs vs. Transformers - पर आसक्त रहा है, जिसने मुख्यधारा की मशीन लर्निंग से भारी उधार लिया है, जैसा कि PassGAN (इमेज GANs से प्रेरित [4]) से PassGPT (GPT-2 जैसे LLMs से प्रेरित [5]) के विकास पथ से देखा जा सकता है। यह पेपर सही ढंग से बताता है कि एक आदर्श मॉडल भी, सरल यादृच्छिक नमूनाकरण द्वारा सीमित होगा। SOPG केवल एक वृद्धिशील सुधार नहीं है; यह अनुमान प्रक्रिया पर एक मौलिक पुनर्विचार है, जो प्रतिमान को "यादृच्छिक उत्पादन" से "निर्देशित, इष्टतम अन्वेषण" में बदल देता है। यह अंतर्दृष्टि पासवर्ड अनुमान के लिए उतनी ही मूल्यवान है जितनी गेम AI के लिए AlphaGo की मोंटे कार्लो ट्री सर्च - सीखे गए स्थान को बुद्धिमानी से खोजने की कुंजी है।

तार्किक प्रवाह और लाभ:तर्क अकाट्य है। 1) ऑटोरेग्रेसिव मॉडल अनुक्रम पर एक प्रबंधनीय संभाव्यता वितरण प्रदान करते हैं। 2) उस वितरण से यादृच्छिक नमूनाकरण उच्च-संभाव्यता वस्तुओं को शीघ्रता से खोजने के लिए अक्षम है। 3) इसलिए, संभावना के अनुसार आउटपुट की गणना करने के लिए एक खोज एल्गोरिदम (कंप्यूटर विज्ञान की एक परिपक्व अवधारणा) का उपयोग करें। इसका लाभ इसकी सरलता और दूरगामी प्रभाव में निहित है। परिणाम चौंका देने वाले हैं: केवल उत्पादन विधि बदलकर, नवीनतम PassGPT मॉडल पर 81% का सुधार हासिल किया गया। यह एप्लाइड AI में एक अक्सर भुला दिए जाने वाले सिद्धांत को उजागर करता है:अनुमान इंजीनियरिंग, मॉडल स्केलिंग की तुलना में अधिक प्रतिफल ला सकती है। शून्य पुनरावृत्ति की गारंटी एक और महत्वपूर्ण व्यावहारिक लाभ है, जो व्यर्थ कम्प्यूटेशनल चक्रों को समाप्त करती है।

दोष एवं खुले प्रश्न:प्रदान किए गए सारांश की संक्षिप्तता इसकी मुख्य कमजोरी है। "सर्च एल्गोरिदम" एक ब्लैक बॉक्स है। क्या यह A* है? क्या यह जटिल प्रूनिंग ह्यूरिस्टिक्स के साथ बीम सर्च है? खोज स्वयं की कम्प्यूटेशनल लागत पर चर्चा नहीं की गई है। हालांकि यह किसी दिए गए कवरेज तक पहुंचने के लिए आवश्यक इंफरेंस को कम करता हैबार, लेकिन खोज में प्रत्येक अनुमान चरण सरल नमूनाकरण की तुलना में अधिक जटिल हो सकता है। खोज गहराई, चौड़ाई और विलंबता के बीच एक व्यापार-बंद है जिसका विश्लेषण करने की आवश्यकता है। इसके अलावा, मूल्यांकन "एकल-साइट परीक्षण" है। SOPG की विभिन्न डेटासेट (एंटरप्राइज़ बनाम उपभोक्ता, विभिन्न भाषाओं) पर सामान्यीकरण क्षमता कैसी है? मजबूती को सत्यापित करने की आवश्यकता है।

क्रियान्वयन योग्य अंतर्दृष्टि:के लिएसुरक्षा पेशेवर: यह लेख एक चेतावनी है। रक्षात्मक पासवर्ड स्ट्रेंथ एस्टीमेटर्स को अब क्रमबद्ध, SOPG-जैसे हमलों पर विचार करना चाहिए, जो पारंपरिक ब्रूट-फोर्स या यहां तक कि पुराने न्यूरल हमलों की तुलना में कहीं अधिक प्रभावी हैं। पासवर्ड नीतियों को विकसित होना चाहिए। के लिएAI शोधकर्ता: सबक नुकसान फ़ंक्शन से परे है। सुरक्षा, चिकित्सा या डिज़ाइन के लिए जेनरेटिव सिस्टम डिज़ाइन करते समय तर्क/जनन तंत्र प्राथमिक विचार है। यह दृष्टिकोण अन्य ऑटोरेग्रेसिव सुरक्षा कार्यों, जैसे नेटवर्क हमला पेलोड जनन, पर लागू किया जा सकता है। के लिएलेखक: अगला कदम एल्गोरिदम को ओपन-सोर्स करना, इसकी जटिलताओं का विस्तृत विवरण देना और बड़े पैमाने पर, क्रॉस-डेटासेट बेंचमार्क परीक्षण करना है। के साथइंटरनेट सुरक्षा केंद्र (CIS)जैसे संगठनों के साथ सहयोग करें, या संदर्भ लेंNIST डिजिटल पहचान दिशानिर्देश (SP 800-63B)एक ढांचा जो इस कार्य को व्यावहारिक रक्षा मानकों पर स्थापित कर सकता है। SOPG एक उत्कृष्ट लीवर है; अब हमें इसकी पूरी शक्ति को मापने और रक्षकों को इसे रोकना सिखाने की आवश्यकता है।