SOPG: ऑटोरेग्रेसिव न्यूरल नेटवर्क्स के लिए खोज-आधारित क्रमबद्ध पासवर्ड जनरेशन

1. परिचय

अपनी सरलता और लचीलेपन के कारण, पासवर्ड उपयोगकर्ता प्रमाणीकरण का सबसे व्यापक तरीका बने हुए हैं। परिणामस्वरूप, पासवर्ड अनुमान लगाना साइबर सुरक्षा अनुसंधान का एक महत्वपूर्ण घटक है, जो आक्रामक सुरक्षा परीक्षण (जैसे, पैठ परीक्षण, पासवर्ड पुनर्प्राप्ति) और रक्षात्मक शक्ति मूल्यांकन दोनों के लिए आवश्यक है। पारंपरिक तरीकों, नियम-आधारित शब्दकोशों से लेकर मार्कोव श्रृंखला और PCFG जैसे सांख्यिकीय मॉडलों तक, में मापनीयता और अनुकूलनशीलता की सहज सीमाएँ हैं। गहन शिक्षण, विशेष रूप से ऑटोरेग्रेसिव न्यूरल नेटवर्क्स के आगमन ने डेटा से सीधे जटिल पासवर्ड वितरण सीखकर एक प्रतिमान बदलाव का वादा किया था। हालाँकि, एक महत्वपूर्ण बाधा बनी हुई है: मानक यादृच्छिक प्रतिचयन इन मॉडलों के साथ प्रयुक्त जनन विधि अत्यधिक अक्षम है, जो डुप्लिकेट उत्पन्न करती है और किसी भी इष्टतम क्रम का अभाव रखती है, जो व्यावहारिक पासवर्ड हमलों को काफी धीमा कर देती है। यह शोध पत्र प्रस्तुत करता है SOPG (Search-Based Ordered Password Generation), एक नवीन विधि जो स्वत: प्रतिगमन मॉडल से संभाव्यता के लगभग अवरोही क्रम में पासवर्ड उत्पन्न करने के लिए डिज़ाइन की गई है, जिससे तंत्रिका पासवर्ड अनुमान की दक्षता में क्रांतिकारी परिवर्तन आया है।

2. Background & Related Work

2.1 पारंपरिक पासवर्ड अनुमान लगाने की विधियाँ

प्रारंभिक दृष्टिकोण निर्भर करते थे dictionary attacks और मैन्युअल रूप से तैयार किए गए मैंगलिंग नियम (उदाहरण के लिए, John the Ripper). हालांकि सरल, इन विधियों में सैद्धांतिक आधार का अभाव है और उनकी प्रभावशीलता विशेषज्ञ ज्ञान पर अत्यधिक निर्भर करती है। बड़े पैमाने पर पासवर्ड लीक (जैसे, 2009 में RockYou) के प्रसार ने डेटा-चालित, संभाव्यात्मक विधियों को सक्षम बनाया। मार्कोव मॉडल (जैसे, OMEN) और Probabilistic Context-Free Grammar (PCFG) ने महत्वपूर्ण प्रगति का प्रतिनिधित्व किया, पासवर्ड संरचनाओं और संभावनाओं का व्यवस्थित रूप से मॉडलिंग किया। हालांकि, वे अक्सर ओवरफिटिंग से ग्रस्त होते हैं और विविध, बड़ी मात्रा में प्रशंसनीय पासवर्ड सेट उत्पन्न करने में संघर्ष करते हैं, जिससे उनकी कवरेज दर सीमित हो जाती है।

2.2 न्यूरल नेटवर्क-आधारित दृष्टिकोण

डीप लर्निंग मॉडल, जिनमें शामिल हैं जेनरेटिव एडवरसैरियल नेटवर्क्स (GANs) जैसे PassGAN और वेरिएशनल ऑटोएनकोडर्स (VAEs) VAEPass की तरह, पासवर्ड डेटासेट के अंतर्निहित वितरण को सीखें। हाल ही में, ऑटोरेग्रेसिव मॉडल, विशेष रूप से वे जो ट्रांसफॉर्मर आर्किटेक्चर (जैसे, PassGPT) पर आधारित हैं, ने पासवर्ड को अनुक्रम के रूप में मॉडल करके और पिछले टोकन को देखते हुए अगले टोकन की भविष्यवाणी करके श्रेष्ठ प्रदर्शन दिखाया है। ये मॉडल लंबी दूरी की निर्भरताओं को अधिक प्रभावी ढंग से पकड़ते हैं। इन सभी तंत्रिका दृष्टिकोणों में मूलभूत दोष पासवर्ड जनरेशन के लिए यादृच्छिक प्रतिचयन (जैसे, न्यूक्लियस सैंपलिंग, टॉप-के सैंपलिंग) के डिफ़ॉल्ट उपयोग का है, जो स्वाभाविक रूप से अव्यवस्थित और दोहराव वाला है।

3. The SOPG Method

3.1 Core Concept & Motivation

SOPG का मूल अंतर्दृष्टि यह है कि एक पासवर्ड अनुमान लगाने के हमले के लिए कुशल होने के लिए, उत्पन्न पासवर्ड सूची होनी चाहिए गैर-दोहराव और सबसे संभावित से कम संभावित तक क्रमबद्धयादृच्छिक नमूनाकरण दोनों मानदंडों पर विफल रहता है। SOPG इसका समाधान ऑटोरेग्रेसिव मॉडल को एक व्यवस्थित खोज एल्गोरिदम के लिए एक संभाव्य मार्गदर्शक के रूप में मानकर करता है, जो बीम खोज के समान है लेकिन एकल सर्वोत्तम अनुक्रम के बजाय अद्वितीय उम्मीदवारों के एक पूर्ण, क्रमबद्ध सेट को उत्पन्न करने के लिए अनुकूलित है।

3.2 Search Algorithm & Ordered Generation

SOPG संभावित पासवर्ड स्थान पर एक प्राथमिकता-कतार-आधारित खोज रणनीति का उपयोग करता है। यह एक प्रारंभिक टोकन (जैसे, अनुक्रम-प्रारंभ) से शुरू होता है और आंशिक पासवर्डों का पुनरावृत्त रूप से विस्तार करता है। प्रत्येक चरण में, यह अगले संभावित वर्ण की संभावनाओं की भविष्यवाणी करने के लिए तंत्रिका नेटवर्क का उपयोग करता है। यादृच्छिक रूप से नमूना लेने के बजाय, यह रणनीतिक रूप से शाखाओं का अन्वेषण करता है, उन विस्तारों को प्राथमिकता देता है जो उच्चतम-संभावना वाले पूर्ण पासवर्डों की ओर ले जाते हैं। यह प्रक्रिया लगभग इष्टतम क्रम में पासवर्डों का व्यवस्थित रूप से गणन करती है, जो मॉडल की संभाव्यता वितरण का एक मार्गदर्शित ट्रैवर्सल प्रभावी ढंग से करती है।

3.3 SOPGesGPT मॉडल आर्किटेक्चर

लेखकों ने अपनी विधि को इसमें साकार किया है SOPGesGPT, GPT (जेनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर) आर्किटेक्चर पर आधारित एक पासवर्ड अनुमान मॉडल। यह मॉडल वास्तविक पासवर्ड लीक पर प्रशिक्षित है ताकि पासवर्ड टोकन के संयुक्त संभाव्यता वितरण $P(x_1, x_2, ..., x_T)$ को सीख सके। GPT की स्वतः-प्रतिगामी प्रकृति, जहाँ $P(x_t | x_{

4. Technical Details & Mathematical Formulation

एक स्वतः-प्रतिगामी मॉडल दिया गया है जो एक पासवर्ड $\mathbf{x} = (x_1, x_2, ..., x_T)$ की संभावना को इस प्रकार परिभाषित करता है:

एल्गोरिदम को एक पेड़ की खोज के रूप में समझा जा सकता है जहां प्रत्येक नोड एक आंशिक पासवर्ड होता है। एक प्राथमिकता कतार नोड्स का प्रबंधन करती है, जिन्हें उस नोड से उत्पन्न होने वाले किसी भी पूर्ण पासवर्ड की संभावना के एक ऊपरी-सीमा अनुमान के आधार पर क्रमबद्ध किया जाता है। ऊपरी-सीमा अनुमान यह अनुमान मॉडल की सशर्त संभावनाओं से प्राप्त होता है। एल्गोरिदम बार-बार उच्चतम ऊपरी सीमा वाले नोड को निकालता है, इसे एक टोकन द्वारा विस्तारित करता है (चाइल्ड नोड्स उत्पन्न करता है), नई ऊपरी सीमाओं की गणना करता है, और उन्हें वापस कतार में डालता है। जब एक लीफ नोड (एक पूर्ण पासवर्ड) पॉप होता है, तो इसे क्रमबद्ध सूची में अगले पासवर्ड के रूप में आउटपुट किया जाता है। यह संभावना स्थान की एक सर्वोत्तम-प्रथम खोज सुनिश्चित करता है।

5. Experimental Results & Analysis

कवरेज दर

35.06%

SOPGesGPT का परीक्षण सेट पर प्रदर्शन

PassGPT पर सुधार

81%

उच्च कवरेज दर

Inference Efficiency

बहुत कम

आवश्यक पासवर्ड बनाम यादृच्छिक नमूना

5.1 यादृच्छिक नमूनाकरण के साथ तुलना

पेपर सबसे पहले समान अंतर्निहित GPT मॉडल पर रैंडम सैंपलिंग की तुलना में SOPG के मूलभूत लाभ को प्रदर्शित करता है। समान कवरेज दर (टेस्ट पासवर्ड क्रैक होने का प्रतिशत) प्राप्त करने के लिए, SOPG को आवश्यकता होती है उत्पन्न पासवर्डों की संख्या में कई गुना कमी और मॉडल अनुमानों की। ऐसा इसलिए है क्योंकि SOPG द्वारा उत्पन्न प्रत्येक पासवर्ड अद्वितीय और उच्च-संभाव्यता वाला होता है, जबकि यादृच्छिक नमूनाकरण डुप्लिकेट और कम-संभाव्यता वाले अनुमानों पर गणनाएं बर्बाद कर देता है। इसका सीधा परिणाम तेज़ हमले के समय और कम कम्प्यूटेशनल लागत के रूप में होता है।

5.2 स्टेट-ऑफ-द-आर्ट के विरुद्ध बेंचमार्किंग

एक साइट परीक्षण में, SOPGesGPT की तुलना प्रमुख बेंचमार्क्स: OMEN (Markोव), FLA, PassGAN (GAN), VAEPass (VAE), और समकालीन PassGPT (यादृच्छिक नमूनाकरण के साथ ट्रांसफॉर्मर) के विरुद्ध की गई है। परिणाम निर्णायक हैं। SOPGesGPT प्राप्त करता है एक 35.06% का कवरेज दर, जो PassGPT से 81%, VAEPass से 380%, PassGAN से 421%, FLA से 298%, और OMEN से 254% अधिक है। यह एक नया स्टेट-ऑफ-द-आर्ट स्थापित करता है, यह उजागर करते हुए कि जनन विधि (SOPG) उतना ही महत्वपूर्ण है जितना कि मॉडल आर्किटेक्चर.

5.3 प्रमुख प्रदर्शन मेट्रिक्स

Effective Rate: The proportion of generated passwords that are real (match a password in the test set). SOPGesGPT also leads in this metric, indicating it generates not just more, but better-quality अनुमान।
जनरेशन दक्षता: किसी दिए गए प्रतिशत पासवर्ड क्रैक करने के लिए आवश्यक मॉडल कॉल/इन्फरेंस की संख्या से मापा जाता है। SOPG का क्रमबद्ध दृष्टिकोण एक तीव्र दक्षता वक्र प्रदान करता है, बहुत कम इन्फरेंस के साथ कई पासवर्ड क्रैक करता है।
चार्ट विवरण: एक काल्पनिक चार्ट दो रेखाएँ दिखाएगा: "रैंडम सैंपलिंग कवरेज बनाम #पासवर्ड जनरेटेड" के लिए एक धीरे-धीरे और स्पर्शोन्मुख रूप से बढ़ती हुई, डुप्लिकेट्स की एक लंबी पूंछ के साथ। "एसओपीजी कवरेज बनाम #पासवर्ड जनरेटेड" रेखा शुरुआत में तेजी से और लगभग रैखिक रूप से बढ़ेगी, बाद में स्थिर हो जाएगी, जो लगभग इष्टतम अनुमान लगाने के क्रम को प्रदर्शित करेगी।

6. Analysis Framework & Case Example

ढांचा: पासवर्ड अनुमान लगाने की दक्षता चतुर्थांश। हम किसी भी पासवर्ड अनुमान प्रणाली का दो अक्षों के साथ विश्लेषण कर सकते हैं: (1) मॉडल गुणवत्ता (सही पासवर्ड वितरण सीखने की क्षमता), और (2) जनरेशन ऑप्टिमैलिटी (बिना किसी व्यर्थ के अवरोही संभाव्यता क्रम में अनुमानों का आउटपुट करने की क्षमता)।

क्वाड्रंट I (लो मॉडल, लो ऑप्टिमैलिटी): पारंपरिक नियम-आधारित हमले।
Quadrant II (High Model, Low Optimality): PassGPT, PassGAN – शक्तिशाली मॉडल जो यादृच्छिक सैंपलिंग से सीमित हैं।
Quadrant III (Low Model, High Optimality): Ordered Markov/PCFG – limited models but efficient generation.
Quadrant IV (High Model, High Optimality): SOPGesGPT – लक्ष्य स्थिति, एक उच्च-क्षमता वाले न्यूरल मॉडल को SOPG इष्टतम जनन एल्गोरिदम के साथ संयोजित करती है।

केस उदाहरण (कोड रहित): एक ऐसे मॉडल पर विचार करें जो जानता है कि पासवर्ड "password123" की प्रायिकता $10^{-3}$ है और "xq7!kLp2" की प्रायिकता $10^{-9}$ है। एक यादृच्छिक सैंपलर को "password123" का अनुमान लगाने के लिए लाखों प्रयास करने पड़ सकते हैं। SOPG, अपनी खोज का उपयोग करते हुए, "password123" की पहचान करेगा और इसे अपने शुरुआती अनुमानों में से एक के रूप में आउटपुट करेगा, तुरंत कवरेज में योगदान देगा। यह क्रमबद्ध लक्ष्यीकरण ही इसकी नाटकीय दक्षता वृद्धि का स्रोत है।

7. Application Outlook & Future Directions

Proactive Password Strength Checkers: SOPG अगली पीढ़ी के रीयल-टाइम पासवर्ड स्ट्रेंथ मीटर को शक्ति प्रदान कर सकता है जो केवल शब्दकोशों के विरुद्ध जाँच नहीं करते, बल्कि एक अत्याधुनिक, कुशल हमले का अनुकरण करते हैं, जिससे उपयोगकर्ताओं को अधिक यथार्थवादी जोखिम आकलन प्राप्त होता है।
Digital Forensics & Lawful Recovery: जब्त किए गए उपकरणों पर अधिकृत जांच के लिए पासवर्ड पुनर्प्राप्ति में तेजी लाना।
प्रमाणीकरण प्रणालियों के लिए प्रतिकूल प्रशिक्षण: SOPG-जनित सूचियों का उपयोग करके प्रमाणीकरण प्रणालियों को बुद्धिमान हमलों के खिलाफ तनाव-परीक्षण और सुदृढ़ बनाना।
भविष्य के अनुसंधान दिशाएँ:

हाइब्रिड मॉडल: SOPG की क्रमबद्ध पीढ़ी को अन्य जनरेटिव आर्किटेक्चर (जैसे, diffusion models) के साथ पासवर्ड के लिए संयोजित करना।
अनुकूली/ऑनलाइन SOPG: लक्ष्य प्रणाली (जैसे, rate-limiting responses) से प्रतिक्रिया के आधार पर वास्तविक समय में खोज को संशोधित करना।
पासवर्ड से परे: क्रमबद्ध जनन प्रतिमान को अन्य सुरक्षा डोमेन जैसे संभावित फ़िशिंग URL या मैलवेयर प्रकार उत्पन्न करने में लागू करना।
रक्षात्मक प्रतिकार: क्रमबद्ध जनन रणनीतियों का उपयोग करने वाले हमलों का पता लगाने और उन्हें कम करने पर शोध।

8. References

J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
एम. वीर, एस. अग्रवाल, बी. डी मेडेरोस, और बी. ग्लोडेक, "पासवर्ड क्रैकिंग यूज़िंग प्रोबेबिलिस्टिक कॉन्टेक्स्ट-फ्री ग्रामर्स," IEEE Symposium on Security and Privacy, 2009.
ए. रैडफोर्ड, के. नरसिम्हन, टी. सैलिमन्स, और आई. सुत्स्केवर, "इम्प्रूविंग लैंग्वेज अंडरस्टैंडिंग बाय जेनरेटिव प्री-ट्रेनिंग," ओपनएआई, 2018. (जीपीटी फाउंडेशनल पेपर)
B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," International Conference on Applied Cryptography and Network Security (ACNS), 2019.
D. Pasquini, G. Ateniese, and M. Bernaschi, "Unleashing the Tiger: Inference Attacks on Split Learning," ACM SIGSAC Conference on Computer and Communications Security (CCS), 2021. (Includes discussion on password inference).
M. J. H. Almeida, Computers & Security, 2023.

9. Original Analysis & Expert Commentary

Core Insight

शोधपत्र की सफलता कोई नया तंत्रिका आर्किटेक्चर नहीं है, बल्कि समस्या का एक मौलिक पुनर्परिभाषन है। वर्षों से, NLP की प्रवृत्तियों को दर्शाते हुए, पासवर्ड अनुमान समुदाय बड़े, बेहतर घनत्व अनुमानकर्ताओं (GPT भाग) के निर्माण में लगा रहा है। SOPG सही ढंग से पहचानता है कि डाउनस्ट्रीम टास्क क्रैकिंग के लिए, डिकोडिंग रणनीति सर्वोपरि है. यह एक खदान क्षेत्र का एक आदर्श नक्शा होने (मॉडल) और एक कदम भी बर्बाद किए बिना उस पर चलने का तरीका जानने (SOPG) के बीच का अंतर है। यह शोध की प्राथमिकता को शुद्ध मॉडल क्षमता से हटाकर efficient inference algorithms इन मॉडलों के शीर्ष पर—एक ऐसा सबक जो अन्य जनरेटिव AI क्षेत्रों ने पहले सीखा था (जैसे मशीन अनुवाद में बीम सर्च)।

लॉजिकल फ्लो

तर्क प्रभावशाली है: 1) पासवर्ड अटैक दक्षता हिट रेट बनाम गेस नंबर कर्व द्वारा परिभाषित होती है। 2) ऑटोरेग्रेसिव मॉडल प्रति-टोकन प्रायिकताएँ देते हैं। 3) इस वितरण से यादृच्छिक सैंपलिंग एक क्रमबद्ध अनुमान सूची बनाने के लिए अत्यधिक सबऑप्टिमल है। 4) इसलिए, हमें एक सर्च एल्गोरिदम की आवश्यकता है जो मॉडल को एक ओरेकल के रूप में उपयोग करके सबसे संभावित अनुक्रमों को स्पष्ट रूप से पहले निर्मित करे। समस्या (3) को पहचानने से इंजीनियरिंग समाधान (4) तक की छलांग ही नवीनता का स्थान है। क्लासिक कंप्यूटर साइंस सर्च एल्गोरिदम (A*, बीम) से संबंध स्पष्ट है, लेकिन पासवर्ड्स के विशाल, संरचित आउटपुट स्पेस के लिए इसका अनुकूलन गैर-तुच्छ है।

Strengths & Flaws

शक्तियाँ: अनुभवजन्य परिणाम चौंका देने वाले हैं और मानक ऑफ़लाइन, एक-साइट मूल्यांकन में SOPG की श्रेष्ठता के बारे में संदेह के लिए बहुत कम गुंजाइश छोड़ते हैं। दक्षता का तर्क सैद्धांतिक रूप से ठोस और व्यावहारिक रूप से सत्यापित है। यह एक सामान्य विधि है जो किसी भी ऑटोरेग्रेसिव मॉडल पर लागू होती है, न कि केवल उनके GPT कार्यान्वयन पर।
Flaws & Questions: मूल्यांकन, हालांकि प्रभावशाली है, फिर भी एक प्रयोगशाला सेटिंग है। वास्तविक दुनिया के हमले अनुकूली रक्षाओं (दर सीमित करना, लॉकआउट, हनीवर्ड्स) का सामना करते हैं, और पेपर इन परिदृश्यों में SOPG की लचीलापन का परीक्षण नहीं करता है। खोज एल्गोरिदम की कम्प्यूटेशनल लागत प्रति उत्पन्न पासवर्ड एकल यादृच्छिक नमूने की तुलना में संभवतः अधिक है, हालांकि समग्र दक्षता लाभ शुद्ध सकारात्मक है। कमरे में एक नैतिक हाथी भी है: जबकि लेखक इसे रक्षात्मक उपयोग के लिए स्थापित करते हैं, यह उपकरण उच्च-दक्षता हमलों के लिए बाधा को काफी कम कर देता है। क्षेत्र को ऐसी प्रगति की दोहरे उपयोग वाली प्रकृति से जूझना चाहिए, जैसे कि जेनरेटिव AI मॉडलों के बारे में चर्चाएं CycleGAN या बड़े भाषा मॉडलों के लिए।

क्रियान्वयन योग्य अंतर्दृष्टि

के लिए सुरक्षा व्यवसायी: यह शोधपत्र एक चेतावनी है। पासवर्ड नीतियों को साधारण शब्दकोश शब्दों को अवरुद्ध करने से आगे विकसित होना चाहिए। रक्षकों को SOPG-जैसे क्रमबद्ध हमलों के खिलाफ अपने सिस्टम का तनाव-परीक्षण शुरू करने की आवश्यकता है, जो अब नया मानदंड बन गए हैं। जैसे टूल Have I Been Pwned या zxcvbn को अधिक यथार्थवादी सामर्थ्य आकलन के लिए इन उन्नत जनन तकनीकों को शामिल करने की आवश्यकता है।
के लिए शोधकर्ता: बैटन पारित कर दी गई है। अगली सीमा अब केवल मॉडल नहीं है, बल्कि अनुकूली और query-efficient generation. क्या हम ऐसे मॉडल बना सकते हैं जो आंशिक हमले की प्रतिक्रिया से सीखते हैं? क्या हम ऐसे रक्षात्मक मॉडल विकसित कर सकते हैं जो क्रमबद्ध जनरेशन का पता लगाते हैं और उसे भ्रमित करते हैं? इसके अलावा, जैसा कि संस्थानों द्वारा उल्लेख किया गया है NIST उनके डिजिटल पहचान दिशानिर्देशों में, दीर्घकालिक समाधान पासवर्ड से आगे बढ़ने में निहित है। यह शोध एक साथ पासवर्ड क्रैकिंग के चरम को उजागर करता है और इसकी अंतर्निहित सीमाओं पर बल देता है, जो हमें पासवर्ड रहित प्रमाणीकरण की ओर धकेलता है। SOPG पासवर्ड अनुमान के लिए एक उत्कृष्ट अंतिम चाल भी है और इसके सेवानिवृत्ति के लिए एक शक्तिशाली तर्क भी।