SOPG: ऑटोरेग्रेसिव न्यूरल नेटवर्क्स के लिए खोज-आधारित क्रमबद्ध पासवर्ड जनरेशन

1. परिचय

अपनी सरलता और लचीलेपन के कारण, पासवर्ड उपयोगकर्ता प्रमाणीकरण का सबसे व्यापक तरीका बने हुए हैं। हालाँकि, पासवर्ड क्रैकिंग के प्रयासों से उनकी सुरक्षा लगातार चुनौतीपूर्ण बनी रहती है। पासवर्ड अनुमान, जो शब्दकोश हमलों के लिए संभावित पासवर्ड उत्पन्न करने की प्रक्रिया है, आक्रामक सुरक्षा परीक्षण और रक्षात्मक पासवर्ड शक्ति मूल्यांकन दोनों का आधारशिला है। पारंपरिक तरीकों, जैसे कि नियम-आधारित अनुमान से लेकर मार्कोव श्रृंखला और PCFG जैसे सांख्यिकीय मॉडलों तक, में विविधता और दक्षता की सहज सीमाएँ हैं। डीप लर्निंग, विशेष रूप से ऑटोरेग्रेसिव न्यूरल नेटवर्क्स के आगमन ने एक प्रतिमान बदलाव का वादा किया था। फिर भी, एक महत्वपूर्ण चूक रही है जनरेशन मेथड इट्सेल्फ. इन मॉडलों से मानक यादृच्छिक नमूनाकरण डुप्लिकेट और अव्यवस्थित आउटपुट उत्पन्न करता है, जिससे पासवर्ड हमलों की व्यावहारिक दक्षता में भारी कमी आती है। यह पेपर पेश करता है SOPG (Search-Based Ordered Password Generation), एक नवीन विधि जो एक ऑटोरेग्रेसिव मॉडल को संभाव्यता के लगभग पूर्ण अवरोही क्रम में पासवर्ड जनरेट करने के लिए प्रेरित करती है, इस मूलभूत दोष का समाधान करती है।

2. Background & Related Work

2.1 पासवर्ड अनुमान का विकास

यह क्षेत्र विभिन्न चरणों से गुजरकर विकसित हुआ है: नियम-आधारित गणना (उदाहरण के लिए, John the Ripper नियम), जो मैनुअल विशेषज्ञता पर निर्भर करता है; सांख्यिकीय मॉडल जैसे मार्कोव मॉडल (OMEN) और प्रोबेबिलिस्टिक कॉन्टेक्स्ट-फ्री ग्रामर (PCFG), जो लीक हुए डेटासेट से पैटर्न सीखते हैं लेकिन अक्सर ओवरफिट हो जाते हैं; और वर्तमान युग के डीप लर्निंग मॉडल.

2.2 न्यूरल नेटवर्क-आधारित दृष्टिकोण

PassGAN (Generative Adversarial Networks पर आधारित), VAEPass (Variational Autoencoders), और PassGPT (GPT आर्किटेक्चर पर आधारित) जैसे मॉडल जटिल पासवर्ड वितरण सीखने के लिए गहरे न्यूरल नेटवर्क का लाभ उठाते हैं। हालांकि वे सांख्यिकीय मॉडल की तुलना में बारीकियों को बेहतर ढंग से पकड़ते हैं, उनकी डिफ़ॉल्ट पीढ़ी random sampling यह उन हमले के परिदृश्यों के लिए अक्षम है जहाँ संभाव्यता के क्रम में पासवर्ड आज़माना सर्वोपरि है।

3. SOPG विधि

3.1 मूल अवधारणा

SOPG एक नया न्यूरल नेटवर्क आर्किटेक्चर नहीं है, बल्कि एक जनरेशन एल्गोरिदम है जो किसी मौजूदा ऑटोरेग्रेसिव मॉडल (जैसे, GPT) के ऊपर लागू किया जाता है। इसका लक्ष्य मॉडल के आउटपुट स्पेस को बुद्धिमानी से पार करना है, जो बिना दोहराव के सबसे संभावित पासवर्ड पहले जनरेट करता है।

3.2 Search Algorithm & Ordered Generation

प्रत्येक चरण पर टोकनों को यादृच्छिक रूप से नमूना लेने के बजाय, SOPG एक खोज रणनीति का उपयोग करता है (संकल्पनात्मक रूप से बीम खोज के समान लेकिन पूर्ण पासवर्ड जनन के लिए अनुकूलित)। यह उम्मीदवार पासवर्ड उपसर्गों की एक प्राथमिकता कतार बनाए रखता है, हमेशा उच्चतम संचयी संभावना वाले उपसर्ग का विस्तार करता है। यह सुनिश्चित करता है कि पूर्ण पासवर्ड लगभग अवरोही क्रम में उत्पन्न हों।

3.3 Technical Details & Mathematical Formulation

एक ऑटोरेग्रेसिव मॉडल को देखते हुए जो पासवर्ड पर एक संभाव्यता वितरण $P(\mathbf{x})$ को परिभाषित करता है, जहाँ $\mathbf{x} = (x_1, x_2, ..., x_T)$ टोकन (वर्णों) का एक अनुक्रम है, मॉडल संभाव्यता को इस प्रकार गुणनखंडित करता है:best-first search संभावित टोकन अनुक्रमों के वृक्ष पर।

4. SOPGesGPT Model

लेखकों ने एक ठोस पासवर्ड अनुमान मॉडल लागू किया है जिसका नाम है SOPGesGPT. यह एक GPT-शैली के ट्रांसफॉर्मर आर्किटेक्चर को मुख्य ऑटोरेग्रेसिव मॉडल के रूप में उपयोग करता है, जिसे वास्तविक लीक हुए पासवर्डों के बड़े कोर्पोरा पर प्रशिक्षित किया गया है। मुख्य अंतर यह है कि पासवर्ड जनरेशन मानक सैंपलिंग के बजाय SOPG एल्गोरिदम का उपयोग करके किया जाता है, जिससे यह ऑर्डर जनरेशन को मूल रूप से एकीकृत करने वाला पहला मॉडल बन जाता है।

5. Experimental Results & Analysis

कवरेज दर

35.06%

SOPGesGPT on test set

Improvement over PassGPT

81%

उच्च कवरेज

OMEN पर सुधार

254%

उच्च कवरेज

5.1 रैंडम सैंपलिंग के साथ तुलना

शोध पत्र पहले एक ही अंतर्निहित मॉडल पर यादृच्छिक प्रतिचयन की तुलना में SOPG की श्रेष्ठता प्रदर्शित करता है। मुख्य निष्कर्ष:

शून्य डुप्लिकेट: SOPG एक अद्वितीय, क्रमबद्ध सूची उत्पन्न करता है।
उच्च दक्षता: समान कवरेज दर (उदाहरण के लिए, 10%) प्राप्त करने के लिए, SOPG को आवश्यकता होती है काफी कम मॉडल अनुमान और उत्पन्न पासवर्डरैंडम सैंपलिंग डुप्लिकेट्स और कम-संभावना वाले पासवर्ड्स पर गणनाएं बर्बाद कर देती है।

यह सीधे तौर पर वास्तविक दुनिया के परिदृश्यों में तेज पासवर्ड क्रैकिंग में अनुवादित होता है।

5.2 स्टेट-ऑफ-द-आर्ट के विरुद्ध बेंचमार्क

SOPGesGPT की तुलना "वन-साइट टेस्ट" (एक ही ब्रीच के डेटा पर प्रशिक्षण और परीक्षण) में प्रमुख मॉडल्स: OMEN, FLA, PassGAN, VAEPass, और समकालीन PassGPT के विरुद्ध की गई थी।

5.3 Results Interpretation & Charts

परिणाम चौंका देने वाले हैं। के संदर्भ में कवरेज दर (एक दिए गए अनुमान सीमा के भीतर टेस्ट-सेट पासवर्ड क्रैक किए गए प्रतिशत), SOPGesGPT ने पहुँचा 35.06%. यह पूर्ववर्तियों पर एक बड़ा सुधार दर्शाता है:

OMEN (सांख्यिकीय मार्कोव) से 254% अधिक।
FLA से 298% अधिक।
PassGAN (GAN-based) से 421% अधिक।
VAEPass (VAE-आधारित) की तुलना में 380% अधिक।
PassGPT (यादृच्छिक नमूनाकरण के साथ GPT) की तुलना में 81% अधिक।

चार्ट विवरण: एक बार चार्ट Y-अक्ष पर "कवरेज दर (%)" और X-अक्ष पर मॉडल नाम दिखाएगा। SOPGesGPT की पट्टी अन्य सभी से कहीं ऊंची होगी। एक दूसरा लाइन चार्ट, "संचयी क्रैक किए गए पासवर्ड बनाम अनुमानों की संख्या," SOPGesGPT की रेखा को शुरुआत में ही तेजी से ऊपर उठते हुए दिखाएगा, जो कम प्रयासों में कई पासवर्ड क्रैक करने में इसकी दक्षता प्रदर्शित करेगा, जबकि अन्य मॉडलों की रेखाएं अधिक धीरे-धीरे ऊपर उठेंगी।

6. Analysis Framework & Example Case

ढांचा: एक पासवर्ड अनुमान मॉडल का मूल्यांकन करने के लिए बहुआयामी विश्लेषण की आवश्यकता होती है: 1) आर्किटेक्चरल साउंडनेस (model choice), 2) Generation Efficiency (guesses per second, duplicates), 3) Attack Efficiency (कवरेज दर बनाम अनुमान संख्या वक्र), और 4) सामान्यीकरण (अदृश्य डेटा पैटर्न पर प्रदर्शन)। अधिकांश शोध (1) और (3) पर केंद्रित है। SOPG (2) पर निर्णायक रूप से नवाचार करता है, जो सीधे (3) का अनुकूलन करता है।

उदाहरण केस - पासवर्ड सुरक्षा मूल्यांकन: एक सुरक्षा फर्म एक नई पासवर्ड नीति का ऑडिट करना चाहती है। यादृच्छिक सैंपलिंग के साथ एक मानक PassGPT मॉडल का उपयोग करके, 10 मिलियन अनुमान उत्पन्न करने में X घंटे लग सकते हैं और एक परीक्षण शब्दकोश के Y% को क्रैक कर सकते हैं। SOPGesGPT (समान आर्किटेक्चर, SOPG जनरेशन) का उपयोग करके, समान Y% को क्रैक करने के लिए, केवल 2 मिलियन अनुमान उत्पन्न करने की आवश्यकता हो सकती है, जिससे ऑडिट बहुत कम समय में पूरा हो जाता है। इसके अलावा, क्रमबद्ध सूची एक स्पष्ट हीटमैप प्रदान करती है: पहले 100,000 SOPG पासवर्ड मॉडल के अनुसार "सबसे संभावित" सेट का प्रतिनिधित्व करते हैं, जो उच्च-संभाव्यता हमलों के प्रति नीति की भेद्यता की सटीक जानकारी प्रदान करते हैं।

7. Future Applications & Research Directions

अनुप्रयोग:

सक्रिय पासवर्ड ऑडिटिंग: तेज़ और अधिक कुशल नीति परीक्षण के लिए एंटरप्राइज़ टूल्स में एकीकृत।
पासवर्ड रिकवरी सेवाएँ: नैतिक पुनर्प्राप्ति कार्यों के लिए सफलता दर और गति में नाटकीय सुधार करें।
उन्नत खतरा मॉडलिंग: रेड टीमों को अधिक कुशल हमला सिम्युलेटर प्रदान करें।
पासवर्ड स्ट्रेंथ मीटर: बैकएंड इंजन सरल नियम जांचों की तुलना में पासवर्ड की वास्तविक अनुमानितता का अधिक सटीक अनुमान लगाने के लिए SOPG-जैसी क्रमबद्ध पीढ़ी का उपयोग कर सकते हैं।

शोध दिशाएँ:

हाइब्रिड मॉडल: SOPG की क्रमबद्ध जनरेशन को अन्य आर्किटेक्चरल प्रगतियों (जैसे, डिफ्यूजन मॉडल) के साथ संयोजित करना।
अनुकूली/ऑनलाइन SOPG: आंशिक हमले के परिणामों से प्राप्त प्रतिक्रिया के आधार पर खोज को गतिशील रूप से समायोजित करना।
SOPG के विरुद्ध रक्षा: ऐसे पासवर्ड निर्माण योजनाओं पर शोध जो विशेष रूप से क्रमबद्ध जनरेटिव हमलों के प्रदर्शन को कम करते हैं।
पासवर्ड से परे: क्रमबद्ध जनन प्रतिमान को अनुक्रम जनन के अन्य कार्यों पर लागू करना जहाँ संभाव्यता-क्रमण मूल्यवान है (जैसे, कुछ कोड जनन या औषधि खोज कार्य)।

8. References

M. Jin, J. Ye, R. Shen, H. Lu, "Search-based Ordered Password Generation of Autoregressive Neural Networks," Manuscript.
A. Narayanan and V. Shmatikov, "Fast Dictionary Attacks on Passwords Using Time-Space Tradeoff," in Proceedings of CCS 2005.
J. Ma, W. Yang, M. Luo, and N. Li, "A Study of Probabilistic Password Models," in Proceedings of IEEE S&P 2014.
B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," in Proceedings of ACNS 2019.
D. Pasquini, G. Ateniese, and M. Bernaschi, "Unleashing the Tiger: Inference Attacks on Split Learning," in CCS 2021 की कार्यवाही (PassGPT का परिचय देता है).
J. Goodfellow et al., "Generative Adversarial Networks," arXiv:1406.2661, 2014. (Seminal GAN paper, foundation for PassGAN).
OpenAI, "GPT-4 Technical Report," arXiv:2303.08774, 2023. (Context for autoregressive transformer architecture).
OWASP Foundation, "Authentication Cheat Sheet," https://cheatsheetseries.owasp.org/cheatsheets/Authentication_Cheat_Sheet.html.

9. Expert Analysis & मूल अंतर्दृष्टि

मूल अंतर्दृष्टि

इस शोध पत्र की चमक एक महत्वपूर्ण परंतु अनदेखी बाधा पर सटीक प्रहार में निहित है। वर्षों से, पासवर्ड अनुमान समुदाय, GANs से Transformers तक वास्तुकलात्मक छलांगों से मोहित होकर, जनन चरण को एक सुलझी हुई समस्या मानता रहा—बस वितरण से नमूना लो। Jin et al. सही ढंग से इसे हमले के उपयोग-मामले के लिए एक विनाशकारी अक्षमता के रूप में पहचानते हैं। SOPG समस्या को नए सिरे से परिभाषित करता है: यह वितरण को बेहतर सीखने के बारे में नहीं है, बल्कि इसे इष्टतम रूप से पार करने के बारे में है। यह ऐसा है जैसे खजाने के स्थानों का एक उत्तम नक्शा (न्यूरल नेटवर्क) होना, लेकिन पहले उन्हें खोजने के लिए एक यादृच्छिक भ्रमण का उपयोग करना, बनाम SOPG जो एक प्राथमिकताकृत यात्रा कार्यक्रम प्रदान करता है। समान GPT आर्किटेक्चर का उपयोग करने वाले PassGPT पर 81% का चौंका देने वाला सुधार इस बात को साबित करता है: अंतिम-कार्य प्रदर्शन के लिए जनन एल्गोरिदम मॉडल से अधिक मायने रख सकता है।

Logical Flow

तर्क प्रभावशाली और रैखिक है: 1) दक्षता के लिए पासवर्ड हमलों को संभाव्यता के क्रम में अनुमान लगाने की आवश्यकता होती है। 2) ऑटोरेग्रेसिव मॉडल इस संभाव्यता वितरण को सीखते हैं। 3) इन मॉडलों से यादृच्छिक नमूना लेना एक क्रमबद्ध सूची उत्पन्न करने में विफल रहता है और व्यर्थता से भरा होता है। 4) इसलिए, हमें एक खोज एल्गोरिदम की आवश्यकता है जो मॉडल की संरचना का लाभ उठाकर एक क्रमबद्ध सूची उत्पन्न करे। 5) SOPG वही एल्गोरिदम है, जिसे टोकन ट्री पर बेस्ट-फर्स्ट सर्च के माध्यम से लागू किया गया है। 6) परिणाम भारी मात्रात्मक साक्ष्य के साथ परिकल्पना को मान्य करते हैं। यह प्रवाह शास्त्रीय समस्या-समाधान-मान्यकरण संरचना को दर्शाता है, जिसे सटीकता के साथ क्रियान्वित किया गया है।

Strengths & Flaws

Strengths: The concept is elegantly simple and powerfully effective. The experimental design is robust, comparing against all relevant baselines. The efficiency gains are not marginal; they are game-changing for practical cracking scenarios. The work opens a new sub-field: generation optimization for security models.
Flaws & Questions: पेपर संकेत देता है लेकिन साधारण सैंपलिंग की तुलना में SOPG खोज की कम्प्यूटेशनल लागत का गहराई से पता नहीं लगाता। हालांकि यह दी गई कवरेज के लिए आवश्यक कुल अनुमानों को कम करता है, खोज में प्रत्येक अनुमान चरण अधिक जटिल है (एक हीप बनाए रखना)। एक जटिलता विश्लेषण की आवश्यकता है। इसके अलावा, "वन-साइट टेस्ट" एक मानक लेकिन सीमित मूल्यांकन है। SOPG "क्रॉस-साइट" सेटिंग (LinkedIn लीक पर प्रशिक्षण, RockYou पर परीक्षण) में कैसे सामान्यीकृत करता है, जहां वितरण बदल जाता है? यदि मॉडल की संभाव्यता रैंकिंग आउट-ऑफ-डिस्ट्रीब्यूशन डेटा पर खराब है तो क्रमबद्ध जनरेशन कम प्रभावी हो सकता है। अंत में, जैसा कि लेखक भविष्य के कार्य में नोट करते हैं, यह बहुत दक्षता एक रक्षात्मक प्रतिक्रिया की मांग करती है—SOPG स्वयं अगली पीढ़ी के पासवर्ड हैशिंग और सुदृढ़ीकरण तकनीकों में अनुसंधान को उत्प्रेरित करेगा।

कार्रवाई योग्य अंतर्दृष्टि

के लिए सुरक्षा व्यवसायी: तुरंत अपने पासवर्ड नीति परीक्षण उपकरणों का पुनर्मूल्यांकन करें। क्रमबद्ध जनरेशन के बिना न्यूरल नेटवर्क का उपयोग करने वाला कोई भी उपकरण संभावित दक्षता से काफी नीचे काम कर रहा होने की संभावना है। वाणिज्यिक और ओपन-सोर्स पासवर्ड ऑडिटर में SOPG-जैसी सुविधाओं की मांग करें।
के लिए शोधकर्ता: यह एक स्पष्ट आह्वान है कि जनरेशन को बाद की सोच के रूप में मानना बंद कर दें। SOPG प्रतिमान को अन्य ऑटोरेग्रेसिव सुरक्षा मॉडलों (जैसे, मैलवेयर जनरेशन, फ़िशिंग टेक्स्ट जनरेशन के लिए) पर लागू और परीक्षण किया जाना चाहिए। खोज गहराई (बीम चौड़ाई) और प्रदर्शन के बीच ट्रेड-ऑफ़ की जांच करें।
के लिए Defenders & Policy Makers: हमले का परिदृश्य अभी बदल गया है। कई पासवर्ड हैश, विशेष रूप से कमजोर वालों के लिए क्रैक करने का समय, प्रभावी रूप से कम हो गया है। यह फ़िशिंग-प्रतिरोधी एमएफए (जैसा कि NIST और CISA द्वारा वकालत की गई है) के व्यापक अपनाने और एकमात्र प्रमाणीकरण कारक के रूप में पासवर्ड के अप्रचलन की तात्कालिकता को तेज करता है। SOPG सिर्फ एक बेहतर क्रैकर नहीं है; यह पासवर्ड-युग के बाद के युग के लिए एक शक्तिशाली तर्क है।