1. परिचय
यह शोधपत्र PESrank का परिचय देता है, एक नवीन पासवर्ड सामर्थ्य अनुमानक जो एक पासवर्ड की रैंक की गणना एक इष्टतम संभाव्यता क्रम में करके एक शक्तिशाली पासवर्ड क्रैकर के व्यवहार का सटीक मॉडल बनाने के लिए डिज़ाइन किया गया है। यह व्यावहारिक, ऑनलाइन-सक्षम अनुमानकों की महत्वपूर्ण आवश्यकता को संबोधित करता है जो LUDS (लोअरकेस, अपरकेस, अंक, प्रतीक) गिनती जैसे सरल अनुमानों से आगे जाते हैं।
1.1. पृष्ठभूमि
ज्ञात कमजोरियों के बावजूद, टेक्स्ट पासवर्ड प्रमुख प्रमाणीकरण विधि बने हुए हैं। उपयोगकर्ता अक्सर कमजोर, अनुमानित पासवर्ड चुनते हैं, जिससे सिस्टम अनुमान आक्रमणों के प्रति संवेदनशील हो जाते हैं। सटीक सामर्थ्य को एक हमलावर द्वारा इसे अनुमानित करने के लिए आवश्यक प्रयासों की संख्या के रूप में परिभाषित किया जाता है। पूर्व के क्रैकर-आधारित अनुमानकों ने मार्कोव मॉडल, PCFG, और न्यूरल नेटवर्क का उपयोग किया, लेकिन अक्सर लंबे प्रशिक्षण समय या वास्तविक-समय क्षमता की कमी से ग्रस्त रहे।
1.2. योगदान
PESrank की मूल नवीनता साइड-चैनल क्रिप्टोएनालिसिस से एक संभाव्यता ढांचे के भीतर पासवर्ड रैंक अनुमान को पुनः परिभाषित करना है। यह पासवर्ड को एक d-आयामी खोज स्थान (जैसे, आधार शब्द, प्रत्यय, कैपिटलाइज़ेशन पैटर्न) में बिंदुओं के रूप में मानता है, प्रत्येक आयाम के लिए संभाव्यता वितरण को स्वतंत्र रूप से सीखता है। यह गणना के बिना त्वरित, ऑनलाइन रैंक अनुमान, कुशल मॉडल व्यक्तिगतकरण और व्याख्यात्मक प्रतिक्रिया को सक्षम बनाता है।
2. PESrank पद्धति
PESrank एक पासवर्ड को व्याख्यात्मक आयामों में विघटित करता है, सामर्थ्य अनुमान समस्या को एक बहुआयामी रैंक अनुमान कार्य में परिवर्तित करता है।
2.1. बहुआयामी पासवर्ड प्रतिनिधित्व
"P@ssw0rd2024!" जैसे पासवर्ड को आयामों में इस प्रकार दर्शाया जा सकता है: आधार शब्द ("password"), L33t प्रतिस्थापन पैटर्न, प्रत्यय ("2024"), और विशेष वर्ण जोड़। प्रत्येक आयाम का प्रशिक्षण डेटा से सीखा गया एक संबद्ध संभाव्यता द्रव्यमान फलन होता है।
2.2. रैंक अनुमान ढांचा
सभी संभावित पासवर्डों की गणना करने के बजाय, PESrank एक विशिष्ट पासवर्ड p की रैंक R(p) की गणना आयामों द्वारा परिभाषित संयोजनात्मक स्थान में p से अधिक संभावित सभी पासवर्डों की संभावनाओं को एकत्रित करके करता है। यह साइड-चैनल विश्लेषण में एक गुप्त कुंजी की रैंक का अनुमान लगाने के अनुरूप है।
3. तकनीकी कार्यान्वयन एवं गणितीय मॉडल
3.1. संभाव्यता ढांचा
मान लीजिए एक पासवर्ड p को d स्वतंत्र आयामों में एक सदिश (x1, x2, ..., xd) के रूप में दर्शाया गया है। p की संभावना इस प्रकार अनुमानित है: $$P(p) \approx \prod_{i=1}^{d} P_i(x_i)$$ जहां Pi(xi) आयाम i में घटक xi की सीमांत संभावना है। रैंक R(p) सभी पासवर्ड q की संभावनाओं का योग है जहां P(q) > P(p)।
3.2. कुशल रैंक गणना
PESrank इस योग की गणना गणना के बिना करने के लिए कुशल एल्गोरिदम का उपयोग करता है। प्रत्येक आयाम के लिए, यह संभावना के आधार पर घटकों की क्रमबद्ध सूचियों को बनाए रखता है। रैंक गणना में इन सूचियों को पार करना और आंशिक गुणनफलों को एकत्रित करना शामिल है, जो 905 मिलियन पासवर्ड पर प्रशिक्षित मॉडल के साथ भी सब-सेकंड प्रदर्शन प्राप्त करता है।
4. प्रायोगिक परिणाम एवं मूल्यांकन
4.1. प्रदर्शन मापदंड
शोधपत्र एक व्यापक मूल्यांकन रिपोर्ट करता है। मुख्य परिणामों में शामिल हैं:
- गति: ऑनलाइन प्रश्नों के लिए प्रतिक्रिया समय "1 सेकंड से काफी कम"।
- सटीकता: ऊपरी और निचली सीमाओं के बीच 1-बिट के अंतर तक के रैंक अनुमान, जो उच्च परिशुद्धता दर्शाते हैं।
- प्रशिक्षण समय: पिछली विधियों (जिनमें दिन लग सकते थे) की तुलना में "नाटकीय रूप से कम"।
चार्ट विवरण (संकल्पनात्मक): एक बार चार्ट जो PESrank के प्रशिक्षण समय (घंटों के क्रम) की तुलना एक न्यूरल नेटवर्क मॉडल (दिनों के क्रम) और एक PCFG मॉडल (दसियों घंटों के क्रम) से करता है। एक लाइन ग्राफ ओवरले दिखाता है कि मॉडल आकार (प्रशिक्षण सेट में पासवर्डों की संख्या) 10M से 1B तक बढ़ने पर PESrank की क्वेरी विलंबता 1 सेकंड से नीचे स्थिर रहती है।
4.2. मौजूदा विधियों से तुलना
PESrank की तुलना अनुमानात्मक (LUDS), मार्कोव, और PCFG-आधारित अनुमानकों से की गई। इसने Hashcat जैसे उपकरणों से वास्तविक क्रैकिंग क्रम के साथ श्रेष्ठ सहसंबंध प्रदर्शित किया, जिससे इसके "क्रैकर-आधारित" डिज़ाइन लक्ष्य की पुष्टि हुई। इसकी व्याख्यात्मकता सुविधा, जो कम रैंक के कारण प्रदान करती है (जैसे, "आधार शब्द शीर्ष 100 सामान्य सूची में है"), ब्लैक-बॉक्स न्यूरल नेटवर्क पर एक विशिष्ट लाभ है।
5. मुख्य अंतर्दृष्टि एवं विश्लेषण ढांचा
मूल अंतर्दृष्टि
PESrank केवल एक और वृद्धिशील सुधार नहीं है; यह एक प्रतिमान परिवर्तन है। यह सफलतापूर्वक साइड-चैनल क्रिप्टोएनालिसिस से कठोर, मात्रात्मक रैंक अनुमान तकनीकों को—एक ऐसे क्षेत्र जो आंशिक कुंजी रिसाव को मात्रात्मक बनाने पर केंद्रित है—मानव-चुने गए पासवर्डों की अव्यवस्थित दुनिया में प्रत्यारोपित करता है। यह अंतर-परागण इसकी प्रतिभा है। जबकि Google के 2016 के न्यूरल नेटवर्क जैसे मॉडलों ने उच्च सटीकता प्राप्त की, वे अपारदर्शी और प्रशिक्षित करने में धीमे थे। PESrank तुलनीय क्रैकर-मॉडलिंग निष्ठा प्रदान करता है लेकिन एक अच्छी तरह से इंजीनियर संभाव्यता प्रणाली की पारदर्शिता और गति के साथ।
तार्किक प्रवाह
तर्क सुंदर रूप से संक्षेपवादी है: 1) पासवर्ड को ऑर्थोगोनल, मानव-व्याख्यात्मक आयामों में विघटित करें (यह कदम Weir et al. के PCFG की याद दिलाता है लेकिन अधिक सूक्ष्म)। 2) संभाव्यता स्थान को सुगम बनाने के लिए आयाम स्वतंत्रता मान लें—एक आवश्यक सरलीकरण जिसकी पुष्टि परिणाम करते हैं। 3) रैंक अनुमान एल्गोरिदम लागू करें जो गणना के संयोजनात्मक विस्फोट से बचते हैं। डेटा (पासवर्ड लीक) से मॉडल (प्रति-आयाम PMF) तक और क्रियात्मक आउटपुट (एक रैंक और व्याख्या) तक का प्रवाह साफ और कम्प्यूटेशनल रूप से कुशल दोनों है।
शक्तियां एवं कमियां
शक्तियां: गति (ऑनलाइन उपयोग), व्याख्यात्मकता, और समायोज्यता का त्रय वास्तविक दुनिया के तैनाती के लिए आकर्षक है। एक उपयोगकर्ता के लिए मॉडल को "सेकंड के अंशों में" व्यक्तिगत बनाने की क्षमता (जैसे, उनके नाम वाले पासवर्डों को नीचे रैंक करना) उद्यम सुरक्षा के लिए एक किलर फीचर है। इसकी प्रशिक्षण दक्षता ताजा, बड़े पैमाने के पासवर्ड डेटासेट का उपयोग करने की बाधा को भी कम करती है।
कमियां: आयाम स्वतंत्रता का मूल धारणा इसकी अकिलीज़ एड़ी है। वास्तविकता में, आयामों में उपयोगकर्ता विकल्प सहसंबद्ध होते हैं (जैसे, कुछ कैपिटलाइज़ेशन कुछ आधार शब्दों के साथ अधिक संभावित हैं)। शोधपत्र इसे स्वीकार करता है लेकिन दावा करता है कि अनुमान प्रभावी बना रहता है। इसके अलावा, सभी लीक-आधारित मॉडलों की तरह, यह स्वाभाविक रूप से पिछड़ा-दिखने वाला है, संभावित रूप से नए पासवर्ड निर्माण रणनीतियों की सामर्थ्य को कम आंकता है जो अभी तक लीक में नहीं देखे गए हैं।
क्रियात्मक अंतर्दृष्टि
CISO और उत्पाद सुरक्षा टीमों के लिए: अपने उपयोगकर्ता पंजीकरण प्रवाह में PESrank या इसके संकल्पनात्मक उत्तराधिकारियों का पायलट करें। इसकी व्याख्यात्मकता पासवर्ड नीति को एक निराशाजनक ब्लॉकर से एक शिक्षण क्षण में बदल सकती है, संभावित रूप से अनुपालन में सुधार कर सकती है। शोधकर्ताओं के लिए: शोधपत्र नए रास्ते खोलता है। क्या स्वतंत्रता धारणा को अधिक जटिल, फिर भी कुशल, संभाव्यता ग्राफिकल मॉडलों के साथ शिथिल किया जा सकता है? क्या यह ढांचा टाइपो या मामूली भिन्नताओं के लिए "फज़ी" मिलान के साथ एकीकृत हो सकता है? वास्तविक-समय व्यक्तिगतकरण डेटा (कॉर्पोरेट निर्देशिका, उल्लंघित क्रेडेंशियल्स) का एकीकरण एक वास्तविक अनुकूली उद्यम-ग्रेड अनुमानक के लिए अगला तार्किक कदम है।
6. अनुप्रयोग संभावनाएं एवं भविष्य की दिशाएं
सक्रिय पासवर्ड जांच: वेबसाइट और एप्लिकेशन साइन-अप पृष्ठों में एक वास्तविक-समय सलाहकार के रूप में एकीकरण, तत्काल, व्याख्यात्मक प्रतिक्रिया प्रदान करना।
अनुकूली प्रमाणीकरण प्रणालियां: गतिशील जोखिम स्कोरिंग जहां एक पासवर्ड की रैंक अतिरिक्त प्रमाणीकरण कारकों की आवश्यकता को प्रभावित करती है (जैसे, एक कम-रैंक पासवर्ड अनिवार्य 2FA को ट्रिगर करता है)।
व्यक्तिगत सुरक्षा नीतियां: उद्यम प्रणालियां प्रत्येक कर्मचारी के लिए व्यक्तिगत मॉडल बनाए रख सकती हैं, स्वचालित रूप से कर्मचारी-विशिष्ट जानकारी (नाम, आईडी, विभाग) वाले पासवर्डों को नीचे रैंक कर सकती हैं।
भविष्य का शोध: पासफ्रेज़ को संभालने के लिए मॉडल का विस्तार, सूक्ष्म आयाम सहसंबंधों को पकड़ने के लिए डीप लर्निंग संकरों का अन्वेषण, और पासवर्ड सामर्थ्य अनुमानकों के लिए NIST पासवर्ड दिशानिर्देशों के समान मानकीकृत बेंचमार्क विकसित करना लेकिन एल्गोरिदमिक मूल्यांकन के लिए।
7. संदर्भ
- David, L., & Wool, A. (2020). Online Password Guessability via Multi-Dimensional Rank Estimation. arXiv preprint arXiv:1912.02551.
- Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password cracking using probabilistic context-free grammars. In 2009 30th IEEE Symposium on Security and Privacy.
- Melicher, W., Ur, B., Segreti, S. M., Komanduri, S., Bauer, L., Christin, N., & Cranor, L. F. (2016). Fast, lean, and accurate: Modeling password guessability using neural networks. In 25th USENIX Security Symposium.
- NIST. (2017). Digital Identity Guidelines: Authentication and Lifecycle Management. NIST Special Publication 800-63B.
- Bonneau, J. (2012). The science of guessing: analyzing an anonymized corpus of 70 million passwords. In 2012 IEEE Symposium on Security and Privacy.