PassGPT: বড় ভাষা মডেলের সাহায্যে পাসওয়ার্ড মডেলিং ও নির্দেশিত উৎপাদন

1. ভূমিকা

প্রমাণীকরণ প্রযুক্তিতে অগ্রগতি সত্ত্বেও, সরলতা ও স্থাপনার যোগ্যতার কারণে পাসওয়ার্ড এখনও প্রধান প্রক্রিয়া হিসেবে রয়েছে। পাসওয়ার্ড ফাঁস উল্লেখযোগ্য নিরাপত্তা হুমকি তৈরি করে, যা অননুমোদিত প্রবেশ এবং ক্র্যাকিং সরঞ্জামগুলিকে পরিশীলিত করতে সক্ষম করে। এই গবেষণাপত্রটি বড় ভাষা মডেল (এলএলএম)-এর পাসওয়ার্ড মডেলিংয়ে প্রয়োগ তদন্ত করে, PassGPT পরিচয় করিয়ে দেয়—একটি মডেল যা উৎপাদন ও শক্তি অনুমানের জন্য পাসওয়ার্ড ফাঁসের উপর প্রশিক্ষিত।

গবেষণায় দেখা গেছে যে PassGPT বিদ্যমান জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN)-ভিত্তিক পদ্ধতিগুলিকে ছাড়িয়ে যায় ২০% বেশি পূর্বে অদেখা পাসওয়ার্ড অনুমান করে এবং নির্দেশিত পাসওয়ার্ড উৎপাদন পরিচয় করিয়ে দেয়—যে কোনও সীমাবদ্ধতার অধীনে পাসওয়ার্ড তৈরির একটি অভিনব ক্ষমতা।

2. পদ্ধতি ও স্থাপত্য

PassGPT জিপিটি-২ স্থাপত্যের উপর নির্মিত, যা পাসওয়ার্ড অক্ষরের অনুক্রমিক উৎপাদনের জন্য অভিযোজিত। এই পদ্ধতিটি GAN-এর বিপরীত, যা পাসওয়ার্ডকে সম্পূর্ণ একক হিসেবে তৈরি করে।

2.1. PassGPT মডেল নকশা

মডেলটি একটি অটোরিগ্রেসিভ ট্রান্সফরমার যা বৃহৎ-পরিসরের পাসওয়ার্ড ফাঁসের উপর প্রশিক্ষিত। এটি পরবর্তী অক্ষর $x_t$ এর উপর সম্ভাব্যতা বন্টন $P(x_t | x_{

2.2. নির্দেশিত পাসওয়ার্ড উৎপাদন

একটি মূল উদ্ভাবন হল অক্ষর-স্তরের নির্দেশিত উৎপাদন। নমুনা পদ্ধতিতে হস্তক্ষেপ করে (যেমন, শর্তাধীন সম্ভাব্যতা বা মাস্কিং ব্যবহার করে), PassGPT এমন পাসওয়ার্ড তৈরি করতে পারে যা নির্দিষ্ট সীমাবদ্ধতাগুলি পূরণ করে, যেমন নির্দিষ্ট চিহ্ন ধারণ করা, দৈর্ঘ্যের প্রয়োজনীয়তা পূরণ করা, বা নির্দিষ্ট উপস্ট্রিং অন্তর্ভুক্ত করা—এমন একটি কৃতিত্ব যা আদর্শ GAN-এর মাধ্যমে অর্জনযোগ্য নয়।

2.3. PassVQT উন্নয়ন

PassVQT ভেক্টর কোয়ান্টাইজড ট্রান্সফরমার (VQT) কৌশল অন্তর্ভুক্ত করে, যা লুকানো এম্বেডিং উপস্থাপনের জন্য একটি বিচ্ছিন্ন কোডবুক ব্যবহার করে। এটি উৎপাদিত পাসওয়ার্ডের বিভ্রান্তি ও বৈচিত্র্য বাড়াতে পারে, যদিও এটি গণনামূলক খরচের সাথে আসতে পারে।

3. পরীক্ষামূলক ফলাফল

3.1. পাসওয়ার্ড অনুমান কার্যকারিতা

বাস্তব-বিশ্বের পাসওয়ার্ড ফাঁসে (যেমন, RockYou) পরীক্ষাগুলি দেখায় যে PassGPT পূর্বের সর্বোচ্চ মানের গভীর জেনারেটিভ মডেল যেমন PassGAN-কে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়। একটি পরীক্ষায়, PassGAN-ভিত্তিক পদ্ধতির তুলনায় PassGPT দুই গুণ বেশি অনন্য, পূর্বে অদেখা পাসওয়ার্ড অনুমান করেছে। এটি নতুন, সংরক্ষিত ডেটাসেটে শক্তিশালী সাধারণীকরণও প্রদর্শন করেছে।

কার্যকারিতা তুলনা

PassGPT বনাম GAN: অদেখা পাসওয়ার্ড অনুমানে ২০% উচ্চ সাফল্যের হার।

সাধারণীকরণ: প্রশিক্ষণের সময় দেখা যায়নি এমন নতুন পাসওয়ার্ড ফাঁসে কার্যকর কার্যকারিতা।

3.2. সম্ভাব্যতা বন্টন বিশ্লেষণ

GAN-এর বিপরীতে, PassGPT পাসওয়ার্ডের উপর একটি স্পষ্ট সম্ভাব্যতা বন্টন প্রদান করে। বিশ্লেষণে দেখা যায় যে কম পাসওয়ার্ড সম্ভাব্যতা (উচ্চ নেতিবাচক লগ-সম্ভাবনা) এবং zxcvbn-এর মতো অনুমানকারীদের দ্বারা পরিমাপ করা উচ্চ শক্তির মধ্যে একটি শক্তিশালী সম্পর্ক রয়েছে। তবে, PassGPT এমন উদাহরণ চিহ্নিত করেছে যেখানে প্রচলিত অনুমানকারীদের দ্বারা "শক্তিশালী" বিবেচিত পাসওয়ার্ডগুলির তার মডেলের অধীনে তুলনামূলকভাবে উচ্চ সম্ভাব্যতা ছিল, যা সম্ভাব্য দুর্বলতা নির্দেশ করে।

চার্টের প্রভাব: একটি প্রকল্পিত স্ক্যাটার প্লটে x-অক্ষে পাসওয়ার্ড সম্ভাব্যতা (PassGPT) এবং y-অক্ষে শক্তি স্কোর (zxcvbn) দেখাবে, যা একটি সাধারণ নেতিবাচক প্রবণতা প্রকাশ করবে উল্লেখযোগ্য বহির্গামী সহ যেখানে উচ্চ-শক্তির পাসওয়ার্ডের অপ্রত্যাশিতভাবে উচ্চ সম্ভাব্যতা রয়েছে।

4. প্রযুক্তিগত বিশ্লেষণ ও কাঠামো

শিল্প বিশ্লেষকের দৃষ্টিভঙ্গি: PassGPT পদ্ধতির একটি সমালোচনামূলক মূল্যায়ন, এর প্রভাব এবং ব্যবহারিক টেকওয়ে।

4.1. মূল অন্তর্দৃষ্টি

গবেষণাপত্রের মৌলিক অগ্রগতি শুধু পাসওয়ার্ডের জন্য আরেকটি এআই মডেল নয়; এটি বৈষম্যমূলক প্যাটার্ন ম্যাচিং থেকে জেনারেটিভ অনুক্রম মডেলিং-এ একটি দৃষ্টান্ত পরিবর্তন। যদিও Hashcat-এর মতো সরঞ্জামগুলি নিয়ম এবং মার্কভ চেইনের উপর নির্ভর করে, এবং PassGAN-এর মতো GAN সামগ্রিক আউটপুট তৈরি করে, PassGPT পাসওয়ার্ড তৈরিকে একটি ভাষাগত কাজ হিসেবে বিবেচনা করে। এটি প্রতিফলিত করে কিভাবে GPT-3-এর মতো এলএলএম প্রাকৃতিক ভাষার "ব্যাকরণ" ও "অর্থবিজ্ঞান" ধারণ করে, কিন্তু এখানে মানুষের পাসওয়ার্ড তৈরির "ভাষা"-তে প্রয়োগ করা হয়েছে। প্রকৃত মূল্য প্রস্তাব হল এটি প্রদান করে এমন স্পষ্ট, ট্র্যাক্টেবল সম্ভাব্যতা বন্টন—এমন একটি বৈশিষ্ট্য যা GAN-এ স্পষ্টভাবে অনুপস্থিত, যেগুলিকে প্রায়শই "ব্ল্যাক বক্স" হিসেবে সমালোচনা করা হয় (Goodfellow et al., 2014)। এটি পাসওয়ার্ড নিরাপত্তাকে হিউরিস্টিক অনুমান থেকে সম্ভাব্যতা যুক্তিতে নিয়ে যায়।

4.2. যৌক্তিক প্রবাহ

যুক্তিটি আকর্ষণীয় যুক্তি দিয়ে এগিয়ে যায়: (১) এলএলএম অনুক্রম মডেলিং করে NLP-তে আধিপত্য বিস্তার করে; (২) পাসওয়ার্ড হল লুকানো কাঠামো সহ অক্ষরের অনুক্রম; (৩) অতএব, এলএলএম পাসওয়ার্ডকে কার্যকরভাবে মডেল করবে। বৈধতা শক্তিশালী: উচ্চতর অনুমান কার্যকারিতা প্রমাণ করে প্রস্তাবনাটি। নির্দেশিত উৎপাদনের পরিচয় হল অনুক্রমিক স্থাপত্যের একটি প্রাকৃতিক সম্প্রসারণ—CTRL (Keskar et al., 2019)-এর মতো মডেলে নিয়ন্ত্রিত টেক্সট জেনারেশনের অনুরূপ। সম্ভাব্যতা বন্টনের বিশ্লেষণ হল সমালোচনামূলক পরবর্তী পদক্ষেপ, যা জেনারেটিভ মডেলিংকে শক্তি অনুমানের ব্যবহারিক ক্ষেত্রে ফিরিয়ে আনে। মডেলিং -> উৎপাদন -> বিশ্লেষণ -> প্রয়োগ থেকে প্রবাহটি সুসংগত এবং প্রভাবশালী।

4.3. শক্তি ও দুর্বলতা

শক্তি: কার্যকারিতা লাভগুলি অপরিবর্তনীয়। নির্দেশিত উৎপাদন ক্ষমতা হল একটি সত্যিকারের উদ্ভাবন যা অনুপ্রবেশ পরীক্ষার জন্য (নিয়ম-সম্মত পাসওয়ার্ড প্রার্থী তৈরি) এবং সম্ভবত ব্যবহারকারীদের স্মরণীয় কিন্তু জটিল পাসওয়ার্ড তৈরি করতে সাহায্য করার জন্য তাৎক্ষণিক প্রয়োগ রয়েছে। একটি সম্ভাব্যতা বন্টন প্রদান করা একটি প্রধান তাত্ত্বিক এবং ব্যবহারিক সুবিধা, যা এনট্রপি গণনা এবং বিদ্যমান নিরাপত্তা কাঠামোর সাথে একীকরণ সক্ষম করে।

দুর্বলতা ও উদ্বেগ: গবেষণাপত্রটি উল্লেখযোগ্য বিষয়গুলিকে উপেক্ষা করে। প্রথমত, নৈতিক দ্বৈত-ব্যবহার: এটি একটি শক্তিশালী ক্র্যাকিং সরঞ্জাম। যদিও "অফলাইন অনুমান" গবেষণার জন্য অবস্থান করা হয়েছে, এর অপব্যবহারের সম্ভাবনা উচ্চ, এবং কোড/মডেল প্রকাশের জন্য কঠোর নৈতিক নির্দেশিকা প্রয়োজন, অন্যান্য দ্বৈত-ব্যবহার এআই গবেষণার (Brundage et al., 2018) চারপাশের বিতর্কের অনুরূপ। দ্বিতীয়ত, ডেটা নির্ভরতা: সমস্ত এমএল মডেলের মতো, PassGPT তার প্রশিক্ষণ ডেটা যতটা ভালো ততটাই ভালো। এটি সাধারণ ফাঁসে কম প্রতিনিধিত্ব করা সংস্কৃতি বা ভাষা থেকে পাসওয়ার্ড মডেল করতে ব্যর্থ হতে পারে। তৃতীয়ত, গণনামূলক খরচ: কিছু পুরানো পদ্ধতির তুলনায় বড় ট্রান্সফরমার প্রশিক্ষণ ও চালানো সম্পদ-নিবিড়, যা সম্ভাব্যভাবে রিয়েল-টাইম প্রয়োগ সীমিত করতে পারে। PassVQT বৈকল্পিকের বর্ধিত "বিভ্রান্তি" উল্লেখ করা হয়েছে কিন্তু পুঙ্খানুপুঙ্খভাবে মূল্যায়ন করা হয়নি—উচ্চতর বৈচিত্র্য কি আরও কার্যকর অনুমানে রূপান্তরিত হয়, নাকি শুধু আরও অর্থহীন স্ট্রিং তৈরি করে?

4.4. বাস্তবায়নযোগ্য অন্তর্দৃষ্টি

নিরাপত্তা দলগুলির জন্য: অবিলম্বে মূল্যায়ন করুন যে কিভাবে আপনার প্রতিষ্ঠানের পাসওয়ার্ড নীতিগুলি এই নতুন প্রজন্মের এআই-চালিত আক্রমণের প্রতি দুর্বল হতে পারে। জটিল কিন্তু পূর্বাভাসযোগ্য প্যাটার্ন (যেমন, "CompanyName2024!") বাধ্যতামূলক নীতিগুলি এখন আরও উন্মুক্ত। সত্যিকারের র্যান্ডমনেস (পাসওয়ার্ড ম্যানেজার) বা পাসফ্রেজ ব্যবহারের দিকে পরিবর্তনের পক্ষে সমর্থন করুন।

গবেষক ও বিক্রেতাদের জন্য: শক্তি মিটারে এলএলএম-ভিত্তিক সম্ভাব্যতা অনুমান একীভূত করুন। প্রচলিত নিয়ম (zxcvbn) এবং PassGPT-এর সম্ভাবনার সাথে মিলিত একটি হাইব্রিড অনুমানকারী আরও শক্তিশালী হতে পারে। এমন প্রতিরক্ষামূলক মডেল তৈরি করুন যা PassGPT দ্বারা তৈরি হওয়ার সম্ভাবনা রয়েছে এমন পাসওয়ার্ড সনাক্ত করতে পারে, পাসওয়ার্ড নিরাপত্তায় একটি এআই বনাম এআই অস্ত্র প্রতিযোগিতা তৈরি করে।

নীতি নির্ধারকদের জন্য: এই প্রযুক্তির প্রতিরক্ষামূলক প্রয়োগের গবেষণায় তহবিল প্রদান করুন এবং সাইবার নিরাপত্তায় শক্তিশালী আক্রমণাত্মক এআই সরঞ্জাম প্রকাশের জন্য স্পষ্ট নৈতিক কাঠামো প্রতিষ্ঠা করুন।

কাঠামো উদাহরণ (নন-কোড): একটি আর্থিক প্রতিষ্ঠানের পাসওয়ার্ড নীতি বিবেচনা করুন: "১২ অক্ষর, ১ বড় হাতের, ১ ছোট হাতের, ১ সংখ্যা, ১ বিশেষ অক্ষর।" একটি প্রচলিত ক্র্যাকিং সরঞ্জাম ব্রুট-ফোর্স বা ম্যাংলিং নিয়ম ব্যবহার করতে পারে। একটি GAN সমস্ত সীমাবদ্ধতা কঠোরভাবে পূরণ করে এমন আউটপুট তৈরি করতে সংগ্রাম করতে পারে। PassGPT-এর নির্দেশিত উৎপাদনকে এই সঠিক নীতি পূরণ করে এমন অনুক্রমগুলির নমুনা নেওয়ার জন্য নির্দেশিত করা যেতে পারে, সেই সীমাবদ্ধ অনুসন্ধান স্থানের উচ্চ-সম্ভাব্যতা উপস্থান কার্যকরভাবে অন্বেষণ করে, যা এই নীতি পরীক্ষা করা রেড টিম এবং ব্ল্যাক-বক্স আক্রমণকারী উভয়ের জন্যই এটি একটি শক্তিশালী সরঞ্জাম করে তোলে।

5. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

উন্নত শক্তি অনুমান: ওয়েবসাইট এবং অ্যাপ্লিকেশনের জন্য রিয়েল-টাইম পাসওয়ার্ড শক্তি মিটারে PassGPT-এর সম্ভাব্যতা স্কোর একীকরণ।
প্রোঅ্যাকটিভ পাসওয়ার্ড অডিটিং: প্রতিষ্ঠানগুলি অভ্যন্তরীণ নীতিগুলি মেনে চলা পাসওয়ার্ড সক্রিয়ভাবে তৈরি এবং পরীক্ষা করার জন্য নির্দেশিত PassGPT মডেল ব্যবহার করতে পারে, আক্রমণকারীদের আগেই দুর্বল স্থানগুলি চিহ্নিত করতে পারে।
হাইব্রিড প্রতিরক্ষা মডেল: এমন বৈষম্যমূলক মডেল তৈরি করা যা মানুষের নির্বাচিত এবং এলএলএম-উৎপাদিত পাসওয়ার্ডের মধ্যে পার্থক্য করতে পারে যাতে সম্ভাব্য আপস বা দুর্বল শংসাপত্র চিহ্নিত করা যায়।
ক্রস-ডোমেইন অনুক্রম মডেলিং: একই স্থাপত্য অন্যান্য নিরাপত্তা-প্রাসঙ্গিক অনুক্রমে প্রয়োগ করা, যেমন নেটওয়ার্ক প্রোটোকল ফিঙ্গারপ্রিন্ট, ম্যালওয়্যার API কল অনুক্রম, বা জালিয়াতি লেনদেন প্যাটার্ন।
ফেডারেটেড ও গোপনীয়তা-সংরক্ষণ প্রশিক্ষণ: সংবেদনশীল ফাঁস কেন্দ্রীভূত না করে বিতরণিত, বেনামী পাসওয়ার্ড ডেটার উপর এই ধরনের মডেল প্রশিক্ষণের কৌশল অন্বেষণ করা।
প্রতিপক্ষ পাসওয়ার্ড উৎপাদন: নির্দেশিত উৎপাদন ব্যবহার করে "প্রতিপক্ষ উদাহরণ" তৈরি করা—যে পাসওয়ার্ডগুলি অনুমানকারীদের কাছে শক্তিশালী বলে মনে হয় কিন্তু মডেল দ্বারা সহজেই অনুমান করা যায়—যাতে সেই অনুমানকারীদের চাপ পরীক্ষা এবং উন্নতি করা যায়।

6. তথ্যসূত্র

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.