পাসজিপিটি: বড় ভাষা মডেলের সাহায্যে পাসওয়ার্ড মডেলিং ও নির্দেশিত উৎপাদন

1. ভূমিকা

বিকল্প প্রমাণীকরণ পদ্ধতির বিস্তার সত্ত্বেও, তাদের সরলতা ও স্থাপনার যোগ্যতার কারণে পাসওয়ার্ড এখনও প্রধান পদ্ধতি হিসেবে রয়েছে। এই ব্যাপকতা পাসওয়ার্ড ফাঁসকে একটি গুরুতর হুমকির উৎস করে তোলে। মেশিন লার্নিং, বিশেষত গভীর জেনারেটিভ মডেল, অনুমান আক্রমণ এবং শক্তি অনুমান উভয়ের জন্যই পাসওয়ার্ড ফাঁস বিশ্লেষণে গুরুত্বপূর্ণ ভূমিকা পালন করেছে। এই গবেষণাপত্রটি পাসজিপিটি উপস্থাপন করে, যা পাসওয়ার্ড মডেলিংয়ের জন্য বড় ভাষা মডেল (এলএলএম) ব্যবহার করে একটি নতুন পদ্ধতি। এটি মূল প্রশ্নটি তদন্ত করে: মানুষের তৈরি পাসওয়ার্ডের জটিল, প্রায়ই অবচেতন নিদর্শনগুলো এলএলএম কতটা কার্যকরভাবে ধরতে পারে? পাসজিপিটিকে একটি অফলাইন পাসওয়ার্ড-অনুমান সরঞ্জাম হিসেবে অবস্থান দেওয়া হয়েছে, যা পূর্ববর্তী প্রতিপক্ষ গবেষণা পরিস্থিতির সাথে সামঞ্জস্যপূর্ণ যেখানে একজন আক্রমণকারীর হ্যাশ করা পাসওয়ার্ড থাকে।

2. মূল পদ্ধতি ও স্থাপত্য

পাসজিপিটি গভীর জেনারেটিভ পাসওয়ার্ড মডেলিংয়ের দৃষ্টান্তকে মৌলিক উৎপাদন থেকে ক্রমিক, অক্ষর-স্তরের ভবিষ্যদ্বাণীতে মৌলিকভাবে পরিবর্তন করে।

2.1. পাসজিপিটি মডেল নকশা

পাসজিপিটি জিপিটি-২ ট্রান্সফরমার স্থাপত্যের উপর ভিত্তি করে তৈরি। এটি সরাসরি বৃহৎ-পরিসরের পাসওয়ার্ড ফাঁসের উপর প্রশিক্ষিত হয়, পূর্ববর্তী ক্রম দেওয়া থাকলে পরবর্তী অক্ষর $c_i$ এর উপর সম্ভাব্যতা বন্টন $P(c_i | c_1, c_2, ..., c_{i-1})$ শেখে। এই স্বয়ংক্রিয়-প্রতিগমন মডেলিং এটি টোকেন-বাই-টোকেন পাসওয়ার্ড তৈরি করতে দেয়, জটিল রূপগত নিদর্শনগুলো (যেমন, "গ্রীষ্ম" এর মতো সাধারণ উপসর্গ, "১২৩!" এর মতো প্রত্যয়, এবং লিট-স্পিক প্রতিস্থাপন) ধারণ করে।

2.2. নির্দেশিত পাসওয়ার্ড উৎপাদন

এটি পূর্ববর্তী জিএএন-ভিত্তিক পদ্ধতির উপর একটি মূল উদ্ভাবন। উৎপাদনের সময় মডেলের বন্টন থেকে নমুনা নিয়ে, পাসজিপিটি ইচ্ছামত সীমাবদ্ধতা অন্তর্ভুক্ত করতে পারে। উদাহরণস্বরূপ, একজন আক্রমণকারী (বা একজন রক্ষাকারী নীতি সম্মতি পরীক্ষা করছেন) এমন পাসওয়ার্ড তৈরি করতে নির্দেশিত উৎপাদন করতে পারেন যা: অবশ্যই একটি বড় হাতের অক্ষর থাকতে হবে, অবশ্যই একটি সংখ্যা দিয়ে শেষ হতে হবে, বা অবশ্যই একটি নির্দিষ্ট উপস্ট্রিং অন্তর্ভুক্ত করতে হবে। এটি পাসওয়ার্ড স্থানের একটি লক্ষ্যযুক্ত অন্বেষণ সক্ষম করে যা পূর্বে এমন মডেলগুলোর সাথে অসম্ভব ছিল যেগুলো পাসওয়ার্ডকে একক, সীমাবদ্ধতাহীন আউটপুট হিসেবে তৈরি করে।

2.3. পাসভিকিউটি উন্নয়ন

লেখকরা পাসভিকিউটি উপস্থাপন করেছেন, যা ভেক্টর কোয়ান্টাইজড ট্রান্সফরমার কৌশল দিয়ে উন্নত একটি প্রকরণ। এই পরিবর্তনটি তৈরি করা পাসওয়ার্ডগুলোর পারপ্লেক্সিটি (অনিশ্চয়তার একটি পরিমাপ) বাড়ানোর লক্ষ্য রাখে, যা সম্ভাব্যভাবে আরও বৈচিত্র্যময় এবং কম অনুমানযোগ্য আউটপুটের দিকে নিয়ে যেতে পারে, যদিও অনুমানযোগ্যতার সাথে বিনিময়ের সতর্ক মূল্যায়নের প্রয়োজন।

3. পরীক্ষামূলক ফলাফল ও কার্যকারিতা

মূল কার্যকারিতা মেট্রিক

২০% বেশি অদেখা পাসওয়ার্ড: পাসজিপিটি সর্বোচ্চ মানের জিএএন-ভিত্তিক মডেলগুলোর (যেমন, পাসজিএএন) তুলনায় ২০% বেশি পূর্বে অদেখা পাসওয়ার্ড অনুমান করেছে।

3.1. পাসওয়ার্ড অনুমান কার্যকারিতা

গবেষণাপত্রটি অফলাইন অনুমান আক্রমণে উচ্চতর কার্যকারিতা প্রদর্শন করে। সংরক্ষিত পাসওয়ার্ড ডেটাসেটে মূল্যায়ন করার সময়, পাসজিপিটি জিএএন বেসলাইনগুলোর তুলনায় পূর্বে অদেখা পাসওয়ার্ডে প্রায় দুই গুণ হিট রেট অর্জন করেছে। এটি একটি উল্লেখযোগ্যভাবে ভালো সাধারণীকরণ ক্ষমতা নির্দেশ করে, প্রতিপক্ষ নেটওয়ার্কগুলোর তুলনায় মানুষের নির্বাচিত পাসওয়ার্ডের অন্তর্নিহিত বন্টন আরও কার্যকরভাবে শেখে।

3.2. শক্তি অনুমান বিশ্লেষণ

একটি গুরুত্বপূর্ণ অনুসন্ধান হলো যে পাসজিপিটি দ্বারা নির্ধারিত স্পষ্ট সম্ভাব্যতা $P(password)$ পাসওয়ার্ড শক্তির সাথে সম্পর্কিত। এটি ধারাবাহিকভাবে শক্তিশালী পাসওয়ার্ডগুলোর জন্য কম সম্ভাব্যতা নির্ধারণ করে, যা zxcvbn এর মতো প্রতিষ্ঠিত শক্তি অনুমানকারীদের সাথে সামঞ্জস্যপূর্ণ। তদুপরি, বিশ্লেষণটি ঐতিহ্যগত অনুমানকারীদের দ্বারা "শক্তিশালী" বিবেচিত কিন্তু পাসজিপিটি দ্বারা উচ্চ সম্ভাব্যতা নির্ধারিত পাসওয়ার্ড চিহ্নিত করে—একটি নতুন শ্রেণির এমএল-দুর্বল পাসওয়ার্ড তুলে ধরে যা বর্তমান চেকারগুলি মিস করতে পারে।

4. প্রযুক্তিগত বিবরণ ও গাণিতিক কাঠামো

পাসজিপিটির মূল হলো স্বয়ংক্রিয়-প্রতিগমন ভাষা মডেলিং উদ্দেশ্য। একটি পাসওয়ার্ডকে টোকেনের একটি ক্রম (অক্ষর বা সাবওয়ার্ড) $x = (x_1, x_2, ..., x_T)$ হিসেবে উপস্থাপন করা হলে, মডেলটি সম্ভাব্যতা সর্বাধিকীকরণের জন্য প্রশিক্ষিত: $$L = \sum_{t=1}^{T} \log P(x_t | x_{

5. বিশ্লেষণ কাঠামো ও কেস স্টাডি

কেস স্টাডি: নীতি-সম্মত দুর্বল পাসওয়ার্ড চিহ্নিতকরণ
পরিস্থিতি: একটি কোম্পানি একটি পাসওয়ার্ড নীতি প্রয়োগ করে: "অন্তত ১২টি অক্ষর, একটি বড় হাতের অক্ষর, একটি সংখ্যা, একটি বিশেষ অক্ষর।" এই স্থানের উপর একটি ঐতিহ্যগত ব্রুট-ফোর্স আক্রমণ বিশাল ($\sim94^{12}$ সম্ভাবনা)।
পাসজিপিটি প্রয়োগ: নির্দেশিত উৎপাদন ব্যবহার করে, একজন বিশ্লেষক এই সঠিক সীমাবদ্ধতাগুলো সহ পাসজিপিটি থেকে নমুনা নিতে পারেন। মডেলটি, মানুষের প্রবণতা শিখে, "গ্রীষ্ম২০২৩!সূর্য", "জানুয়ারি০১?বৃষ্টি" এর মতো প্রার্থী তৈরি করবে, যা নীতির সাথে সম্মত কিন্তু সাধারণ শব্দার্থিক নিদর্শনের কারণে অত্যন্ত অনুমানযোগ্য। এটি প্রদর্শন করে কিভাবে পাসজিপিটি একটি তাত্ত্বিকভাবে শক্তিশালী নীতি-সংজ্ঞায়িত স্থানের মধ্যে "দুর্বল স্থান" দক্ষতার সাথে খুঁজে পেতে পারে, যা ব্রুট-ফোর্স বা হ্যাশক্যাটের মাস্কের মতো নিয়ম-ভিত্তিক জেনারেটরগুলোর জন্য প্রায় অসম্ভব একটি কাজ।

6. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশ

সক্রিয় পাসওয়ার্ড শক্তি অনুমান: পাসজিপিটির সম্ভাব্যতা স্কোরগুলিকে রিয়েল-টাইম পাসওয়ার্ড তৈরির চেকারগুলিতে একীভূত করা যা ঐতিহ্যগত নিয়ম পাস করা এমএল-দুর্বল পাসওয়ার্ডগুলিকে চিহ্নিত করবে।
প্রতিপক্ষ সিমুলেশন ও রেড টিমিং: নির্দেশিত পাসজিপিটি ব্যবহার করে পরিশীলিত, প্রসঙ্গ-সচেতন আক্রমণকারীদের সিমুলেট করা আরও ভালো প্রতিরক্ষামূলক পাসওয়ার্ড নীতি নকশার জন্য।
ক্রস-ডোমেইন নিদর্শন শেখা: অন্বেষণ করা যে পাসওয়ার্ডের উপর প্রশিক্ষিত এলএলএমগুলি বিভিন্ন পরিষেবার মধ্যে ব্যবহারকারী-নির্দিষ্ট নিদর্শন চিহ্নিত করতে পারে কিনা, লক্ষ্যযুক্ত আক্রমণ সম্পর্কে উদ্বেগ বাড়িয়ে।
প্রতিরক্ষামূলক প্রশিক্ষণ ডেটা উৎপাদন: পাসজিপিটি ব্যবহার করে বৃহৎ, বাস্তবসম্মত সিন্থেটিক পাসওয়ার্ড ডেটাসেট তৈরি করা বাস্তব ব্যবহারকারী ডেটা প্রকাশ না করে প্রতিরক্ষামূলক এমএল মডেল প্রশিক্ষণের জন্য।
বৃহত্তর প্রসঙ্গের সাথে একীকরণ: ভবিষ্যতের মডেলগুলি প্রসঙ্গগত ডেটা (যেমন, ব্যবহারকারী জনসংখ্যাতত্ত্ব, পরিষেবার ধরন) অন্তর্ভুক্ত করতে পারে পাসওয়ার্ড পছন্দ আরও সঠিকভাবে মডেল করার জন্য, যেমন এলএলএমগুলিতে ব্যক্তিগতকরণ প্রবণতা দ্বারা ইঙ্গিত দেওয়া হয়েছে।

7. তথ্যসূত্র

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Cryptography and Network Security.
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.

8. মূল বিশ্লেষণ ও বিশেষজ্ঞ মন্তব্য

মূল অন্তর্দৃষ্টি

পাসজিপিটি শুধু একটি ক্রমবর্ধমান উন্নতি নয়; এটি একটি দৃষ্টান্ত পরিবর্তন যা আধুনিক এআই-এর বিরুদ্ধে মানুষের নির্বাচিত গোপনীয়তার মৌলিক ভঙ্গুরতা প্রকাশ করে। গবেষণাপত্রের সবচেয়ে ক্ষতিকর উপসংহার হলো যে এলএলএমগুলির খুব ক্রমিক, নিদর্শন-ম্যাচিং প্রকৃতি—যা তাদের ভাষায় এত ভালো করে তোলে—তাদের পাসওয়ার্ডের অর্ধ-গঠিত "ভাষা" মডেলিংয়ে ভয়ঙ্করভাবে কার্যকর করে তোলে। এটি হুমকিকে পরিসংখ্যানগত ব্রুট-ফোর্সিং থেকে জ্ঞানীয় মডেলিং-এ স্থানান্তরিত করে।

যুক্তিসঙ্গত প্রবাহ

যুক্তিটি আকর্ষণীয়: ১) এলএলএমগুলি ক্রমগুলিতে গভীর পরিসংখ্যানগত নিদর্শন শিখে এনএলপি-তে আধিপত্য বিস্তার করে। ২) পাসওয়ার্ডগুলি গভীর, প্রায়ই অবচেতন, পরিসংখ্যানগত নিদর্শন (যেমন, কীবোর্ড ওয়াক, তারিখ ফরম্যাট, শব্দার্থিক সংযোজন) সহ মানুষের তৈরি ক্রম। ৩) অতএব, এলএলএমগুলির পাসওয়ার্ড মডেলিংয়ে আধিপত্য বিস্তার করা উচিত। ফলাফলগুলি এটিকে নির্মম দক্ষতার সাথে নিশ্চিত করে। নির্দেশিত উৎপাদন বৈশিষ্ট্যটি যৌক্তিক কিলার অ্যাপ—এটি এই বোঝাপড়াকে অস্ত্রে পরিণত করে, আক্রমণকারীদেরকে নীতি এবং মানুষের অলসতার সংযোগস্থল শল্যচিকিৎসার মতো শোষণ করতে দেয়।

শক্তি ও ত্রুটি

শক্তি: জিএএনগুলির উপর ২০% কার্যকারিতা বৃদ্ধি একটি ক্ষেত্রে উল্লেখযোগ্য যেখানে লাভ কঠিনভাবে অর্জিত হয়। স্পষ্ট সম্ভাব্যতা বন্টন একটি প্রধান তাত্ত্বিক এবং ব্যবহারিক সুবিধা, উৎপাদন এবং অনুমানের মধ্যে সেতুবন্ধন তৈরি করে। নির্দেশিত উৎপাদন একটি সত্যিকারের উদ্ভাবন।
ত্রুটি ও প্রশ্ন: গবেষণাপত্রটি, অনেক প্রতিপক্ষ এমএল গবেষণার মতো, প্রতিরক্ষামূলক প্রভাব সম্পর্কে হালকা। আমরা কিভাবে এমন নীতি তৈরি করব যা এর প্রতি সহনশীল? প্রশিক্ষণ ডেটা (পাসওয়ার্ড ফাঁস) নৈতিকভাবে অস্পষ্ট। তদুপরি, সাইকেলজিএএন গবেষণাপত্র এবং অন্যান্য জেনারেটিভ মডেল সাহিত্যে উল্লিখিত হিসাবে, মোড কোলাপ্স এবং বৈচিত্র্য চিরস্থায়ী সমস্যা; যদিও পাসভিকিউটি পারপ্লেক্সিটি সমাধান করে, সত্যিই এলোমেলো পাসওয়ার্ডগুলির লং-টেল এখনও নিরাপদ থাকতে পারে। তুলনাটি প্রাথমিকভাবে জিএএনগুলির বিরুদ্ধে; জেটিআর বা হ্যাশক্যাটের মতো উন্নত নিয়ম সহ বৃহৎ, অপ্টিমাইজড নিয়ম-ভিত্তিক সিস্টেমগুলির বিরুদ্ধে একটি বেঞ্চমার্ক একটি আরও সম্পূর্ণ চিত্র প্রদান করবে।

কার্যকরী অন্তর্দৃষ্টি

সিআইএসও এবং রক্ষাকারীদের জন্য: জটিলতা নিয়মের যুগ শেষ। নীতিগুলি অবশ্যই সত্যিই এলোমেলো পাসফ্রেজ বা ক্রিপ্টোগ্রাফিকভাবে নিরাপদ ম্যানেজার দ্বারা তৈরি পাসওয়ার্ড ব্যবহার বাধ্যতামূলক করতে হবে। zxcvbn এর মতো সরঞ্জামগুলিকে অবিলম্বে একটি "এমএল অনুমানযোগ্যতা" স্কোর দিয়ে বর্ধিত করতে হবে, সম্ভবত পাসজিপিটি নিজেই এর মতো মডেল থেকে প্রাপ্ত। সক্রিয় হুমকি শিকারে আপনার নিজের পাসওয়ার্ড হ্যাশগুলির বিরুদ্ধে পাসজিপিটি-স্টাইলের আক্রমণ সিমুলেট করা অন্তর্ভুক্ত করা উচিত (যথাযথ অনুমোদন সহ)।
গবেষকদের জন্য: অগ্রাধিকার অবশ্যই প্রতিরক্ষামূলক হতে হবে। পরবর্তী গবেষণাপত্রগুলির "পাসজিপিটি-প্রতিরোধী পাসওয়ার্ড তৈরির স্কিম" সম্পর্কে হতে হবে। সেন্টার ফর লং-টার্ম সাইবারসিকিউরিটি (সিএলটিসি) এর মতো প্রতিষ্ঠানগুলির দ্বারা জোর দেওয়া হিসাবে, ফাঁস হওয়া ডেটা ব্যবহার করে গবেষণার জন্য নৈতিক কাঠামোর একটি জরুরি প্রয়োজনও রয়েছে। সর্বোপরি, অনুমানযোগ্য নিদর্শন তৈরি করা থেকে এলএলএমগুলিকে চালনা করতে মানুষের প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট লার্নিং (আরএলএইচএফ) প্রয়োগ অন্বেষণ একটি প্রতিশ্রুতিশীল প্রতিরক্ষামূলক পাল্টা ব্যবস্থা হতে পারে।

সংক্ষেপে, পাসজিপিটি একটি জাগরণের আহ্বান। এটি প্রদর্শন করে যে সৃজনশীল এবং যোগাযোগমূলক কাজের জন্য উন্নত এআই-এর অগ্রভাগ, প্রাচীনতম ডিজিটাল নিরাপত্তা প্রক্রিয়াগুলির মধ্যে একটি ভাঙার জন্য হিমশীতল কার্যকারিতার সাথে পুনরায় উদ্দেশ্যে ব্যবহার করা যেতে পারে। প্রতিরক্ষা আর কেবল মানুষের অনুমানযোগ্যতাকে ছাড়িয়ে যাওয়ার উপর নির্ভর করতে পারে না; এখন এটিকে সেই এআই-কেও ছাড়িয়ে যেতে হবে যা এটি নিখুঁতভাবে অনুকরণ করতে শিখেছে।