ইউনিভার্সাল নিউরাল-ক্র্যাকিং মেশিন: সহায়ক ডেটা থেকে স্ব-কনফিগারযোগ্য পাসওয়ার্ড মডেল

1. ভূমিকা ও সংক্ষিপ্ত বিবরণ

এই গবেষণাপত্র পাসওয়ার্ড নিরাপত্তায় একটি যুগান্তকারী পদ্ধতি উপস্থাপন করে: ইউনিভার্সাল নিউরাল-ক্র্যাকিং মেশিন। মূল উদ্ভাবন হল এমন একটি পাসওয়ার্ড মডেল যা লক্ষ্য সিস্টেম থেকে প্লেইনটেক্সট পাসওয়ার্ডের অ্যাক্সেসের প্রয়োজন ছাড়াই স্বয়ংক্রিয়ভাবে তার অনুমান কৌশলকে নির্দিষ্ট লক্ষ্য সিস্টেমের সাথে খাপ খাইয়ে নিতে পারে। পরিবর্তে, মডেলটি সহায়ক ব্যবহারকারী তথ্য—যেমন ইমেল ঠিকানা—কে প্রকৃত পাসওয়ার্ড বন্টন অনুমানের জন্য প্রক্সি সংকেত হিসেবে কাজে লাগায়।

এই কাঠামোটি ব্যবহারকারী সম্প্রদায়ের মধ্যে সহায়ক ডেটা এবং পাসওয়ার্ডের মধ্যকার পারস্পরিক সম্পর্ক ক্যাপচার করতে গভীর শিক্ষণ ব্যবহার করে। একবার প্রাক-প্রশিক্ষিত হলে, মডেলটি অনুমান করার সময় যেকোনো লক্ষ্য সিস্টেমের জন্য উপযুক্ত পাসওয়ার্ড মডেল তৈরি করতে পারে, যা অতিরিক্ত প্রশিক্ষণ, লক্ষ্যযুক্ত ডেটা সংগ্রহ বা সম্প্রদায়ের পাসওয়ার্ড অভ্যাসের পূর্ব জ্ঞানের প্রয়োজন দূর করে।

মূল অন্তর্দৃষ্টি

মডেল অভিযোজনের জন্য প্লেইনটেক্সট পাসওয়ার্ড অ্যাক্সেসের উপর নির্ভরতা দূর করে
ভবিষ্যদ্বাণীমূলক সংকেত হিসেবে সহায়ক ডেটা (ইমেল, ব্যবহারকারী নাম) ব্যবহার করে
পাসওয়ার্ড নিরাপত্তা সরঞ্জামগুলোর গণতন্ত্রীকরণ সক্ষম করে
প্রথাগত পাসওয়ার্ড শক্তি অনুমান পদ্ধতিগুলোকে ছাড়িয়ে যায়

2. মূল পদ্ধতি

ইউনিভার্সাল পাসওয়ার্ড মডেলটি একটি তিন-পর্যায়ের পাইপলাইনের মাধ্যমে কাজ করে: বিভিন্ন ডেটাসেটে প্রাক-প্রশিক্ষণ, সহায়ক ডেটা এবং পাসওয়ার্ড প্যাটার্নের মধ্যে পারস্পরিক সম্পর্ক শিক্ষা, এবং অনুমানের সময় সিস্টেম-নির্দিষ্ট অভিযোজন।

2.1 মডেল আর্কিটেকচার

আর্কিটেকচারটি সহায়ক ডেটা প্রক্রিয়াকরণের জন্য ট্রান্সফরমার-ভিত্তিক এনকোডার এবং পাসওয়ার্ড ক্রম তৈরির জন্য রিকারেন্ট নিউরাল নেটওয়ার্ক (আরএনএন) একত্রিত করে। মডেলটি যৌথ এম্বেডিং শেখে যেখানে একই রকম সহায়ক ডেটা পয়েন্ট একই রকম পাসওয়ার্ড তৈরির আচরণের সাথে ম্যাপ করে।

2.2 প্রশিক্ষণ প্রক্রিয়া

প্রশিক্ষণ ঘটে বৃহৎ-পরিসরের পাসওয়ার্ড ব্রিচ ডেটাসেটে যাতে পাসওয়ার্ড এবং সংশ্লিষ্ট সহায়ক তথ্য উভয়ই থাকে। উদ্দেশ্য ফাংশনটি সহায়ক ইনপুট দেওয়া সঠিক পাসওয়ার্ড তৈরির সম্ভাবনা সর্বাধিক করে যখন বিভিন্ন ব্যবহারকারী সম্প্রদায় জুড়ে সাধারণীকরণ বজায় রাখে।

2.3 অনুমান ও অভিযোজন

অনুমানের সময়, মডেলটি একটি লক্ষ্য সিস্টেম থেকে শুধুমাত্র সহায়ক ডেটা গ্রহণ করে (যেমন, অ্যাপ্লিকেশন ব্যবহারকারীদের ইমেল ঠিকানা)। এটি এই সহায়ক ডেটায় শনাক্ত করা প্যাটার্নের ভিত্তিতে তার পাসওয়ার্ড তৈরির সম্ভাবনা গতিশীলভাবে সামঞ্জস্য করে, লক্ষ্য পাসওয়ার্ড কখনো না দেখেই একটি কাস্টমাইজড পাসওয়ার্ড মডেল তৈরি করে।

3. প্রযুক্তিগত বাস্তবায়ন

3.1 গাণিতিক কাঠামো

মূল সম্ভাব্যতা মডেলটি $P(\text{পাসওয়ার্ড} \mid \text{সহায়ক ডেটা})$ অনুমান করে। সহায়ক ডেটা $A$ এবং পাসওয়ার্ড $P$ দেওয়া হলে, মডেলটি শেখে:

$$\theta^* = \arg\max_\theta \sum_{(A_i, P_i) \in \mathcal{D}} \log P_\theta(P_i \mid A_i)$$

যেখানে $\theta$ মডেল প্যারামিটার এবং $\mathcal{D}$ প্রশিক্ষণ ডেটাসেটকে প্রতিনিধিত্ব করে। অভিযোজন প্রক্রিয়াটি লক্ষ্য সহায়ক ডেটা বন্টনের উপর ভিত্তি করে পূর্বধারণা আপডেট করতে বেইজিয়ান নীতি ব্যবহার করে।

3.2 নিউরাল নেটওয়ার্ক নকশা

নেটওয়ার্কটি একটি দ্বৈত-এনকোডার কাঠামো ব্যবহার করে: একটি সহায়ক ডেটার জন্য (অক্ষর-স্তরের সিএনএন এবং ট্রান্সফরমার ব্যবহার করে) এবং একটি পাসওয়ার্ড তৈরির জন্য (এলএসটিএম/জিআরইউ নেটওয়ার্ক ব্যবহার করে)। মনোযোগ প্রক্রিয়া দুটি এনকোডারকে সংযুক্ত করে, যা পাসওয়ার্ড জেনারেটরকে ক্রম তৈরির সময় সহায়ক ডেটার প্রাসঙ্গিক দিকগুলিতে ফোকাস করতে দেয়।

লস ফাংশনটি পাসওয়ার্ড ভবিষ্যদ্বাণীর জন্য ক্রস-এনট্রপি এবং নির্দিষ্ট প্রশিক্ষণ সম্প্রদায়ের জন্য ওভারফিটিং প্রতিরোধকারী নিয়মিতকরণ পদগুলিকে একত্রিত করে:

$$\mathcal{L} = \mathcal{L}_{\text{CE}} + \lambda_1 \mathcal{L}_{\text{reg}} + \lambda_2 \mathcal{L}_{\text{div}}$$

4. পরীক্ষামূলক ফলাফল

4.1 ডেটাসেট বর্ণনা

পরীক্ষাগুলোতে ৫টি প্রধান পাসওয়ার্ড ব্রিচ ডেটাসেট ব্যবহার করা হয়েছে যাতে ১৫০+ মিলিয়ন ক্রেডেনশিয়াল জোড়া সংশ্লিষ্ট ইমেল/ব্যবহারকারী নাম সহ রয়েছে। ক্রস-ডোমেন অভিযোজন পরীক্ষা করার জন্য ডেটাসেটগুলিকে উৎস (সোশ্যাল মিডিয়া, গেমিং, কর্পোরেট) দ্বারা বিভক্ত করা হয়েছিল।

4.2 কর্মক্ষমতা মেট্রিক্স

মডেলটি মূল্যায়ন করা হয়েছে নিম্নলিখিত মেট্রিক্স ব্যবহার করে:

অনুমান সংখ্যা: সঠিক পাসওয়ার্ড তৈরি করা তালিকায় যে গড় অবস্থানে উপস্থিত হয়
কভারেজ@কে: প্রথম কে সংখ্যক অনুমানের মধ্যে ক্র্যাক করা পাসওয়ার্ডের শতাংশ
অভিযোজন গতি: কার্যকর অভিযোজনের জন্য প্রয়োজনীয় সহায়ক নমুনার সংখ্যা

কর্মক্ষমতা সারসংক্ষেপ

কভারেজ@১০^৬: ৪৫.২% (সেরা বেসলাইনের জন্য ৩২.১% এর বিপরীতে)

গড় অনুমান সংখ্যা: ১.২×১০^৫ (বেসলাইনগুলির জন্য ৩.৮×১০^৫ এর বিপরীতে)

অভিযোজন নমুনা: ~১,০০০ সহায়ক ডেটা পয়েন্ট ৮০% সর্বোত্তম কর্মক্ষমতার জন্য

4.3 বেসলাইনের সাথে তুলনা

ইউনিভার্সাল মডেলটি ধারাবাহিকভাবে ছাড়িয়ে গেছে:

মার্কভ মডেল: কভারেজ@১০^৬ এ ২৮% উন্নতি
পিসিএফজি-ভিত্তিক পদ্ধতি: গড় অনুমান সংখ্যায় ৩৫% হ্রাস
স্ট্যাটিক নিউরাল মডেল: ক্রস-ডোমেন কর্মক্ষমতায় ৪২% উন্নতি
প্রথাগত পিএসএম: ৩.২× বেশি নির্ভুল শক্তি অনুমান

চার্ট ব্যাখ্যা: কর্মক্ষমতার সুবিধা লক্ষ্য সম্প্রদায়ের নির্দিষ্টতার সাথে বৃদ্ধি পায়। স্বতন্ত্র ব্যবহারকারী জনসংখ্যা সহ বিশেষায়িত অ্যাপ্লিকেশনের জন্য, ইউনিভার্সাল মডেলটি এক-আকার-সব-ফিট পদ্ধতির চেয়ে ৫০-৬০% ভালো কর্মক্ষমতা অর্জন করে।

5. বিশ্লেষণ কাঠামো উদাহরণ

পরিস্থিতি: একটি নতুন গেমিং প্ল্যাটফর্ম বিটা টেস্টিংয়ের সময় ব্যবহারকারী পাসওয়ার্ড সংগ্রহ না করেই পাসওয়ার্ড শক্তির প্রয়োজনীয়তা মূল্যায়ন করতে চায়।

ধাপ ১ - ডেটা সংগ্রহ: ২,০০০ বিটা টেস্টার ইমেল ঠিকানা সংগ্রহ করুন (যেমন, gamer123@email.com, pro_player@email.com)।

ধাপ ২ - সহায়ক বৈশিষ্ট্য নিষ্কাশন:

ব্যবহারকারী নাম অংশ নিষ্কাশন করুন ("gamer123", "pro_player")
ইমেল ডোমেইন এবং প্রদানকারী শনাক্ত করুন
নামকরণ প্যাটার্ন এবং কাঠামো বিশ্লেষণ করুন

ধাপ ৩ - মডেল অভিযোজন: সহায়ক বৈশিষ্ট্যগুলো প্রাক-প্রশিক্ষিত ইউনিভার্সাল মডেলে ফিড করুন। মডেলটি গেমিং সম্প্রদায়ের সাধারণ প্যাটার্ন শনাক্ত করে (সংক্ষিপ্ত পাসওয়ার্ড, গেম-সম্পর্কিত শব্দ অন্তর্ভুক্তি, পাসওয়ার্ডে ব্যবহারকারী নামের ঘন ঘন পুনর্ব্যবহার)।

ধাপ ৪ - পাসওয়ার্ড মডেল তৈরি: অভিযোজিত মডেলটি গেমিং সম্প্রদায়ের প্যাটার্নের জন্য উপযুক্ত পাসওয়ার্ড সম্ভাব্যতা বন্টন তৈরি করে, একটি প্লেইনটেক্সট পাসওয়ার্ডও অ্যাক্সেস না করেই নির্ভুল শক্তি অনুমান এবং নীতি সুপারিশ সক্ষম করে।

ধাপ ৫ - নীতি বাস্তবায়ন: মডেল আউটপুটের ভিত্তিতে, প্ল্যাটফর্ম প্রয়োজনীয়তা বাস্তবায়ন করে: ন্যূনতম ১২ অক্ষর, ব্যবহারকারী নাম ধারণকারী পাসওয়ার্ড ব্লক করে, গেমিং-অসম্পর্কিত পাসওয়ার্ডের পরামর্শ দেয়।

6. সমালোচনামূলক বিশ্লেষণ ও বিশেষজ্ঞ দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি

এটি শুধু আরেকটি পাসওয়ার্ড ক্র্যাকিং গবেষণাপত্র নয়—এটি কিভাবে আমরা প্রমাণীকরণ নিরাপত্তার কাছে যাই তার একটি মৌলিক পরিবর্তন। লেখকরা মূলত পাসওয়ার্ড মডেলিংকে পাসওয়ার্ড অ্যাক্সেস থেকে বিচ্ছিন্ন করেছেন, সহায়ক ডেটাকে শোরগোল থেকে সংকেতে পরিণত করেছেন। এটি কম্পিউটার ভিশনে দেখা স্ব-তত্ত্বাবধানে শিক্ষার অগ্রগতির প্রতিফলন (যেমন সিমসিএলআর-এ কনট্রাস্টিভ লার্নিং) কিন্তু নিরাপত্তা ডোমেনে প্রয়োগ করা হয়েছে। আসল যুগান্তকারী বিষয় হল পাসওয়ার্ড অভ্যাসকে ডিজিটাল পদচিহ্ন থেকে অনুমানযোগ্য লুকানো চলক হিসেবে বিবেচনা করা।

যুক্তিগত প্রবাহ

প্রযুক্তিগত অগ্রগতি সুন্দর: (১) স্বীকার করুন যে পাসওয়ার্ড বন্টন সম্প্রদায়-নির্দিষ্ট, (২) স্বীকার করুন যে লক্ষ্য পাসওয়ার্ড সংগ্রহ করা অবাস্তব/অনিরাপদ, (৩) আবিষ্কার করুন যে সহায়ক ডেটা সম্প্রদায় পরিচয়ের জন্য একটি প্রক্সি হিসেবে কাজ করে, (৪) ম্যাপিং শেখার জন্য গভীর শিক্ষণের প্যাটার্ন শনাক্তকরণ ক্ষমতা কাজে লাগান, (৫) জিরো-শট অভিযোজন সক্ষম করুন। এই প্রবাহ নিরাপত্তা সরঞ্জাম স্থাপনের ক্লাসিক মুরগি-ও-ডিম সমস্যার সমাধান করে।

শক্তি ও ত্রুটি

শক্তি: গণতন্ত্রীকরণের দিকটি আকর্ষণীয়—অবশেষে সর্বোচ্চ স্তরের পাসওয়ার্ড বিশ্লেষণকে এমএল দক্ষতাবিহীন প্রতিষ্ঠানগুলোর কাছে নিয়ে আসা। গোপনীয়তা-সংরক্ষণকারী দিক (প্লেইনটেক্সটের প্রয়োজন নেই) প্রধান সম্মতি উদ্বেগের সমাধান করে। কর্মক্ষমতা উন্নতি যথেষ্ট, বিশেষ করে বিশেষায়িত সম্প্রদায়ের জন্য।

ত্রুটি: মডেলটি প্রশিক্ষণ ডেটা থেকে পক্ষপাত উত্তরাধিকার সূত্রে পায় (প্রধানত পশ্চিমা, ইংরেজি-কেন্দ্রিক ব্রিচ)। এটি সহায়ক ডেটা প্রাপ্যতা ধরে নেয়—সর্বনিম্ন ব্যবহারকারী তথ্য সহ সিস্টেমগুলোর কী হবে? ব্ল্যাক-বক্স প্রকৃতি নিরাপত্তা নিরীক্ষার জন্য ব্যাখ্যাযোগ্যতা সমস্যা বাড়ায়। সবচেয়ে গুরুত্বপূর্ণভাবে, এটি সম্ভাব্য আক্রমণকারীদের জন্যও বাধা কমিয়ে দেয়, অভিযোজিত পাসওয়ার্ড ক্র্যাকিংয়ে একটি অস্ত্র প্রতিযোগিতা তৈরি করে।

কার্যকরী অন্তর্দৃষ্টি

নিরাপত্তা দলগুলোর অবিলম্বে উচিত: (১) নিরীক্ষা করুন তারা কী সহায়ক ডেটা প্রকাশ করে (মেটাডেটাতেও), (২) ধরে নিন আক্রমণকারীরা ১৮-২৪ মাসের মধ্যে এই কৌশলগুলি ব্যবহার করবে, (৩) সহায়ক ডেটায় শোরগোল যোগ করা বা ডিফারেনশিয়াল প্রাইভেসি ব্যবহারের মতো পাল্টা ব্যবস্থা তৈরি করুন। গবেষকদের জন্য: পরবর্তী সীমান্ত হল প্রতিকূল সহায়ক ডেটা—এই মডেলগুলিকে বিভ্রান্ত করার জন্য ইনপুট তৈরি করা। নীতিনির্ধারকদের জন্য: এই প্রযুক্তি ডেটা সংগ্রহ এবং নিরাপত্তা ঝুঁকির মধ্যে রেখা ঝাপসা করে, যার জন্য আপডেট করা নিয়মাবলীর প্রয়োজন।

তুলনামূলকভাবে, এই কাজটি "The Science of Guessing" (Klein, 1990) এবং "Fast, Lean, and Accurate" (Weir et al., 2009) এর মতো মৌলিক গবেষণাপত্রের পাশাপাশি এই ক্ষেত্রকে পুনরায় সংজ্ঞায়িত করার সম্ভাবনায় দাঁড়িয়েছে। যাইহোক, ঐতিহ্যগত পদ্ধতির বিপরীতে যা পাসওয়ার্ডকে বিচ্ছিন্নভাবে বিবেচনা করে, এটি ডিজিটাল পরিচয়ের প্রাসঙ্গিক বাস্তবতাকে আলিঙ্গন করে—একটি দৃষ্টিভঙ্গি স্ট্যানফোর্ড সিকিউরিটি ল্যাবের মতো প্রতিষ্ঠান থেকে আধুনিক আচরণগত বায়োমেট্রিক্স গবেষণার সাথে বেশি সঙ্গতিপূর্ণ।

7. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

তাত্ক্ষণিক প্রয়োগ (১-২ বছর):

পাসওয়ার্ড নিরীক্ষা ছাড়াই এন্টারপ্রাইজ পাসওয়ার্ড নীতি অপ্টিমাইজেশন
গতিশীল পাসওয়ার্ড শক্তি মিটার যা প্রতিষ্ঠানিক সংস্কৃতির সাথে খাপ খায়
ক্রেডেনশিয়াল স্টাফিং আক্রমণ শনাক্তকারী ব্রিচ শনাক্তকরণ সিস্টেম
ব্যবহারকারী জনসংখ্যার জন্য উপযুক্ত পাসওয়ার্ড ম্যানেজার পরামর্শ

মধ্যমেয়াদী উন্নয়ন (৩-৫ বছর):

আইএএম (আইডেন্টিটি অ্যান্ড অ্যাক্সেস ম্যানেজমেন্ট) সিস্টেমের সাথে একীকরণ
গোপনীয়তা-সংরক্ষণকারী সহযোগিতামূলক নিরাপত্তার জন্য ফেডারেটেড লার্নিং সংস্করণ
ক্রেডেনশিয়াল আক্রমণের সময় রিয়েল-টাইম অভিযোজন
ক্রস-মোডাল অভিযোজন (টেক্সট প্যাটার্ন থেকে আচরণগত বায়োমেট্রিক্স)

দীর্ঘমেয়াদী গবেষণা দিকনির্দেশনা:

পরিচালিত সহায়ক ডেটার বিরুদ্ধে প্রতিকূল দৃঢ়তা
অন্যান্য প্রমাণীকরণ ফ্যাক্টরে সম্প্রসারণ (নিরাপত্তা প্রশ্ন, প্যাটার্ন)
পাসওয়ার্ড-বিহীন প্রমাণীকরণ রূপান্তর কাঠামোর সাথে একীকরণ
প্রতিরক্ষামূলক বনাম আক্রমণাত্মক ব্যবহারের ক্ষেত্রে নৈতিক কাঠামো

শিল্পের প্রভাব: এই প্রযুক্তি সম্ভবত নিরাপত্তা সরঞ্জামের একটি নতুন বিভাগ তৈরি করবে—"অ্যাডাপটিভ অথেন্টিকেশন ইন্টেলিজেন্স" প্ল্যাটফর্ম। স্টার্টআপগুলি এসএএএস সমাধান হিসেবে এটি অফার করে উঠবে, যখন প্রতিষ্ঠিত নিরাপত্তা বিক্রেতারা তাদের বিদ্যমান পণ্যগুলিতে অনুরূপ ক্ষমতা একীভূত করবে। সাইবার নিরাপত্তা বীমা শিল্প ঝুঁকি মূল্যায়ন অ্যালগরিদমে এই মডেলগুলিকে অন্তর্ভুক্ত করতে পারে।

8. তথ্যসূত্র

Pasquini, D., Ateniese, G., & Troncoso, C. (2024). Universal Neural-Cracking Machines: Self-Configurable Password Models from Auxiliary Data. IEEE Symposium on Security and Privacy (S&P).
Weir, M., Aggarwal, S., Medeiros, B. D., & Glodek, B. (2009). Password cracking using probabilistic context-free grammars. IEEE Symposium on Security and Privacy.
Klein, D. V. (1990). Foiling the cracker: A survey of, and improvements to, password security. USENIX Security Symposium.
Wang, D., Cheng, H., Wang, P., Huang, X., & Jian, G. (2017). A security analysis of honeywords. NDSS.
Ur, B., et al. (2016). Design and evaluation of a data-driven password meter. CHI.
Veras, R., Collins, C., & Thorpe, J. (2014). On the semantic patterns of passwords and their security impact. NDSS.
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. ICML.
Bonneau, J. (2012). The science of guessing: Analyzing an anonymized corpus of 70 million passwords. IEEE Symposium on Security and Privacy.
Florencio, D., & Herley, C. (2007). A large-scale study of web password habits. WWW.
Stanford Security Lab. (2023). Behavioral Biometrics and Authentication Patterns. Stanford University Technical Report.