انتخاب زبان

PassGPT: مدل‌سازی و تولید هدایت‌شده رمز عبور با مدل‌های زبانی بزرگ

تحلیل PassGPT، یک مدل زبانی بزرگ برای تولید و تخمین قدرت رمز عبور که از GANها پیشی می‌گیرد و امکان ایجاد رمز عبور هدایت‌شده را فراهم می‌کند.
computationalcoin.com | PDF Size: 1.8 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - PassGPT: مدل‌سازی و تولید هدایت‌شده رمز عبور با مدل‌های زبانی بزرگ

فهرست مطالب

1. مقدمه

رمزهای عبور به دلیل سادگی و قابلیت استقرار، همچنان مکانیسم اصلی احراز هویت هستند. با این حال، نشت رمزهای عبور تهدید قابل توجهی ایجاد می‌کند که هم امکان حمله و هم تحقیق در مورد الگوهای ایجاد رمز عبور توسط انسان را فراهم می‌آورد. این مقاله کاربرد مدل‌های زبانی بزرگ (LLM) در مدل‌سازی رمز عبور را بررسی کرده و PassGPT را معرفی می‌کند. PassGPT یک مدل زبانی بزرگ است که بر روی نشت رمزهای عبور برای تولید و تخمین قدرت آموزش دیده است و عملکردی برتر نسبت به روش‌های قبلی مبتنی بر شبکه‌های مولد تخاصمی (GAN) نشان داده و قابلیت‌های جدیدی مانند تولید هدایت‌شده را معرفی می‌کند.

2. روش‌شناسی و معماری

PassGPT بر اساس معماری GPT-2 ساخته شده و برای تولید ترتیبی رمز عبور در سطح کاراکتر تطبیق یافته است. این رویکرد اساساً با GANها که رمزهای عبور را به عنوان واحدهای اتمی منفرد تولید می‌کنند، متفاوت است.

2.1. معماری مدل PassGPT

این مدل بر اساس معماری دیکدر ترنسفورمر است. رمزهای عبور را به عنوان دنباله‌ای از کاراکترها (یا توکن‌ها) پردازش می‌کند و احتمال شرطی کاراکتر بعدی با توجه به متن قبلی را یاد می‌گیرد: $P(x_t | x_{PassVQT، تکنیک‌های کوانتیزاسیون برداری را برای افزایش پیچیدگی (و به طور بالقوه تنوع) رمزهای عبور تولید شده، در خود جای می‌دهد.

2.2. تولید هدایت‌شده رمز عبور

یک نوآوری کلیدی، تولید هدایت‌شده رمز عبور است. با دستکاری فرآیند نمونه‌برداری (مثلاً با استفاده از احتمالات شرطی یا رمزگشایی محدودشده)، PassGPT می‌تواند رمزهای عبوری تولید کند که محدودیت‌های دلخواه تعریف‌شده توسط کاربر را برآورده می‌کنند (مثلاً «باید شامل یک رقم و یک حرف بزرگ باشد»)، کاری که با GANهای استاندارد امکان‌پذیر نیست.

2.3. آموزش و داده‌ها

این مدل به صورت آفلاین و بدون نظارت بر روی نشت‌های بزرگ‌مقیاس رمز عبور آموزش دیده است که با مدل تهدید حدس زدن رمز عبور آفلاین رایج در تحقیقات امنیتی همسو است.

3. نتایج تجربی و تحلیل

3.1. عملکرد حدس زدن رمز عبور

PassGPT به طور قابل توجهی از مدل‌های مولد عمیق پیشرفته قبلی (مانند GANها) بهتر عمل می‌کند. این مدل 20٪ رمزهای عبور دیده‌نشده قبلی را بیشتر حدس می‌زند و تعمیم‌پذیری قوی به مجموعه داده‌های جدید رمز عبور که در طول آموزش دیده نشده‌اند، نشان می‌دهد.

خلاصه عملکرد

افزایش 20٪ در حدس زدن رمزهای عبور دیده‌نشده در مقایسه با GANهای قبلی.

2 برابر بیشتر رمز عبور حدس زده شده در مقایسه با برخی خطوط پایه.

3.2. تحلیل توزیع احتمال و آنتروپی

برخلاف GANها، PassGPT یک توزیع احتمال صریح در کل فضای رمز عبور ارائه می‌دهد. تحلیل نشان می‌دهد که PassGPT احتمالات پایین‌تر (شگفتی بالاتر) را به رمزهای عبوری اختصاص می‌دهد که توسط برآوردگرهای قدرت ثابت‌شده (مانند zxcvbn) «قوی» در نظر گرفته می‌شوند که نشان‌دهنده همسویی است. همچنین رمزهای عبوری را شناسایی می‌کند که توسط برآوردگرها قوی تلقی می‌شوند اما از نظر احتمالی تحت این مدل محتمل هستند و ضعف‌های بالقوه را آشکار می‌سازند.

3.3. مقایسه با رویکردهای مبتنی بر GAN

تولید ترتیبی PassGPT مزایایی نسبت به GANها ارائه می‌دهد: 1) توزیع‌های احتمال صریح، 2) قابلیت تولید هدایت‌شده، 3) عملکرد بهتر بر روی داده‌های دیده‌نشده. این مقاله این را به عنوان یک تغییر پارادایم از تولید خروجی منفرد به مدل‌سازی دنباله‌ای احتمالاتی و قابل کنترل برای رمزهای عبور مطرح می‌کند.

4. جزئیات فنی و چارچوب ریاضی

هسته PassGPT هدف مدل‌سازی زبان خودرگرسیو است که احتمال داده‌های آموزشی را بیشینه می‌کند:

$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{

که در آن $N$ تعداد رمزهای عبور، $T_i$ طول رمز عبور $i$، $x_t^{(i)}$ کاراکتر $t$-ام، و $\theta$ پارامترهای مدل هستند. نمونه‌برداری برای تولید از روش‌هایی مانند نمونه‌برداری top-k یا هسته‌ای برای متعادل کردن تنوع و کیفیت استفاده می‌کند. احتمال یک رمز عبور کامل $S$ برابر است با: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{

5. بینش اصلی و دیدگاه تحلیلی

بینش اصلی: پیشرفت واقعی این مقاله صرفاً یک رمزشکن بهتر نیست؛ بلکه صوری‌سازی فرآیند ایجاد رمز عبور به عنوان یک مسئله تولید دنباله‌ای قابل کنترل است. با اعمال پیش‌بینی توکن بعدی—موتور محرک NLP مدرن—بر روی رمزهای عبور، PassGPT از تولید جعبه‌سیاه و تک‌مرحله‌ای GANها (مانند آنچه در ترجمه تصویر به سبک CycleGAN وجود دارد) فراتر رفته و به یک فرآیند شفاف و قابل هدایت تبدیل می‌شود. این امر امنیت را از صرف تخمین قدرت به مدل‌سازی فرآیند انسانی پشت انتخاب رمز عبور بازتعریف می‌کند.

جریان منطقی: استدلال قانع‌کننده است: 1) مدل‌های زبانی بزرگ در ثبت توزیع‌های پیچیده دنیای واقعی (متن) عالی عمل می‌کنند. 2) رمزهای عبور یک زیرزبان محدود و تولیدشده توسط انسان هستند. 3) بنابراین، مدل‌های زبانی بزرگ باید آن‌ها را به طور مؤثر مدل کنند—کاری که انجام می‌دهند و از GANها پیشی می‌گیرند. 4) ماهیت ترتیبی مدل‌های زبانی بزرگ، تولید هدایت‌شده را ممکن می‌سازد که یک کاربرد کلیدی برای رمزشکنی آگاه از خط‌مشی یا تست قدرت پیش‌گیرانه است. 5) خروجی احتمال صریح، یک متریک مستقیم و قابل تفسیر برای امنیت ارائه می‌دهد که شکاف بین حملات مولد و برآوردگرهای قدرت احتمالاتی را پر می‌کند.

نقاط قوت و ضعف: قدرت آن انکارناپذیر است: عملکرد برتر و قابلیت‌های نوآورانه. نمایش تولید هدایت‌شده یک شاهکار است که فایده عملی فوری را نشان می‌دهد. با این حال، تحلیل یک نقص حیاتی رایج در مقالات ML-for-security دارد: حول ماهیت دوگانه کار می‌چرخد. در حالی که به «تقویت برآوردگرهای قدرت» اشاره می‌کند، کاربرد اصلی نشان‌داده‌شده تهاجمی (حدس زدن) است. چارچوب اخلاقی آن نازک است. علاوه بر این، اگرچه از GANها بهتر عمل می‌کند، اما مقایسه با ابزارهای رمزشکنی عظیم مبتنی بر قاعده مانند Hashcat با قواعد پیشرفته کمتر واضح است. عملکرد مدل همچنان توسط داده‌های آموزشی آن—نشت‌ها—محدود شده است که ممکن است نمایانگر تمام رفتارهای رمز عبور انسانی نباشد.

بینش‌های عملی: برای مدافعان، این یک علامت فاجعه نیست بلکه یک فراخوان به اقدام است. اول، برآوردگرهای قدرت رمز عبور باید چنین احتمالات مولد را ادغام کنند، همانطور که پیشنهاد شده است. ابزارهایی مانند zxcvbn باید به‌روزرسانی شوند تا رمزهای عبور را در برابر احتمال یک مدل شبیه PassGPT بررسی کنند، نه فقط قواعد ایستا. دوم، تیم‌های قرمز باید بلافاصله این روش‌شناسی را برای حسابرسی‌های داخلی اتخاذ کنند؛ تولید هدایت‌شده برای آزمایش انطباق با خط‌مشی‌های خاص رمز عبور عالی است. سوم، این تحقیق نیاز به حرکت فراتر از رمزهای عبور را تأیید می‌کند. اگر یک مدل زبانی بزرگ بتواند آن‌ها را به این خوبی مدل کند، آنتروپی بلندمدت در حال فروپاشی است. سرمایه‌گذاری در FIDO2/WebAuthn و کلیدهای عبور حتی فوری‌تر می‌شود. نتیجه‌گیری: با PassGPT نه به عنوان یک رمزشکن، بلکه به عنوان دقیق‌ترین شبیه‌ساز ضعف رمز عبور انسانی که تاکنون ساخته شده است، برخورد کنید. از آن برای اصلاح دفاعیات خود قبل از اینکه مهاجم این کار را انجام دهد، استفاده کنید.

6. چارچوب تحلیل: نمونه موردی

سناریو: خط‌مشی یک شرکت نیازمند رمزهای عبوری با حداقل یک حرف بزرگ، یک رقم و یک کاراکتر خاص است. یک رمزشکن سنتی مبتنی بر قاعده ممکن است از قواعد تغییر شکل استفاده کند. یک GAN در تولید فقط رمزهای عبور مطابق با خط‌مشی مشکل خواهد داشت.

رویکرد تولید هدایت‌شده PassGPT:

  1. تعریف محدودیت: تعریف یک ماسک یا منطق برای فرآیند نمونه‌برداری برای اعمال موقعیت‌های نوع کاراکتر.
  2. نمونه‌برداری محدودشده: در طول تولید خودرگرسیو هر کاراکتر $x_t$، توزیع نمونه‌برداری فیلتر یا سوگیری می‌شود تا فقط کاراکترهایی از مجموعه‌ای که الزامات باقی‌مانده خط‌مشی را برآورده می‌کند، مجاز باشند (مثلاً اگر تا موقعیت $t$ هیچ رقمی تولید نشده است، احتمال ارقام را افزایش دهید).
  3. خروجی: مدل دنباله‌هایی مانند "C@t9Lover" یا "F1r3Tr#ck" تولید می‌کند که هم از نظر احتمالی محتمل (یادگرفته شده از نشت‌ها) و هم مطابق با خط‌مشی هستند.
این نشان می‌دهد که چگونه PassGPT می‌تواند برای آزمایش امنیتی آگاه از خط‌مشی استفاده شود، با تولید محتمل‌ترین رمزهای عبور ضعیفی که همچنان از بررسی خط‌مشی عبور می‌کنند و نقاط ضعف خط‌مشی را شناسایی می‌کند.

7. چشم‌انداز کاربردی و جهت‌گیری‌های آینده

کوتاه‌مدت (1-2 سال):

میان‌مدت (3-5 سال): بلندمدت و مرزهای تحقیقاتی: جهت‌گیری نهایی، همانطور که موفقیت مقاله اشاره می‌کند، جایگزینی تدریجی قواعد اکتشافی رمز عبور با مدل‌های امنیتی احتمالاتی و مبتنی بر داده است.

8. مراجع

  1. Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
  2. Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
  4. Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
  6. Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  7. FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.