Pilih Bahasa

PassGPT: Pemodelan Kata Laluan dan Penjanaan Terpandu dengan Model Bahasa Besar

Analisis PassGPT, sebuah LLM untuk penjanaan kata laluan dan anggaran kekuatan, mengatasi prestasi GAN dan membolehkan penciptaan kata laluan terpandu.
computationalcoin.com | PDF Size: 1.8 MB
Penilaian: 4.5/5
Penilaian Anda
Anda sudah menilai dokumen ini
Sampul Dokumen PDF - PassGPT: Pemodelan Kata Laluan dan Penjanaan Terpandu dengan Model Bahasa Besar

Kandungan

1. Pengenalan

Kata laluan kekal sebagai mekanisme pengesahan dominan kerana kesederhanaan dan kebolehpasangannya. Walau bagaimanapun, kebocoran kata laluan menimbulkan ancaman yang besar, membolehkan kedua-dua serangan dan penyelidikan ke dalam corak penciptaan kata laluan manusia. Kertas kerja ini menyiasat aplikasi Model Bahasa Besar (LLM) untuk pemodelan kata laluan, memperkenalkan PassGPT. PassGPT ialah LLM yang dilatih pada kebocoran kata laluan untuk penjanaan dan anggaran kekuatan, menunjukkan prestasi unggul berbanding kaedah berasaskan Rangkaian Penentang Generatif (GAN) sebelum ini dan memperkenalkan keupayaan baharu seperti penjanaan terpandu.

2. Metodologi & Seni Bina

PassGPT dibina berdasarkan seni bina GPT-2, disesuaikan untuk penjanaan kata laluan berurutan pada peringkat aksara. Pendekatan ini berbeza secara asas daripada GAN yang menjana kata laluan sebagai unit atomik tunggal.

2.1. Seni Bina Model PassGPT

Model ini berdasarkan seni bina penyahkod Transformer. Ia memproses kata laluan sebagai urutan aksara (atau token), mempelajari kebarangkalian bersyarat aksara seterusnya berdasarkan konteks sebelumnya: $P(x_t | x_{PassVQT, menggabungkan teknik kuantisasi vektor untuk meningkatkan kekeliruan (dan berpotensi kepelbagaian) kata laluan yang dijana.

2.2. Penjanaan Kata Laluan Terpandu

Satu inovasi utama ialah penjanaan kata laluan terpandu. Dengan memanipulasi prosedur pensampelan (contohnya, menggunakan kebarangkalian bersyarat atau penyahkodan terkekang), PassGPT boleh menjana kata laluan yang memenuhi kekangan ditentukan pengguna secara sewenang-wenangnya (contohnya, "mesti mengandungi digit dan huruf besar"), satu tugas yang tidak boleh dilaksanakan dengan GAN standard.

2.3. Latihan & Data

Model ini dilatih pada kebocoran kata laluan berskala besar secara luar talian dan tanpa penyeliaan, selaras dengan model ancaman tekaan kata laluan luar talian yang biasa dalam penyelidikan keselamatan.

3. Keputusan Eksperimen & Analisis

3.1. Prestasi Tekaan Kata Laluan

PassGPT mengatasi prestasi model generatif terdalam terkini sebelum ini (contohnya, GAN) dengan ketara. Ia meneka 20% lebih banyak kata laluan yang tidak pernah dilihat sebelum ini dan menunjukkan generalisasi yang kuat kepada set data kata laluan baharu yang tidak dilihat semasa latihan.

Ringkasan Prestasi

Peningkatan 20% dalam meneka kata laluan tidak dilihat berbanding GAN terdahulu.

2x Lebih Banyak kata laluan diteka berbanding beberapa garis asas.

3.2. Analisis Taburan Kebarangkalian & Entropi

Tidak seperti GAN, PassGPT menyediakan taburan kebarangkalian eksplisit ke atas keseluruhan ruang kata laluan. Analisis menunjukkan PassGPT memberikan kebarangkalian yang lebih rendah (kejutan lebih tinggi) kepada kata laluan yang dianggap "kuat" oleh penganggar kekuatan mapan (seperti zxcvbn), menunjukkan keselarasan. Ia juga mengenal pasti kata laluan yang dianggap kuat oleh penganggar tetapi berkemungkinan tinggi di bawah model, mendedahkan kelemahan berpotensi.

3.3. Perbandingan dengan Pendekatan Berasaskan GAN

Penjanaan berurutan PassGPT menawarkan kelebihan berbanding GAN: 1) Taburan kebarangkalian eksplisit, 2) Keupayaan penjanaan terpandu, 3) Prestasi lebih baik pada data tidak dilihat. Kertas kerja ini memposisikannya sebagai anjakan paradigma daripada penjanaan output tunggal kepada pemodelan urutan kebarangkalian boleh kawal untuk kata laluan.

4. Butiran Teknikal & Kerangka Matematik

Teras PassGPT ialah objektif pemodelan bahasa autoregresif, memaksimumkan kemungkinan data latihan:

$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{

di mana $N$ ialah bilangan kata laluan, $T_i$ ialah panjang kata laluan $i$, $x_t^{(i)}$ ialah aksara ke-$t$, dan $\theta$ ialah parameter model. Pensampelan untuk penjanaan menggunakan kaedah seperti pensampelan top-k atau nukleus untuk mengimbangi kepelbagaian dan kualiti. Kebarangkalian kata laluan lengkap $S$ ialah: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{

5. Teras Pandangan & Perspektif Penganalisis

Teras Pandangan: Kejayaan sebenar kertas kerja ini bukan sekadar peretak kata laluan yang lebih baik; ia adalah formalisasi penciptaan kata laluan sebagai masalah penjanaan urutan boleh kawal. Dengan menggunakan ramalan token seterusnya—tulang belakang NLP moden—kepada kata laluan, PassGPT melangkaui penjanaan satu tembakan kotak hitam GAN (seperti dalam terjemahan imej gaya CycleGAN) kepada proses telus dan boleh dikawal. Ini membingkai semula keselamatan daripada sekadar anggaran kekuatan kepada pemodelan proses manusia di sebalik pilihan kata laluan.

Aliran Logik: Hujahnya menarik: 1) LLM cemerlang dalam menangkap taburan dunia sebenar yang kompleks (teks). 2) Kata laluan ialah sub-bahasa terhad yang dijana manusia. 3) Oleh itu, LLM sepatutnya memodelkannya dengan berkesan—yang dilakukannya, mengatasi GAN. 4) Sifat berurutan LLM membuka kunci penjanaan terpandu, aplikasi utama untuk retakan sedar dasar atau ujian kekuatan proaktif. 5) Output kebarangkalian eksplisit menyediakan metrik keselamatan langsung dan boleh ditafsir, merapatkan jurang antara serangan generatif dan penganggar kekuatan kebarangkalian.

Kekuatan & Kelemahan: Kekuatannya tidak dapat dinafikan: prestasi unggul dan fungsi baharu. Demo penjanaan terpandu ialah langkah bijak, menunjukkan utiliti praktikal segera. Walau bagaimanapun, analisis mempunyai kelemahan kritikal biasa dalam kertas kerja ML-untuk-keselamatan: ia mengelak sekitar sifat kegunaan dua hala. Walaupun menyebut "meningkatkan penganggar kekuatan," penggunaan utama yang ditunjukkan adalah ofensif (meneka). Bingkai etika adalah nipis. Tambahan pula, walaupun ia mengatasi GAN, perbandingan dengan alat retakan berasaskan peraturan besar seperti Hashcat dengan set peraturan lanjutan kurang jelas. Prestasi model masih terikat oleh data latihannya—kebocoran—yang mungkin tidak mewakili semua tingkah laku kata laluan manusia.

Pandangan Boleh Tindak: Bagi pembela, ini bukan isyarat malapetaka tetapi seruan untuk bertindak. Pertama, penganggar kekuatan kata laluan mesti mengintegrasikan kebarangkalian generatif sedemikian, seperti yang dicadangkan. Alat seperti zxcvbn perlu diubahsuai untuk menyemak kata laluan terhadap kebarangkalian model seperti PassGPT, bukan hanya peraturan statik. Kedua, pasukan merah perlu segera menggunakan metodologi ini untuk audit dalaman; penjanaan terpandu sesuai untuk menguji pematuhan dengan dasar kata laluan tertentu. Ketiga, penyelidikan ini mengesahkan keperluan untuk melangkaui kata laluan. Jika LLM boleh memodelkannya dengan baik, entropi jangka panjang runtuh. Pelaburan dalam FIDO2/WebAuthn dan kunci laluan menjadi lebih mendesak. Intipati: Anggap PassGPT bukan sebagai peretak, tetapi sebagai simulator kelemahan kata laluan manusia yang paling tepat pernah dibina. Gunakannya untuk membetulkan pertahanan anda sebelum musuh melakukannya.

6. Kerangka Analisis: Contoh Kes

Skenario: Dasar syarikat memerlukan kata laluan dengan sekurang-kurangnya satu huruf besar, satu digit, dan satu aksara khas. Peretak berasaskan peraturan tradisional mungkin menggunakan peraturan pemutaran. GAN akan sukar untuk menjana hanya kata laluan yang mematuhi.

Pendekatan Penjanaan Terpandu PassGPT:

  1. Definisi Kekangan: Tentukan topeng atau logik untuk proses pensampelan untuk menguatkuasakan kedudukan jenis aksara.
  2. Pensampelan Terkekang: Semasa penjanaan autoregresif setiap aksara $x_t$, taburan pensampelan ditapis atau dicondongkan untuk hanya membenarkan aksara daripada set yang memenuhi keperluan dasar yang tinggal (contohnya, jika tiada digit dijana pada kedudukan $t$, tingkatkan jisim kebarangkalian pada digit).
  3. Output: Model menjana urutan seperti "C@t9Lover" atau "F1r3Tr#ck" yang kedua-duanya berkemungkinan tinggi (dipelajari daripada kebocoran) dan mematuhi dasar.
Ini menunjukkan bagaimana PassGPT boleh digunakan untuk ujian keselamatan sedar dasar, menjana kata laluan lemah yang paling berkemungkinan yang masih lulus semakan dasar, mengenal pasti kelemahan dasar.

7. Prospek Aplikasi & Hala Tuju Masa Depan

Jangka Pendek (1-2 tahun):

Jangka Sederhana (3-5 tahun): Jangka Panjang & Sempadan Penyelidikan: Hala tuju muktamad, seperti yang diisyaratkan oleh kejayaan kertas kerja, adalah penggantian beransur-ansur peraturan kata laluan heuristik dengan model keselamatan kebarangkalian berasaskan data.

8. Rujukan

  1. Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
  2. Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
  4. Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
  6. Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  7. FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Diambil dari https://fidoalliance.org/fido2/.