1. Pengenalan

Kata laluan kekal sebagai kaedah pengesahan pengguna yang paling meluas kerana kesederhanaan dan fleksibilitinya. Oleh itu, tekaan kata laluan adalah komponen kritikal dalam penyelidikan keselamatan siber, penting untuk kedua-dua ujian keselamatan ofensif (contohnya, ujian penembusan, pemulihan kata laluan) dan penilaian kekuatan pertahanan. Kaedah tradisional, daripada kamus berasaskan peraturan kepada model statistik seperti rantai Markov dan PCFG, mempunyai batasan semula jadi dalam kebolehskalaan dan kebolehsesuaian. Kemunculan pembelajaran mendalam, terutamanya rangkaian neural autoregresif, menjanjikan anjakan paradigma dengan mempelajari taburan kata laluan kompleks terus daripada data. Walau bagaimanapun, satu halangan besar kekal: kaedah penjanaan persampelan rawak piawai yang digunakan dengan model ini sangat tidak cekap, menghasilkan pendua dan kekurangan sebarang susunan optimum, yang memperlahankan serangan kata laluan praktikal dengan ketara. Kertas ini memperkenalkan SOPG (Penjanaan Kata Laluan Berasaskan Carian Teratur), kaedah baharu yang direka untuk menjana kata laluan daripada model autoregresif mengikut turutan kebarangkalian menurun secara anggaran, seterusnya merevolusikan kecekapan tekaan kata laluan neural.

2. Latar Belakang & Kerja Berkaitan

2.1 Kaedah Tebakan Kata Laluan Tradisional

Pendekatan awal bergantung pada serangan kamus dan peraturan ubah suai yang direka secara manual (contohnya, John the Ripper). Walaupun mudah, kaedah ini kekurangan asas teori dan keberkesanannya sangat bergantung pada pengetahuan pakar. Perkembangan kebocoran kata laluan berskala besar (contohnya, RockYou pada 2009) membolehkan kaedah probabilistik berasaskan data. Model Markov (contohnya, OMEN) dan Tatabahasa Bebas Konteks Probabilistik (PCFG) mewakili kemajuan penting, memodelkan struktur dan kebarangkalian kata laluan secara sistematik. Walau bagaimanapun, mereka sering mengalami lampau padanan dan sukar untuk menjana set kata laluan munasabah yang pelbagai dan berjumlah besar, seterusnya mengehadkan kadar liputan mereka.

2.2 Pendekatan Berasaskan Rangkaian Neural

Model pembelajaran mendalam, termasuk Rangkaian Penjana Adversari (GANs) seperti PassGAN dan Pengekod Automatik Variasi (VAEs) seperti VAEPass, mempelajari taburan asas set data kata laluan. Baru-baru ini, model autoregresif, terutamanya yang berasaskan seni bina Transformer (contohnya, PassGPT), telah menunjukkan prestasi unggul dengan memodelkan kata laluan sebagai jujukan dan meramalkan token seterusnya berdasarkan token sebelumnya. Model ini menangkap kebergantungan jarak jauh dengan lebih berkesan. Kelemahan asas dalam semua pendekatan neural ini ialah penggunaan lalai persampelan rawak (contohnya, persampelan nukleus, persampelan top-k) untuk penjanaan kata laluan, yang secara semula jadi tidak teratur dan berulang.

3. Kaedah SOPG

3.1 Konsep Teras & Motivasi

Wawasan teras SOPG ialah untuk serangan tekaan kata laluan menjadi cekap, senarai kata laluan yang dijana harus tidak berulang dan disusun daripada yang paling berkemungkinan kepada yang paling kurang berkemungkinan. Persampelan rawak gagal pada kedua-dua aspek. SOPG menangani ini dengan memperlakukan model autoregresif sebagai panduan probabilistik untuk algoritma carian sistematik, serupa dengan carian pancaran tetapi dioptimumkan untuk menjana set calon unik yang lengkap dan teratur, bukannya satu jujukan terbaik tunggal.

3.2 Algoritma Carian & Penjanaan Teratur

SOPG menggunakan strategi carian berasaskan barisan keutamaan merentasi ruang kata laluan berpotensi. Ia bermula daripada token awal (contohnya, permulaan jujukan) dan mengembangkan kata laluan separa secara berulang. Pada setiap langkah, ia menggunakan rangkaian neural untuk meramalkan kebarangkalian untuk aksara seterusnya yang mungkin. Daripada membuat persampelan secara rawak, ia meneroka cabang secara strategik, mengutamakan pengembangan yang membawa kepada kata laluan lengkap dengan kebarangkalian tertinggi. Proses ini menyenaraikan kata laluan secara sistematik dalam susunan hampir optimum, secara efektif melaksanakan penerokaan berpandu terhadap taburan kebarangkalian model.

3.3 Seni Bina Model SOPGesGPT

Pengarang mengimplementasikan kaedah mereka dalam SOPGesGPT, model tekaan kata laluan yang dibina atas seni bina GPT (Penjana Pra-Latihan Transformer). Model ini dilatih pada kebocoran kata laluan sebenar untuk mempelajari taburan kebarangkalian bersama $P(x_1, x_2, ..., x_T)$ token kata laluan. Sifat autoregresif GPT, di mana $P(x_t | x_{

4. Butiran Teknikal & Formulasi Matematik

Diberikan model autoregresif yang mentakrifkan kebarangkalian kata laluan $\mathbf{x} = (x_1, x_2, ..., x_T)$ sebagai: $$P(\mathbf{x}) = \prod_{t=1}^{T} P(x_t | x_1, ..., x_{t-1})$$ Matlamat SOPG adalah untuk menjana jujukan $\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, ...$ supaya $P(\mathbf{x}^{(1)}) \geq P(\mathbf{x}^{(2)}) \geq ...$ dan $\mathbf{x}^{(i)} \neq \mathbf{x}^{(j)}$ untuk $i \neq j$.

Algoritma boleh dikonsepsikan sebagai mencari pokok di mana setiap nod ialah kata laluan separa. Barisan keutamaan menguruskan nod, disusun mengikut anggaran batas atas kebarangkalian mana-mana kata laluan lengkap yang berasal daripada nod tersebut. Anggaran ini diperoleh daripada kebarangkalian bersyarat model. Algoritma berulang kali mengeluarkan nod dengan batas atas tertinggi, mengembangkannya dengan satu token (menjana nod anak), mengira batas atas baharu, dan memasukkannya semula ke dalam barisan. Apabila nod daun (kata laluan lengkap) dikeluarkan, ia dikeluarkan sebagai kata laluan seterusnya dalam senarai teratur. Ini memastikan carian terbaik-pertama ruang kebarangkalian.

5. Keputusan Eksperimen & Analisis

Kadar Liputan

35.06%

Prestasi SOPGesGPT pada set ujian

Peningkatan berbanding PassGPT

81%

Kadar liputan lebih tinggi

Kecekapan Inferens

Jauh Lebih Sedikit

Kata laluan diperlukan vs. Persampelan Rawak

5.1 Perbandingan dengan Persampelan Rawak

Kertas ini pertama kali menunjukkan kelebihan asas SOPG berbanding persampelan rawak pada model GPT asas yang sama. Untuk mencapai kadar liputan yang sama (peratusan kata laluan ujian yang berjaya diteka), SOPG memerlukan magnitud lebih sedikit kata laluan yang dijana dan inferens model. Ini kerana setiap kata laluan yang dijana oleh SOPG adalah unik dan berkebarangkalian tinggi, manakala persampelan rawak membazirkan pengiraan pada pendua dan tekaan berkebarangkalian rendah. Ini secara langsung diterjemahkan kepada masa serangan yang lebih pantas dan kos pengiraan yang lebih rendah.

5.2 Penanda Aras Berbanding Teknologi Terkini

Dalam ujian satu tapak, SOPGesGPT dibandingkan dengan penanda aras utama: OMEN (Markov), FLA, PassGAN (GAN), VAEPass (VAE), dan PassGPT kontemporari (Transformer dengan persampelan rawak). Keputusannya muktamad. SOPGesGPT mencapai kadar liputan 35.06%, mengatasi PassGPT sebanyak 81%, VAEPass sebanyak 380%, PassGAN sebanyak 421%, FLA sebanyak 298%, dan OMEN sebanyak 254%. Ini mewujudkan teknologi terkini baharu, menekankan bahawa kaedah penjanaan (SOPG) adalah sama kritikal dengan seni bina model.

5.3 Metrik Prestasi Utama

Kadar Berkesan: Perkadaran kata laluan yang dijana adalah sebenar (sepadan dengan kata laluan dalam set ujian). SOPGesGPT juga mendahului dalam metrik ini, menunjukkan ia menjana bukan sahaja lebih banyak, tetapi tekaan berkualiti lebih baik.
Kecekapan Penjanaan: Diukur dengan bilangan panggilan/inferens model yang diperlukan untuk meneka peratusan kata laluan tertentu. Pendekatan teratur SOPG memberikan lengkung kecekapan yang curam, meneka banyak kata laluan dengan sangat sedikit inferens.
Penerangan Carta: Satu carta hipotesis akan menunjukkan dua garisan: satu untuk "Liputan Persampelan Rawak vs. #Kata Laluan Dijana" meningkat perlahan dan asimptotik, dengan ekor panjang pendua. Garisan "Liputan SOPG vs. #Kata Laluan Dijana" akan meningkat dengan mendadak dan hampir linear pada permulaan, kemudian mendatar, menunjukkan susunan tekaan hampir optimum.

6. Kerangka Analisis & Contoh Kes

Kerangka: Kuadran Kecekapan Tebakan Kata Laluan. Kita boleh menganalisis mana-mana sistem tekaan kata laluan sepanjang dua paksi: (1) Kualiti Model (keupayaan untuk mempelajari taburan kata laluan sebenar), dan (2) Keoptimuman Penjanaan (keupayaan untuk mengeluarkan tekaan dalam turutan kebarangkalian menurun tanpa pembaziran).

  • Kuadran I (Model Rendah, Keoptimuman Rendah): Serangan berasaskan peraturan tradisional.
  • Kuadran II (Model Tinggi, Keoptimuman Rendah): PassGPT, PassGAN – model berkuasa yang dihalang oleh persampelan rawak.
  • Kuadran III (Model Rendah, Keoptimuman Tinggi): Markov/PCFG Teratur – model terhad tetapi penjanaan cekap.
  • Kuadran IV (Model Tinggi, Keoptimuman Tinggi): SOPGesGPT – keadaan sasaran, menggabungkan model neural berkapasiti tinggi dengan algoritma penjanaan optimum SOPG.

Contoh Kes (Tiada Kod): Pertimbangkan model yang mengetahui kata laluan "password123" mempunyai kebarangkalian $10^{-3}$ dan "xq7!kLp2" mempunyai kebarangkalian $10^{-9}$. Seorang pensampel rawak mungkin mengambil berjuta-juta tekaan untuk mencapai "password123". SOPG, menggunakan cariannya, akan mengenal pasti dan mengeluarkan "password123" sebagai salah satu tekaan pertamanya, serta-merta menyumbang kepada liputan. Sasaran teratur ini adalah punca peningkatan kecekapannya yang dramatik.

7. Prospek Aplikasi & Hala Tuju Masa Depan

Pemeriksa Kekuatan Kata Laluan Proaktif: SOPG boleh menggerakkan generasi seterusnya meter kekuatan kata laluan masa nyata yang bukan sahaja menyemak terhadap kamus tetapi mensimulasikan serangan terkini yang cekap, memberikan pengguna penilaian risiko yang lebih realistik.
Forensik Digital & Pemulihan Sah: Mempercepatkan pemulihan kata laluan untuk siasatan berkuasa ke atas peranti yang dirampas.
Latihan Adversari untuk Sistem Pengesahan: Menggunakan senarai yang dijana SOPG untuk ujian tekanan dan mengukuhkan sistem pengesahan terhadap serangan pintar.
Hala Tuju Penyelidikan Masa Depan:

  • Model Hibrid: Menggabungkan penjanaan teratur SOPG dengan seni bina penjana lain (contohnya, model resapan) untuk kata laluan.
  • SOPG Adaptif/Atas Talian: Mengubah suai carian secara masa nyata berdasarkan maklum balas daripada sistem sasaran (contohnya, respons had kadar).
  • Melangkaui Kata Laluan: Menggunakan paradigma penjanaan teratur kepada domain keselamatan lain seperti menjana URL phishing atau varian perisian hasad yang berkemungkinan.
  • Langkah Balas Pertahanan: Penyelidikan ke dalam mengesan dan mengurangkan serangan yang menggunakan strategi penjanaan teratur.

8. Rujukan

  1. J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," IEEE Symposium on Security and Privacy, 2012.
  2. M. Weir, S. Aggarwal, B. de Medeiros, dan B. Glodek, "Password Cracking Using Probabilistic Context-Free Grammars," IEEE Symposium on Security and Privacy, 2009.
  3. A. Radford, K. Narasimhan, T. Salimans, dan I. Sutskever, "Improving Language Understanding by Generative Pre-Training," OpenAI, 2018. (Kertas asas GPT)
  4. B. Hitaj, P. Gasti, G. Ateniese, dan F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," International Conference on Applied Cryptography and Network Security (ACNS), 2019.
  5. D. Pasquini, G. Ateniese, dan M. Bernaschi, "Unleashing the Tiger: Inference Attacks on Split Learning," ACM SIGSAC Conference on Computer and Communications Security (CCS), 2021. (Termasuk perbincangan mengenai inferens kata laluan).
  6. M. J. H. Almeida, I. M. de Sousa, dan N. Neves, "Using Deep Learning for Password Guessing: A Systematic Review," Computers & Security, 2023.

9. Analisis Asal & Ulasan Pakar

Wawasan Teras

Kejayaan kertas ini bukan seni bina neural baharu, tetapi penyusunan semula asas masalah. Selama bertahun-tahun, komuniti tekaan kata laluan, mencerminkan trend dalam NLP, telah terobsesi dengan membina penganggar ketumpatan yang lebih besar dan lebih baik (bahagian GPT). SOPG dengan betul mengenal pasti bahawa untuk tugas hiliran pengecaman, strategi penyahkodan adalah terpenting. Ia adalah perbezaan antara mempunyai peta medan periuk api yang sempurna (model) dan mengetahui cara melintasinya tanpa membazirkan satu langkah (SOPG). Ini mengalihkan keutamaan penyelidikan daripada kapasiti model tulen kepada algoritma inferens cekap di atas model ini—pengajaran yang dipelajari bidang penjana AI lain lebih awal (contohnya, carian pancaran dalam terjemahan mesin).

Aliran Logik

Hujahnya menarik: 1) Kecekapan serangan kata laluan ditakrifkan oleh lengkung kadar kenaan vs. nombor tekaan. 2) Model autoregresif memberikan kebarangkalian per-token. 3) Persampelan rawak daripada taburan ini sangat tidak optimum untuk mencipta senarai tekaan teratur. 4) Oleh itu, kita memerlukan algoritma carian yang menggunakan model sebagai peramal untuk membina jujukan paling berkemungkinan terlebih dahulu secara eksplisit. Lompatan daripada mengenali masalah (3) kepada kejuruteraan penyelesaian (4) adalah di mana kebaharuan terletak. Sambungan kepada algoritma carian sains komputer klasik (A*, pancaran) adalah jelas, tetapi penyesuaiannya kepada ruang keluaran kata laluan yang luas dan berstruktur adalah tidak remeh.

Kekuatan & Kelemahan

Kekuatan: Keputusan empirikal adalah menakjubkan dan meninggalkan sedikit ruang untuk keraguan tentang keunggulan SOPG dalam penilaian luar talian, satu tapak piawai. Hujah kecekapan adalah kukuh secara teori dan disahkan secara praktikal. Ia adalah kaedah umum yang boleh digunakan untuk mana-mana model autoregresif, bukan hanya pelaksanaan GPT mereka.
Kelemahan & Soalan: Penilaian, walaupun mengagumkan, masih dalam persekitaran makmal. Serangan dunia sebenar menghadapi pertahanan adaptif (had kadar, kunci, kata laluan umpan), dan kertas ini tidak menguji ketahanan SOPG dalam senario ini. Overhed pengiraan algoritma carian itu sendiri per kata laluan yang dijana mungkin lebih tinggi daripada satu sampel rawak tunggal, walaupun peningkatan kecekapan keseluruhan adalah positif bersih. Terdapat juga isu etika yang besar: walaupun pengarang memposisikannya untuk kegunaan pertahanan, alat ini dengan ketara menurunkan halangan untuk serangan berkecekapan tinggi. Bidang ini mesti bergelut dengan sifat penggunaan dwi kemajuan sedemikian, sama seperti perbincangan sekitar model penjana AI seperti CycleGAN atau model bahasa besar.

Wawasan Boleh Tindak

Untuk Pengamal Keselamatan: Kertas ini adalah panggilan bangun. Dasar kata laluan mesti berkembang melangkaui menyekat perkataan kamus mudah. Pembela perlu mula menguji tekanan sistem mereka terhadap serangan teratur seperti SOPG, yang kini menjadi penanda aras baharu. Alat seperti Have I Been Pwned atau zxcvbn perlu menggabungkan teknik penjanaan maju ini untuk anggaran kekuatan yang lebih realistik.
Untuk Penyelidik: Tongkat telah diserahkan. Sempadan seterusnya bukan lagi hanya model, tetapi penjanaan adaptif dan cekap-pertanyaan. Bolehkah kita membina model yang belajar daripada maklum balas serangan separa? Bolehkah kita membangunkan model pertahanan yang mengesan dan mengelirukan penjanaan teratur? Tambahan pula, seperti yang dinyatakan oleh institusi seperti NIST dalam garis panduan identiti digital mereka, penyelesaian jangka panjang terletak pada melangkaui kata laluan. Penyelidikan ini serentak menyerlahkan kemuncak pengecaman kata laluan dan menekankan batasan semula jadinya, mendorong kita ke arah pengesahan tanpa kata laluan. SOPG adalah kedua-dua langkah akhir permainan yang hebat untuk tekaan kata laluan dan hujah yang kuat untuk persaraannya.