PassGPT: Uundaji wa Nenosiri na Uzalishaji Unaoelekezwa kwa Mfano wa Lugha Mkubwa

1. Utangulizi

Licha ya kuenea kwa njia mbadala za uthibitishaji, nenosiri bado ndio njia kuu kutokana na urahisi na uwezekano wa kutumika. Ueneaji huu hufanya uvujaji wa nenosiri kuwa tishio muhimu. Masomo ya mashine, hasa miundo ya kina ya uzalishaji, imekuwa muhimu katika kuchambua uvujaji wa nenosiri kwa mashambulizi ya kukisia na ukadiriaji wa nguvu. Karatasi hii inatanguliza PassGPT, njia mpya inayotumia Mifano ya Lugha Mkubwa (LLMs) kwa uundaji wa nenosiri. Inachunguza swali kuu: Je, LLMs zinaweza kukamata kwa ufanisi vipengele changamano, mara nyingi vya fahamu ya chini, katika nenosiri zinazotengenezwa na binadamu? PassGPT imewekwa kama zana ya kukisia nenosiri nje ya mtandao, ikilingana na hali za utafiti wa upinzani zilizopita ambapo mshambuliaji anamiliki nenosiri zilizofupishwa.

2. Mbinu Kuu na Muundo

PassGPT kimsingi hubadilisha mfano wa uundaji wa kina wa nenosiri kutoka kwa uzalishaji kamili hadi utabiri wa kiwango cha herufi, kwa mlolongo.

2.1. Ubunifu wa Mfano wa PassGPT

PassGPT inategemea muundo wa Transformer wa GPT-2. Inafunzwa moja kwa moja kwenye uvujaji mkubwa wa nenosiri, ikijifunza usambazaji wa uwezekano $P(c_i | c_1, c_2, ..., c_{i-1})$ juu ya herufi inayofuata $c_i$ ikizingatiwa mlolongo uliotangulia. Uundaji huu wa kujirejesha huiruhusu kuzalisha nenosiri kwa herufi kwa herufi, ikikamata vipengele changamano vya kimofolojia (k.m., viambishi awali vya kawaida kama "Summer", viambishi tamati kama "123!", na uingizwaji wa leet-speak).

2.2. Uzalishaji wa Nenosiri Unaoelekezwa

Huu ni ubunifu muhimu zaidi kuliko njia za zamani zinazotumia GAN. Kwa kuchukua sampuli kutoka kwa usambazaji wa mfano wakati wa uzalishaji, PassGPT inaweza kujumuisha vikwazo vya kiholela. Kwa mfano, mshambuliaji (au mtetezi anayejaribu utii wa sera) anaweza kuelekeza uzalishaji ili kutoa nenosiri ambazo: lazima ziwe na herufi kubwa, lazima ziishe na nambari, au lazima zijumuishe kipande maalum cha herufi. Hii inawezesha uchunguzi wa lengwa wa nafasi ya nenosiri ambao haukuwezekana zamani na miundo inayozalisha nenosiri kama matokeo moja, yasiyo na vikwazo.

2.3. Uboreshaji wa PassVQT

Waandishi wanaanzisha PassVQT, lahaja iliyoboreshwa kwa mbinu za Transformer zilizopimwa kwa Vekta. Marekebisho haya yanalenga kuongeza utata (kipimo cha kutokuwa na uhakika) wa nenosiri zinazozalishwa, kwa uwezekano kusababisha matokeo yenye anuwai zaidi na yasiyotabirika, ingawa mabadiliko na uwezekano wa kukisia yanahitaji tathmini makini.

3. Matokeo ya Majaribio na Utendaji

Kipimo Muhimu cha Utendaji

Nenosiri 20% Zaidi Zisizoona: PassGPT ilikisia nenosiri 20% zaidi zisizoona zamani ikilinganishwa na miundo ya kisasa yenye msingi wa GAN (k.m., PassGAN).

3.1. Utendaji wa Kukisia Nenosiri

Karatasi hii inaonyesha utendaji bora katika mashambulizi ya kukisia nje ya mtandao. Inapotathminiwa kwenye seti za data za nenosiri zilizohifadhiwa, PassGPT ilifikia takriban mara mbili ya kiwango cha kugonga kwenye nenosiri zisizoona zamani ikilinganishwa na viwango vya msingi vya GAN. Hii inaonyesha uwezo bora zaidi wa kujumlisha, ukijifunza usambazaji wa msingi wa nenosiri zilizochaguliwa na binadamu kwa ufanisi zaidi kuliko mitandao ya upinzani.

3.2. Uchambuzi wa Ukadiriaji wa Nguvu

Uvumbuzi muhimu ni kwamba uwezekano wazi $P(nenosiri)$ uliopeanwa na PassGPT unahusiana na nguvu ya nenosiri. Mara kwa mara hupeana uwezekano mdogo kwa nenosiri zenye nguvu zaidi, ikilingana na viukadiriaji vya nguvu vilivyowekwa kama zxcvbn. Zaidi ya hayo, uchambuzi unatambua nenosiri zinazochukuliwa kuwa "zenye nguvu" na viukadiriaji vya jadi lakini zimepewa uwezekano mkubwa na PassGPT—ikionyesha aina mpya ya nenosiri zenye udhaifu wa ML ambazo viangalizi vya sasa vinaweza kukosa.

4. Maelezo ya Kiufundi na Mfumo wa Hisabati

Kiini cha PassGPT ni lengo la uundaji wa lugha la kujirejesha. Ikizingatiwa nenosiri inayowakilishwa kama mlolongo wa alama (herufi au neno ndogo) $x = (x_1, x_2, ..., x_T)$, mfano unafunzwa ili kuongeza uwezekano: $$L = \sum_{t=1}^{T} \log P(x_t | x_{

5. Mfumo wa Uchambuzi na Uchunguzi wa Kesi

Uchunguzi wa Kesi: Kutambua Nenosiri Dhaifu Zinazofuata Sera
Hali: Kampuni inalazimisha sera ya nenosiri: "Angalau herufi 12, herufi kubwa moja, nambari moja, herufi maalum moja." Shambulio la kikatili la nguvu kwenye nafasi hii ni kubwa sana ($\sim94^{12}$ uwezekano).
Matumizi ya PassGPT: Kwa kutumia uzalishaji unaoelekezwa, mchambuzi anaweza kuchukua sampuli kutoka kwa PassGPT kwa vikwazo hivi halisi. Mfano, baada ya kujifunza mielekeo ya kibinadamu, utazalisha wagombea kama "Summer2023!Sun", "January01?Rain", ambazo zinatii sera lakini zinaweza kukisiwa kwa urahisi kutokana na vipengele vya kawaida vya kisemantiki. Hii inaonyesha jinsi PassGPT inaweza kupata kwa ufanisi "sehemu dhaifu" ndani ya nafasi yenye nguvu ya kinadharia iliyofafanuliwa na sera, kazi ambayo haiwezekani karibu kwa uzalishaji wa kikatili au wa kiseri kama masks za Hashcat.

6. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Ukadiriaji wa Nguvu wa Nenosiri Unaotangulia: Kuunganisha alama za uwezekano za PassGPT kwenye viangalizi vya uundaji wa nenosiri vya wakati halisi ili kuonyesha nenosiri zenye udhaifu wa ML zinazopita sheria za jadi.
Uigaji wa Upinzani na Timu Nyekundu: Kutumia PassGPT inayoelekezwa kuiga washambuliaji hodari, wenye ufahamu wa muktadha kwa ubunifu bora wa sera ya kinga ya nenosiri.
Kujifunza Vipengele Vya Kuvuka Vikoa: Kuchunguza ikiwa LLMs zilizofunzwa kwenye nenosiri zinaweza kutambua vipengele maalum vya mtumiaji kwenye huduma tofauti, ikizua wasiwasi kuhusu mashambulio ya lengwa.
Uzalishaji wa Data ya Mafunzo ya Kinga: Kutumia PassGPT kuzalisha seti kubwa za data za nenosiri za bandia zinazofanana na ukweli kwa kufunza miundo ya kinga ya ML bila kufichua data halisi ya mtumiaji.
Unganishaji na Muktadha Mkubwa Zaidi: Miundo ya baadaye inaweza kujumuisha data ya muktadha (k.m., takwimu za watumiaji, aina ya huduma) ili kuunda uchaguzi wa nenosiri kwa usahihi zaidi, kama ilivyoonyeshwa na mielekeo ya kibinafsi katika LLMs.

7. Marejeo

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. Applied Cryptography and Network Security.
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Blog.
Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.

8. Uchambuzi wa Asili na Uchambuzi wa Mtaalamu

Uelewa wa Msingi

PassGPT sio uboreshaji wa kidogo tu; ni mabadiliko ya mfano yanayofichua udhaifu wa msingi wa siri zilizochaguliwa na binadamu dhidi ya AI ya kisasa. Hitimisho la hatari zaidi la karatasi ni kwamba hali ya asili ya mlolongo, ya kufananisha vipengele ya LLMs—inayowafanya kuwa wazuri sana kwenye lugha—inawafanya kuwa wenye ufanisi wa kutisha katika kuunda mfano wa lugha ya nusu-ya muundo ya nenosiri. Hii inahamisha tishio kutoka kwa kutumia nguvu kwa takwimu hadi uundaji wa kifikra.

Mtiririko wa Mantiki

Hoja inavutia: 1) LLMs zinatawala NLP kwa kujifunza vipengele vya kina vya takwimu katika mfululizo. 2) Nenosiri ni mfululizo unaotengenezwa na binadamu wenye vipengele vya kina vya takwimu, mara nyingi vya fahamu ya chini (k.m., matembezi ya kibodi, muundo wa tarehe, muunganisho wa kisemantiki). 3) Kwa hivyo, LLMs zinapaswa kutawala uundaji wa nenosiri. Matokeo yanathibitisha hili kwa ufanisi mkali. Kipengele cha uzalishaji unaoelekezwa ndicho programu muhimu ya mantiki—inatumia uelewa huu kwa silaha, ikiruhusu washambuliaji kutumia kwa usahihi makutano ya sera na uvivu wa kibinadamu.

Nguvu na Kasoro

Nguvu: Kuinuliwa kwa utendaji kwa 20% juu ya GANs ni muhimu katika uwanja ambapo faida hupatikana kwa shida. Usambazaji wazi wa uwezekano ni faida kubwa ya kinadharia na ya vitendo, inayounganisha uzalishaji na ukadiriaji. Uzalishaji unaoelekezwa ni ubunifu wa kweli.
Kasoro na Maswali: Karatasi hii, kama utafiti mwingi wa upinzani wa ML, ni nyepesi kwenye athari za kinga. Tunaunda vipi sera zinazostahimili hili? Data ya mafunzo (uvujaji wa nenosiri) haina maadili wazi. Zaidi ya hayo, kama ilivyoonyeshwa katika karatasi ya CycleGAN na fasihi nyingine ya miundo ya uzalishaji, kuzimia kwa hali na anuwai ni masuala ya kila wakati; ingawa PassVQT inashughulikia utata, mkia mrefu wa nenosiri za kweli za nasibu bado zinaweza kuwa salama. Ulinganisho hasa ni dhidi ya GANs; kiwango cha kulinganisha dhidi ya mifumo mikubwa, iliyoboreshwa ya kiseri kama JtR au Hashcat na sheria za hali ya juu ingeleta picha kamili zaidi.

Uelewa Unaotumika

Kwa Wakuu wa Usalama wa Habari (CISOs) na Watetezi: Enzi ya sheria za utata imekwisha. Sera lazima zilazimishe matumizi ya maneno ya siri ya kweli ya nasibu au nenosiri zinazozalishwa na msimamizi salama wa kriptografia. Zana kama zxcvbn lazima ziongezwe mara moja na alama ya "uwezekano wa kukisiwa na ML", ambayo kwa uwezekano inatokana na miundo kama PassGPT yenyewe. Uwindaji wa tishio unaotangulia unapaswa kujumuisha kuiga mashambulio ya aina ya PassGPT dhidi ya nenosiri zako mwenyewe zilizofupishwa (kwa idhini sahihi).
Kwa Watafiti: Kipaumbele lazima kiwe kinga. Karatasi zinazofuata zinahitaji kuwa juu ya "Mipango ya Uundaji wa Nenosiri Inayopingana na PassGPT." Pia kuna hitaji la dharuba kwa mifumo ya maadili ya utafiti kwa kutumia data iliyovuja, kama ilivyosisitizwa na taasisi kama Kituo cha Usalama wa Muda Mrefu (CLTC). Mwishowe, kuchunguza matumizi ya ujifunzaji wa kuimarisha kutoka kwa maoni ya kibinadamu (RLHF) ili kuelekeza LLMs mbali na kuzalisha vipengele vinavyoweza kukisiwa kunaweza kuwa hatua ya kinga yenye matumaini.

Kwa muhtasari, PassGPT ni wito wa kuamsha. Inaonyesha kwamba upeo wa kisasa wa AI, uliotengenezwa kwa kazi za ubunifu na mawasiliano, unaweza kutumika tena kwa ufanisi wa kutisha kuvunja moja ya utaratibu wa zamani zaidi wa usalama wa kidijitali. Kinga haiwezi tena kutegemea kumdanganya tu utabiri wa kibinadamu; sasa lazima pia idanganye AI ambayo imejifunza kuiga kikamilifu.