PassGPT: Uundaji wa Nenosiri na Uzalishaji Unaongozwa kwa Mfano Mkubwa wa Lugha

1. Utangulizi

Licha ya maendeleo katika teknolojia za uthibitishaji, nenosiri bado ndio utaratibu mkuu kutokana na unyenyekevu na uwezekano wa kutumika. Uvujaji wa nenosiri husababisha vitisho vikubwa vya usalama, kuwezesha ufikiaji usioidhinishwa na uboreshaji wa zana za kuvunja. Karatasi hii inachunguza matumizi ya Mifano Mikubwa ya Lugha (LLMs) katika uundaji wa nenosiri, ikianzisha PassGPT—mfano uliofunzwa kwenye uvujaji wa nenosiri kwa ajili ya uzalishaji na ukadiriaji wa nguvu.

Utafiti unaonyesha kuwa PassGPT inashinda mbinu zilizopo za Mtandao wa Kuzalisha Kupingana (GAN) kwa kukisia nenosiri zisizoonekana hapo awali kwa asilimia 20 zaidi na kuanzisha uzalishaji wa nenosiri unaongozwa—uwezo mpya wa kuzalisha nenosiri chini ya vikwazo vyovyote.

2. Mbinu & Usanifu

PassGPT imejengwa juu ya usanifu wa GPT-2, uliobadilishwa ili kuzalisha herufi za nenosiri kwa mtiririko. Mbinu hii inatofautiana na GANs ambazo huzalisha nenosiri kama vitengo kamili.

2.1. Usanifu wa Mfano wa PassGPT

Mfano huu ni Transformer unaojitegemea uliofunzwa kwenye uvujaji mkubwa wa nenosiri. Unajifunza usambazaji wa uwezekano $P(x_t | x_{

2.2. Uzalishaji wa Nenosiri Unaongozwa

Ubunifu mkuu ni uzalishaji unaongozwa wa kiwango cha herufi. Kwa kubadilisha utaratibu wa kuchukua sampuli (k.m., kutumia uwezekano wenye masharti au kuficha), PassGPT inaweza kuzalisha nenosiri zinazokidhi vikwazo maalum, kama vile kuwa na alama fulani, kukidhi mahitaji ya urefu, au kujumuisha sehemu ndogo maalum—jambo lisilowezekana kwa GANs za kawaida.

2.3. Uboreshaji wa PassVQT

PassVQT inajumuisha mbinu za Transformer ya Kiasi ya Vekta (VQT), ikitumia kitabu cha msimbo tofauti kuwakilisha viambatanisho visivyoonekana. Hii inaweza kuongeza utata na utofauti wa nenosiri zilizozalishwa, ingawa inaweza kuja kwa gharama ya hesabu.

3. Matokeo ya Majaribio

3.1. Utendaji wa Kukisia Nenosiri

Majaribio kwenye uvujaji wa nenosiri wa ulimwengu halisi (k.m., RockYou) yanaonyesha PassGPT inashinda sana mifano ya kizamani ya kuzalisha iliyopo kama PassGAN. Katika jaribio moja, PassGPT ilikisia nenosiri mbili zaidi za kipekee, zisizoonekana hapo awali ikilinganishwa na mbinu za GAN. Pia ilionyesha uwezo mkubwa wa kujumlisha kwenye seti mpya za data zilizohifadhiwa.

Ulinganisho wa Utendaji

PassGPT dhidi ya GANs: Kiwango cha mafanikio cha asilimia 20 juu katika kukisia nenosiri zisizoonekana.

Ujumlishaji: Utendaji mzuri kwenye uvujaji mpya wa nenosiri usioonekana wakati wa mafunzo.

3.2. Uchambuzi wa Usambazaji wa Uwezekano

Tofauti na GANs, PassGPT hutoa usambazaji wa uwezekano wa wazi juu ya nenosiri. Uchambuzi unaonyesha uhusiano mkubwa kati ya uwezekano mdogo wa nenosiri (logi hasi kubwa) na nguvu kubwa kama inavyopimwa na viashiria kama zxcvbn. Hata hivyo, PassGPT ilitambua visa ambapo nenosiri zilizokadiriwa kuwa "nguvu" na viashiria vya kawaida zilikuwa na uwezekano wa juu kiasi chini ya mfano wake, ikionyesha udhaifu unaowezekana.

Maana ya Chati: Grafu ya kinadharia ingeonyesha uwezekano wa nenosiri (PassGPT) kwenye mhimili wa x na alama ya nguvu (zxcvbn) kwenye mhimili wa y, ikifunua mwelekeo hasi wa jumla na matokeo yasiyo ya kawaida ambapo nenosiri zenye nguvu kubwa zina uwezekano usiotarajiwa wa juu.

4. Uchambuzi wa Kiufundi & Mfumo

Mtazamo wa Mchambuzi wa Sekta: Tathmini muhimu ya mbinu ya PassGPT, matokeo yake, na mafunzo ya vitendo.

4.1. Uelewa wa Msingi

Mafanikio ya msingi ya karatasi hii sio tu mfano mwingine wa AI kwa nenosiri; ni mabadiliko ya dhana kutoka kufananisha muundo wa kutofautisha hadi uundaji wa mlolongo unaozalisha. Wakati zana kama Hashcat zinategemea kanuni na mnyororo wa Markov, na GANs kama PassGAN huzalisha matokeo kamili, PassGPT inachukulia uundaji wa nenosiri kama kitendo cha lugha. Hii inafanana na jinsi LLMs kama GPT-3 zinavyokamata "sarufi" na "maana" ya lugha asilia, lakini hapa inatumika kwa "lugha" ya uundaji wa nenosiri wa binadamu. Thamani halisi ni usambazaji wa uwezekano wa wazi, unaoweza kufuatiliwa ambao hutoa—kipengele kinachokosekana wazi katika GANs, ambazo mara nyingi hukosolewa kuwa "masanduku meusi" (Goodfellow et al., 2014). Hii inahamisha usalama wa nenosiri kutoka kwa makisio ya heuristi hadi mantiki ya uwezekano.

4.2. Mtiririko wa Mantiki

Hoja inaendelea kwa mantiki yenye nguvu: (1) LLMs zinatawala Usindikaji wa Lugha Asilia (NLP) kwa kuunda mifano ya mifuatano; (2) nenosiri ni mifuatano ya herufi zenye muundo uliofichika; (3) kwa hivyo, LLMs zinapaswa kuunda mifano ya nenosiri kwa ufanisi. Uthibitishaji ni thabiti: utendaji bora wa kukisia unathibitisha dhana. Uanzishaji wa uzalishaji unaongozwa ni upanuzi wa asili wa usanifu wa mfuatano—sawa na uzalishaji wa maandishi unaodhibitiwa katika mifano kama CTRL (Keskar et al., 2019). Uchambuzi wa usambazaji wa uwezekano ni hatua muhimu inayofuata, ikilinganisha uundaji wa mifano na kikoa la vitendo la ukadiriaji wa nguvu. Mtiririko kutoka uundaji wa mifano -> uzalishaji -> uchambuzi -> matumizi una mwendo mzuri na una athari.

4.3. Nguvu & Mapungufu

Nguvu: Faida za utendaji hazikaniki. Uwezo wa uzalishaji unaongozwa ni ubunifu wa kweli wenye matumizi ya haraka kwa ajili ya majaribio ya kuvamia (kuzalisha wagombea wa nenosiri wanaofuata kanuni) na uwezekano wa kusaidia watumiaji kuunda nenosiri zinazokumbukika lakini ngumu. Kutoa usambazaji wa uwezekano ni faida kubwa ya kinadharia na ya vitendo, kuwezesha hesabu ya entropy na ujumuishaji na mifumo ya usalama iliyopo.

Mapungufu & Wasiwasi: Karatasi hii inapita juu ya masuala makubwa. Kwanza, matumizi mawili ya kimaadili: Hii ni zana yenye nguvu ya kuvunja. Ingawa imewekwa kwa ajili ya utafiti wa "kukisia nje ya mtandao", uwezekano wake wa kutumiwa vibuo ni mkubwa, na utoaji wa msimbo/mifano unahitaji miongozo madhubuti ya kimaadili, sawa na mijadala inayozunguka utafiti mwingine wa AI wenye matumizi mawili (Brundage et al., 2018). Pili, utegemezi wa data: Kama mifano yote ya Masomo ya Mashine (ML), PassGPT ni nzuri tu kama data yake ya mafunzo. Inaweza kushindwa kuunda mifano ya nenosiri kutoka kwa tamaduni au lugha zisizowakilishwa vya kutosha katika uvujaji wa kawaida. Tatu, gharama ya hesabu: Kufunza na kuendesha watu wakubwa wa kubadilisha ni ghali ikilinganishwa na baadhi ya mbinu za zamani, kikikikizu kinachowezekana cha matumizi ya wakati halisi. "Utata" ulioongezeka wa aina ya PassVQT umetajwa lakini haujathibitishwa kwa kina—je, utofauti mkubwa unabadilisha kuwa kukisia kwa ufanisi zaidi, au tu mifuatano mingi ya maneno yasiyo na maana?

4.4. Uelewa Unaoweza Kutekelezwa

Kwa Timu za Usalama: Tathmini mara moja jinsi sera za nenosiri za shirika lako zinaweza kuwa na udhaifu kwa kizazi hiki kipya cha mashambulizi yanayoendeshwa na AI. Sera zinazolazimisha muundo ngumu lakini unaotabirika (k.m., "JinaLaKampuni2024!") sasa zinaonyeshwa zaidi. Pendekeza mabadiliko ya kutumia nasibu ya kweli (wasimamizi wa nenosiri) au misemo ya nenosiri.

Kwa Watafiti & Wauzaji: Unganisha makadirio ya uwezekano yanayotokana na LLM ndani ya vipima vya nguvu. Kikadiriaji mseto kinachounganisha kanuni za kawaida (zxcvbn) na uwezekano wa PassGPT kinaweza kuwa thabiti zaidi. Unda mifano ya kujihami inayoweza kugundua nenosiri zinazoweza kuzalishwa na PassGPT, na kuunda mashindano ya silaha ya AI dhidi ya AI katika usalama wa nenosiri.

Kwa Wabuni wa Sera: Tafuta fedha kwa utafiti wa matumizi ya kujihami ya teknolojia hii na uanzishe mifumo wazi ya kimaadili kwa ajili ya uchapishaji wa zana zenye nguvu za AI za kushambulia katika usalama wa mtandao.

Mfano wa Mfumo (Sio Msimbo): Fikiria sera ya nenosiri ya taasisi ya kifedha: "Herufi 12, herufi kubwa 1, herufi ndogo 1, nambari 1, herufi maalum 1." Zana ya kawaida ya kuvunja inaweza kutumia nguvu kali au kanuni za kubadilisha. GAN inaweza kukosa kuzalisha matokeo yanayokidhi vikwazo hivi vyote. Uzalishaji unaongozwa wa PassGPT unaweza kuongozwa kuchukua sampuli za mifuatano tu inayokidhi sera hii hasa, kuchunguza kwa ufanisi nafasi ndogo ya uwezekano wa juu ya nafasi hiyo ya utafutaji iliyozuiwa, na kuifanya kuwa zana yenye nguvu kwa timu nyekundu zinazojaribu sera hii na kwa washambuliaji wa sanduku nyeusi.

5. Matumizi ya Baadaye & Mwelekeo

Ukadiriaji wa Nguvu Ulioimarishwa: Ujumuishaji wa alama za uwezekano za PassGPT ndani ya vipima vya nguvu vya nenosiri vya wakati halisi kwa ajili ya tovuti na programu.

Ukaguzi wa Nenosiri Unaotangulia: Mashirika yanaweza kutumia mifano ya PassGPT iliyongozwa kuzalisha na kujaribu nenosiri zinazofuata sera za ndani, na kutambua sehemu dhaifu kabla ya washambuliaji.

Mifumo ya Ulinzi Mseto: Kuunda mifano ya kutofautisha inayoweza kutofautisha kati ya nenosiri zilizochaguliwa na binadamu na zilizozalishwa na LLM ili kuonyesha hati za utambulisho zenye udhaifu au zilizoharibiwa.

Uundaji wa Mfuatano wa Vikoa Mbalimbali: Kutumia usanifu sawa kwa mifuatano mingine inayohusiana na usalama, kama vile alama za kidole za itifaki ya mtandao, mifuatano ya wito wa API ya virusi vya kompyuta, au muundo wa muamala ulio na udanganyifu.

Mafunzo ya Shirikishi na Kuhifadhi Faragha: Kuchunguza mbinu za kufunza mifano kama hii kwenye data ya nenosiri iliyotawanyika, isiyojulikana bila kuleta uvujaji nyeti katikati.

Uzalishaji wa Nenosiri wa Kushambulia: Kutumia uzalishaji unaongozwa kuunda "mifano ya kushambulia"—nenosiri zinazoonekana kuwa na nguvu kwa viashiria lakini zinakisiwa kwa urahisi na mfano—ili kujaribu na kuboresha viashiria hivyo.

6. Marejeo

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.

Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.

Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.

Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.