1. Utangulizi
Nenosiri bado ndio utaratibu mkuu wa uthibitishaji licha ya udhaifu unaojulikana. Karatasi hii inachunguza matumizi ya Mifano ya Lugha Kubwa (LLMs) katika nyanja ya usalama wa nenosiri. Waandishi wanatanguliza PassGPT, mfano uliofunzwa kwenye uvujaji wa nenosiri kwa ajili ya uundaji na ukadiriaji wa nguvu. Swali kuu la utafiti ni: Je, LLMs zinaweza kukamata vipengele vya msingi vya nenosiri zinazotokana na binadamu kwa ufanisi gani? Kazi hii inajielezea katika kukisia nenosiri nje ya mtandao, ambapo adui anamiliki hashi za nenosiri na analenga kurejesha matoleo ya maandishi wazi.
Michango Muhimu:
- Uundaji wa PassGPT, LLM inayotokana na muundo wa GPT-2 kwa ajili ya kuiga nenosiri.
- Kuanzishwa kwa uzalishaji wa nenosiri unaongozwa, unaowezesha sampuli chini ya vikwazo vyovyote.
- Uchambuzi wa usambazaji wa uwezekano juu ya nenosiri na matokeo yake kwa ukadiriaji wa nguvu.
- Uthibitisho wa utendaji bora zaidi kuliko mbinu za awali zinazotokana na Mtandao wa Kupingana wa Kizazi (GAN).
2. Mbinu & Muundo
Sehemu hii inaelezea kwa kina msingi wa kiufundi wa PassGPT na uwezo wake mpya.
2.1. Muundo wa Mfano wa PassGPT
PassGPT imejengwa juu ya muundo wa GPT-2 unaotokana na Transformer. Tofauti na GANs zinazozalisha nenosiri kwa ujumla, PassGPT huiga nenosiri kwa mfuatano katika kiwango cha herufi. Uigaji huu wa kujirejesha unafafanua usambazaji wa uwezekano wa herufi inayofuata ikizingatiwa mfuatano uliopita: $P(x_t | x_{
2.2. Uzalishaji wa Nenosiri Unaongozwa
Ubunifu mkuu ni uzalishaji wa nenosiri unaongozwa. Kwa kubadilisha utaratibu wa kuchukua sampuli (k.m., kwa kutumia uwezekano wenye masharti au kuficha), PassGPT inaweza kuzalisha nenosiri zinazokidhi vikwazo maalum, kama vile kuwa na herufi fulani, kufikia urefu wa chini, au kufuata muundo fulani (k.m., "anza na 'A' na mwisho na '9'"). Udhibiti huu wa kina, katika kiwango cha herufi, ni faida kubwa ikilinganishwa na mbinu za awali za GAN, ambazo hazina uwezo huu wa kuongozwa kwa kina.
Mfano wa Kesi (Sio Msimbo): Timu ya usalama inataka kujaribu ikiwa sera yao ya "lazima iwe na nambari na herufi maalum" inafanya kazi. Kwa kutumia uzalishaji unaongozwa, wanaweza kuamrisha PassGPT kuchukua sampuli za maelfu ya nenosiri zinazofuata sera hii hasa, kisha kuchambua ni nenosiri ngapi kati ya hizi zinazofuata sera bado ni dhaifu na rahisi kukisiwa, na hivyo kuonyesha mapungufu yanayowezekana katika sera yenyewe.
2.3. Uboreshaji wa PassVQT
Waandishi pia wanawasilisha PassVQT (PassGPT na Upimaji wa Vekta), toleo lililoboreshwa linalojumuisha mbinu kutoka kwa VQ-VAE. Marekebisho haya yanalenga kuongeza utata wa nenosiri zinazozalishwa, na kuzifanya ziwe tofauti zaidi na ngumu kukisiwa na miundo mingine, ingawa mabadiliko na uhalisi wa nenosiri yanahitaji tathmini makini.
3. Matokeo ya Majaribio
3.1. Utendaji wa Kukisia Nenosiri
Karatasi hii inaripoti kuwa PassGPT inakisia nenosiri ambazo hazijawahi kuonekana kwa asilimia 20 zaidi ikilinganishwa na miundo ya kisasa inayotokana na GAN. Katika majaribio mengine, inakisia nenosiri ambazo hazijawahi kuonekana mara mbili zaidi. Hii inaonyesha uwezo bora wa kujumlisha kutoka kwa data ya mafunzo hadi kwenye seti mpya za nenosiri. Uzalishaji wa mfuatano uwezekano unawezesha kukamata utegemezi wa Markov unaofichika zaidi kuliko uzalishaji wa mara moja wa GANs.
Maelezo ya Chati: Chati ya kinadharia ya mipau inaweza kuonyesha "Idadi ya Nenosiri za Kipekee Zilizokisiwa" kwenye mhimili wa Y. Mipau ya "PassGPT" ingekuwa mirefu zaidi kuliko ile ya "Mfano Unaotokana na GAN (k.m., PassGAN)" na "Mfano wa Kitamaduni wa Markov," na hivyo kuthibitisha kwa macho pengo la utendaji linalodaiwa katika maandishi.
3.2. Uchambuzi wa Usambazaji wa Uwezekano
Faida kubwa ya LLMs juu ya GANs ni kutoa uwezekano wazi kwa nenosiri yoyote iliyotolewa: $P(\text{nenosiri}) = \prod_{t=1}^{T} P(x_t | x_{
4. Uchambuzi wa Kiufundi & Mawazo
Wazo la Msingi: Mafanikio ya msingi ya karatasi hii ni kutambua kuwa nenosiri, licha ya ufupi wao, ni aina ya lugha inayozalishwa na binadamu yenye vikwazo. Ufafanuzi huu mpya unafungua nguvu kubwa ya utambuzi wa muundo wa LLMs za kisasa, na kusonga zaidi ya mipaka ya GANs ambazo huzichukulia nenosiri kama vitu vikubwa visivyo na muundo. Asili ya mfuatano na uwezekano wa LLMs inafaa karibu kikamilifu kwa tatizo hili.
Mtiririko wa Mantiki: Hoja hiyo ni ya kulazimisha: 1) LLMs zinafanikiwa katika kuiga mifuatano (lugha asilia). 2) Nenosiri ni mifuatano (ya herufi) yenye upendeleo wa binadamu uliofichika. 3) Kwa hivyo, LLMs zinapaswa kufanikiwa katika kuiga nenosiri. Majaribio yanathibitisha dhana hii kwa nguvu, na kuonyesha ushindi wa kiasi dhidi ya SOTA ya awali (GANs). Kuanzishwa kwa uzalishaji unaongozwa ni upanuzi wa kimantiki na wenye nguvu wa dhana ya mfuatano.
Nguvu & Mapungufu: Nguvu hiyo haiwezi kukataliwa—utendaji bora na utendaji mpya (uzalishaji unaongozwa, uwezekano wazi). Hata hivyo, karatasi hii inapuuza mapungufu muhimu. Kwanza, utegemezi wa data ya mafunzo: Ufanisi wa PassGPT unahusishwa kabisa na ubora na ukwasi wa uvujaji wa nenosiri ambao umefunzwa, kikomo kilichokubaliwa katika kazi zinazofanana za kizazi kama CycleGAN kwa tafsiri ya picha ambayo inahitaji seti za data zilizounganishwa au zisizounganishwa. Kama ilivyobainishwa na watafiti katika taasisi kama MIT Computer Science & Artificial Intelligence Laboratory, utendaji wa mfano unaweza kudhoofika na data isiyo ya kisasa au isiyowakilisha. Pili, gharama ya hesabu ya kufunza na kuendesha mfano wa Transformer ni juu zaidi kuliko mfano rahisi wa Markov, ambayo inaweza kudhibiti utumiaji halisi katika hali ngumu za uvunjaji wenye rasilimali ndogo. Tatu, wakati uzalishaji unaongozwa ni mpya, matumizi yake ya ulimwenguni halisi kwa washambuliaji dhidi ya watetezi yanahitaji majadiliano zaidi ya kina.
Mawazo Yanayoweza Kutekelezwa: Kwa wataalamu wa usalama, hii ni wito wa kuamka. Sera za nenosiri lazima zibadilike zaidi ya sheria rahisi za muundo. Makadirio ya nguvu lazima yajumuishe miundo ya uwezekano kama PassGPT ili kukamata nenosiri "ngumu-lakini-zinazoweza kutabirika". Kwa watafiti, njia ni wazi: chunguza aina nyepesi za Transformer (kama muundo wa LLaMA uliotajwa) kwa ajili ya ufanisi, na uchunguze mbinu za ulinzi ambazo zinaweza kugundua au kusumbua mashambulizi ya nenosiri yanayozalishwa na LLM. Enzi ya uvunjaji wa nenosiri unaoongozwa na AI imebadilika kwa uamuzi kutoka GANs hadi LLMs.
5. Matumizi ya Baadaye & Mwelekeo
- Uchunguzi wa Nguvu ya Nenosiri Kabla ya Tukio: Mashirika yanaweza kutumia miundo ya PassGPT iliyongozwa, iliyofunzwa kwenye uvujaji wa hivi karibuni, kuchunguza kwa njia ya kukusanya data za nenosiri za watumiaji (katika umbo la hashi) kwa kuzalisha mechi za uwezekano wa juu, na kutambua akaunti zenye hatari kabla ya uvunjaji kutokea.
- Makadirio ya Nguvu ya Kizazi Kijacho: Kuunganisha alama za uwezekano za PassGPT katika maktaba kama `zxcvbn` au `dropbox/zxcvbn` kunaweza kuunda makadirio mseto ambayo yanazingatia utata unaotokana na sheria na uwezekano wa takwimu.
- Mafunzo ya Kupingana kwa Ulinzi: PassGPT inaweza kutumika kuzalisha seti kubwa za data za nenosiri za bandia zenye uhalisi ili kufunza mifumo ya kugundua uvamizi au ugunduzi wa ukiukaji wa kawaida ili kutambua muundo wa mashambulizi.
- Uchambuzi wa Vielelezo: Kazi ya baadaye inaweza kulinganisha usambazaji wa uwezekano wa PassGPT na ule wa miundo mingine ya kizazi (k.m., Mifano ya Uenezi) inayotumika kwa nenosiri, na kuchunguza ni muundo gani unakamata upendeleo wa binadamu bora zaidi.
- Mwelekeo wa Kimaadili & Ulinzi: Mwelekeo mkuu wa utafiti unapaswa kugeukia kuelekea matumizi ya ulinzi, kama vile kuendeleza mbinu za "kudhuru" au kufanya seti za data za nenosiri ziwe na manufaa kidogo kwa kufunza LLMs mbaya, au kuunda wasaidizi wa AI ambao husaidia watumiaji kuzalisha nenosiri za nasibu za kweli, zenye entropy ya juu.
6. Marejeo
- Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
- Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
- Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. (GPT-2).
- Hitaj, B., et al. (2017). PassGAN: A Deep Learning Approach for Password Guessing. International Conference on Applied Cryptography and Network Security.
- Wheeler, D. L. (2016). zxcvbn: Low-Budget Password Strength Estimation. USENIX Security Symposium.
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV). (CycleGAN).
- Touvron, H., et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971.
- MIT Computer Science & Artificial Intelligence Laboratory (CSAIL). Research on Machine Learning Robustness and Data Dependence.