Uundaji wa Kina Kwa Kielektroniki kwa Uundaji wa Nenosiri: Uchambuzi wa Kulinganisha

1. Utangulizi na Motisha

Uthibitishaji unaotumia nenosiri bado unaenea sana kwa sababu ya unyenyekevu wake na uzoefu wa mtumiaji. Hata hivyo, nenosiri zinazochaguliwa na watumiaji mara nyingi zinabashiriwa, ni fupi, na hutumiwa tena katika majukwaa mbalimbali, na hivyo kuunda udhaifu mkubwa wa usalama. Karatasi hii inachunguza ikiwa miundo ya kujifunza kina inaweza kujifunza na kuiga mifumo hii ya kibinadamu ya kuunda nenosiri ili kutoa nenosiri zinazowezekana kwa ajili ya majaribio na uchambuzi wa usalama.

Mabadiliko kutoka kwa kukisia nenosiri kulingana na kanuni, kinachongozwa na wataalam (k.m., miundo ya Markov, sarufi ya muktadha isiyo na uwezekano) hadi njia za kujifunza kina zinazotegemea data tu zinawakilisha mabadiliko ya dhana. Kazi hii inachunguza mkusanyiko mpana wa miundo, ikiwa ni pamoja na mbinu za umakini, vinabainishi otomatiki, na mitandao ya kupambana ya kuunda, na mchango mpya katika kutumia Vinasimbaji Otomatiki Tofauti (VAEs) katika uwanja huu.

2. Kazi Zinazohusiana na Msingi

Kukisia nenosiri kwa jadi hutegemea uchambuzi wa takwimu wa seti za data zilizovujwa (k.m., RockYou) ili kuunda seti za kanuni na miundo ya uwezekano kama minyororo ya Markov. Njia hizi zinahitaji utaalamu wa uwanja ili kuunda kanuni bora. Kinyume chake, kujifunza kina kisasa kwa ajili ya uundaji wa maandishi, kinachochochewa na usanifu kama vile Vigeuzi (Vaswani et al., 2017) na maendeleo ya mafunzo, hujifunza mifumo moja kwa moja kutoka kwa data bila uhandisi wa kanuni wazi.

Maendeleo muhimu yanayowezesha utafiti huu ni pamoja na:

Mbinu za Umakini: Miundo kama BERT na GPT hukamata uhusiano tata wa muktadha katika data ya mlolongo.
Kujifunza Uwakilishi: Vinabainishi otomatiki hujifunza uwakilishi uliofupishwa, wenye maana (nafasi za siri) za data.
Mafunzo ya Hali ya Juu: Mbinu kama vile utambuzi tofauti na udhibiti wa Wasserstein hufanya imara na kuboresha mafunzo ya muundo wa kuunda.

3. Miundo ya Kujifunza Kina ya Kuunda

Sehemu hii inaelezea kwa kina miundo mikuu iliyotathminiwa kwa ajili ya uundaji wa nenosiri.

3.1 Mitandao ya Neva Yenye Msingi wa Umakini

Miundo inayotumia umakini wa kibinafsi au usanifu wa kigeuzi huchakata mfuatano wa nenosiri kama mlolongo wa herufi au alama. Mbinu ya umakini huruhusu muundo kupima umuhimu wa herufi tofauti katika muktadha, na hivyo kujifunza kwa ufanisi muundo wa kawaida wa ndani (kama "123" au "password") na mahali pao.

3.2 Mbinu za Usimbaji wa Otomatiki

Vinabainishi otomatiki vya kawaida hufinya nenosiri la pembejeo kuwa vekta ya siri na kujaribu kuijenga upya. Shimo la chupa linamlazimisha muundo kujifunza sifa muhimu. Ingawa ni muhimu kwa uwakilishi, vinabainishi otomatiki vya kawaida si vya kuunda kwa asili kwa sampuli mpya.

3.3 Mitandao ya Kupambana ya Kuunda (GANs)

GANs huweka mtandao wa kizazi (kinachounda nenosiri) dhidi ya mtandao wa mpambanuzi (kinachohukumu ukweli). Kupitia mafunzo ya kupambana, kizazi kinajifunza kutoa sampuli ambazo hazitofautishwi na nenosiri halisi. Hata hivyo, GANs zinajulikana kuwa ngumu kufunzwa na zinaweza kukumbwa na kuzimia kwa hali, ambapo zinaunda aina ndogo.

3.4 Vinasimbaji Otomatiki Tofauti (VAEs)

Mchango mkuu wa kazi hii ni matumizi ya VAEs. Tofauti na vinabainishi otomatiki vya kawaida, VAEs hujifunza nafasi ya siri ya uwezekano. Kinasimbaji hutoa vigezo (wastani $\mu$ na tofauti $\sigma^2$) ya usambazaji wa Gaussian. Vekta ya siri $z$ inachukuliwa kwa sampuli: $z \sim \mathcal{N}(\mu, \sigma^2)$. Kifafanuzi kisha kinajenga upya pembejeo kutoka $z$.

Kazi ya hasara ni Kikomo cha Chini cha Ushahidi (ELBO):

$\mathcal{L}_{VAE} = \mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)] - D_{KL}(q_{\phi}(z|x) \| p(z))$

Neno la kwanza ni hasara ya ujenzi upya. Neno la pili, tofauti ya Kullback-Leibler, hudhibiti nafasi ya siri kuwa karibu na usambazaji wa awali $p(z)$ (kawaida kawaida). Nafasi hii ya siri iliyopangwa inawezesha sifa mbili zenye nguvu za kukisia nenosiri:

Uingiliano: Kuchukua pointi za sampuli kati ya vekta mbili za siri za nenosiri zinazojulikana zinaweza kutoa nenosiri mpya, mseto ambao huchanganya sifa za zote mbili.
Uchukuaji wa Lengwa: Kwa kuweka masharti kwenye nafasi ya siri au kutafuta ndani yake, mtu anaweza kutoa nenosiri zilizo na sifa maalum (k.m., zikiwa na kifungu maalum).

4. Mfumo wa Majaribio na Seti za Data

Utafiti huu unatumia mfumo wa umoja, uliodhibitiwa kwa ajili ya kulinganisha sawa. Miundo hufunzwa na kutathminiwa kwenye seti kadhaa za data zinazojulikana za uvujaji wa nenosiri ulimwenguni:

RockYou: Seti kubwa ya data ya zamani kutoka kwa uvujaji wa programu ya kijamii.
LinkedIn: Nenosiri kutoka kwa uvujaji wa mtandao wa kitaaluma, ambazo mara nyingi hufikiriwa kuwa ngumu zaidi.
Youku, Zomato, Pwnd: Seti za ziada za data kutoka kwa huduma mbalimbali zinazotoa utofauti katika mitindo ya nenosiri na ushawishi wa kitamaduni.

Vipimo vya tathmini ni pamoja na:

Kiwango cha Kulingana: Asilimia ya nenosiri zilizoundwa ambazo zinakubaliana kwa mafanikio na nenosiri katika seti ya majaribio iliyotengwa (kuiga jaribio la kuvunja).
Upekee: Asilimia ya nenosiri zilizoundwa ambazo ni tofauti kutoka kwa kila mmoja.
Uvutio: Asilimia ya nenosiri zilizoundwa ambazo hazipatikani katika data ya mafunzo.

Seti Kuu za Data Zilizotumika

RockYou, LinkedIn, Youku, Zomato, Pwnd

Vipimo Muhimu vya Tathmini

Kiwango cha Kulingana, Upekee, Uvutio

Mchango Mkuu wa Muundo

Vinasimbaji Otomatiki Tofauti (VAEs) zilizo na sifa za nafasi ya siri

5. Matokeo na Uchambuzi wa Utendaji

Uchambuzi wa kimajaribio unaonyesha hali ya utendaji iliyobainishwa:

VAEs Zinaonekana Kama Mfanyakazi Imara: Miundo ya VAE iliyopendekezwa inafikia hali ya juu zaidi au inashindana sana katika viwango vya kulingana katika seti za data. Nafasi yao ya siri iliyopangwa inatoa faida kubwa katika kutoa sampuli tofauti na zinazowezekana, na kusababisha alama za juu za upekee na uvutio.
GANs Zinaonyesha Uwezo Mkubwa Lakini Kutokuwa Imara: Zikifunzwa kwa mafanikio, GANs zinaweza kutoa nenosiri halisi sana. Hata hivyo, utendaji wao hauna uthabiti, mara nyingi hukumbwa na kuzimia kwa hali (upekee mdogo) au kushindwa kukutana, ikilingana na changamoto zinazojulikana za mafunzo ya GAN zilizorekodiwa katika karatasi ya asili ya Goodfellow et al. na uchambuzi wa baadaye kama "Wasserstein GAN" ya Arjovsky et al.
Miundo ya Umakini Inafanya Vizuri Katika Kukamata Mifumo ya Ndani: Miundo kama vile usanifu unaotegemea Vigeuzi ni bora sana katika kujifunza n-gramu za kawaida za herufi na utegemezi wa nafasi (k.m., kuweka herufi kubwa kwenye herufi ya kwanza, kuongeza nambari mwishoni).
Tofauti ya Seti ya Data Ni Muhimu: Nafasi ya utendaji wa muundo inaweza kubadilika kulingana na seti ya data. Kwa mfano, miundo inayofanya vizuri kwenye RockYou inaweza isiweze kutumika kwa ufanisi kwa LinkedIn, ikionyesha umuhimu wa utofauti wa data ya mafunzo.

Tafsiri ya Chati (Kinadharia kulingana na maelezo ya karatasi): Chati ya mihimili inayolinganisha miundo ingaonyesha uwezekano wa VAEs na miundo bora ya Umakini kuongoza katika kiwango cha kulingana. Mchoro wa kutawanya wa Upekee dhidi ya Kiwango cha Kulingana ungaonyesha VAEs katika roboduara nzuri (juu kwenye mhimili wote), wakati baadhi ya matukio ya GAN yanaweza kukusanyika katika eneo la kiwango cha juu cha kulingana lakini upekee mdogo, ikionyesha kuzimia kwa hali.

6. Uchambuzi wa Kiufundi na Ufahamu

Ufahamu Mkuu

Ufahamu wenye nguvu zaidi wa karatasi hii ni kwamba uundaji wa nenosiri sio tu tatizo la kuiga mlolongo wa asili; ni tatizo la makadirio ya msongamano katika nafasi ya siri iliyopangwa. Wakati RNNs/Vigeuzi wanafanya vizuri katika kutabiri herufi inayofuata, wanakosa muundo wazi, unaoweza kusafiri wa "njia ya nenosiri." VAEs hutoa hili kwa kubuni. Waandishi wametambua kwa usahihi kwamba uwezo wa kufanya uchukuaji wa lengwa (k.m., "toa nenosiri zinazofanana na mkataba huu wa majina ya kampuni") na uingiliano laini kati ya aina za nenosiri ni mabadiliko makubwa kwa ukaguzi wa utaratibu wa usalama, kukwenda zaidi ya orodha ya nguvu.

Mtiririko wa Kimantiki

Mantiki ya utafiti ni sahihi: 1) Weka kukisia nenosiri kama kazi ya uundaji wa maandishi. 2) Tumia zana ya kisasa ya DL (Umakini, GANs, VAEs). 3) Muhimu, tambua kwamba sifa za nafasi ya siri ya VAEs zinatoa faida ya kazi ya kipekee kuliko miundo mingine ya kuunda. 4) Thibitisha dhana hii kupitia utaratibu wa kupima wenye nguvu, wenye seti nyingi za data. Mtiririko kutoka kwa kurekebisha muundo hadi uthibitisho wa kimajaribio ni wazi na wa kulazimisha.

Nguvu na Kasoro

Nguvu: Mfumo wa kulinganisha ni nguvu kubwa. Mara nyingi sana, karatasi huanzisha muundo mmoja. Hapa, kupima dhidi ya GANs na miundo ya umakini kunatoa muktadha muhimu, kuonyesha kwamba VAEs sio tofauti tu, lakini zinatoa usawa bora kati ya ubora wa sampuli, utofauti, na udhibiti. Mwelekeo kwenye seti za data za ulimwengu halisi (LinkedIn, Zomato) unaiweka utafiti huu katika ukweli wa vitendo.

Kasoro: Karatasi hii, kama sehemu kubwa ya uwanja huu, inafanya kazi katika dhana ya baada ya uvujaji. Inachambua dalili (nenosiri zilizovujwa) badala ya ugonjwa (uthibitishaji unaotegemea nenosiri yenyewe). "Upanga wa pande mbili" wa kimaadili unatambuliwa lakini haujachunguzwa kwa kina. Zaidi ya hayo, ingawa VAEs zinaboresha udhibiti, mchakato wa kuchukua sampuli bado ni wa moja kwa moja kidogo kuliko mifumo inayotegemea kanuni kwa mchambuzi wa kibinadamu. "Maana" ya nafasi ya siri, ingawa imepangwa, inaweza kuwa ya kufichika.

Ufahamu Unaoweza Kutekelezwa

Kwa timu za usalama: Unganisha vizazi vya VAEs katika zana zako za ukaguzi wa nenosiri wa makini. Kipengele cha kuchukua sampuli kwa lengwa ni muhimu kwa kuunda orodha maalum za maneno kwa ajili ya majaribio ya kuingilia dhidi ya mashirika maalum au watumiaji wa demografia maalum.

Kwa wabunifu wa sera za nenosiri: Miundo hii ni tufe ya kuona inayoonyesha mipaka ya tabia inayotabirika ya kibinadamu. Ikiwa VAE inaweza kukisia, sio nenosiri nzuri. Sera lazima zilazimishe utumiaji wa nasibu halisi au maneno mengi, kukwenda zaidi ya kanuni za muundo ambazo miundo hii hujifunza kwa urahisi.

Kwa watafiti wa AI: Kazi hii ni mpango wa kutumia miundo ya kuunda iliyopangwa (VAEs, Mtiririko wa Kawaida) kwa matatizo mengine ya usalama ya mlolongo tofauti, kama vile uundaji wa saini ya virusi vya kompyuta au uigaji wa trafiki ya mtandao. Mbinu za uchunguzi wa nafasi ya siri zinahamishika moja kwa moja.

Mfano wa Kesi ya Mfumo wa Uchambuzi

Hali: Kampuni ya usalama inakagua kampuni ambapo nenosiri za wafanyikazi zinashukiwa kuwa zinategemea jina la mradi "ProjectPhoenix" na mwaka "2023".

Njia ya Jadi Inayotegemea Kanuni: Unda kanuni za mkono: {ProjectPhoenix, phoenix, PHOENIX} + {2023, 23, @2023} + {!, #, $}. Hii inachukua muda mwingi na inaweza kukosa tofauti za ubunifu.

Njia Iliyoboreshwa na VAE:

Weka nenosiri dhaifu zinazojulikana (k.m., "ProjectPhoenix2023", "phoenix23") ndani ya nafasi ya siri ya VAE.
Fanya matembezi yaliyoelekezwa au kuchukua sampuli katika eneo la siri karibu na pointi hizi, ukiongozwa na usambazaji uliojifunza wa muundo wa viambishi vya kawaida, uingizwaji wa leetspeak, na mifumo ya herufi kubwa.
Fafanua vekta za siri zilizochukuliwa kwa sampuli ili kutoa orodha ya maneno yenye lengwa: k.m., "pr0jectPh0enix#23", "PH0ENIX2023!", "project_phoenix23".

Njia hii inachunguza kwa utaratibu nafasi ya tofauti zinazowezekana zinazoelezewa na data ya mafunzo, na kwa uwezekano kubwa inagundua nenosiri ambazo mwandishi wa kanuni wa kibinadamu hangeweza kufikiria.

7. Matumizi ya Baadaye na Mwelekeo

Njia ya utafiti huu inaelekeza kuelekea mwelekeo kadhaa muhimu wa baadaye:

Miundo ya Mseto na Iliyowekwa Masharti: Miundo ya baadaye kwa uwezekano mkubwa itachanganya nguvu za usanifu tofauti—k.m., kutumia Kigeuzi kama kinasimbaji/kifafanuzi ndani ya mfumo wa VAE, au kuweka masharti kwenye GANs/VAEs kwenye habari ya ziada kama demografia ya watumiaji (inayotabiriwa kutoka kwa uvujaji mwingine) au kategoria ya wavuti ili kutoa wagombea wenye lengwa zaidi.
Ulinzi wa Makini na Vipima Nguvu za Nenosiri: Matumizi yenye maadili zaidi na yenye athari kubwa ni kugeuza mwendo. Miundo hii ya kuunda inaweza kuwa nguvu ya kizazi kijacho cha vipima nguvu za nenosiri. Badala ya kuangalia dhidi ya kamusi rahisi, kipima kinaweza kutumia muundo wa kuunda ili kujaribu kukisia nenosiri kwa wakati halisi na kutoa alama ya nguvu ya nguvu kulingana na jinsi ilivyoundwa kwa urahisi.
Zaidi ya Nenosiri: Njia hizi zinatumika moja kwa moja kwa nyanja zingine za usalama zinazohitaji uundaji wa data tofauti halisi, iliyopangwa: kutoa barua pepe za udanganyifu, kuunda trafiki ya mtandao ya kuwinda, au kuiga tabia ya mtumiaji kwa mifumo ya mtego wa asali.
Uimara wa Kupambana: Kadiri vizazi hivi vinavyoboresha, vitawalazimisha ukuzaji wa uthibitishaji wenye nguvu zaidi. Utafiti wa kuunda nenosiri ambazo ni zilizostahimili kupambana dhidi ya wakisiaji hawa wa AI—nenosiri ambazo zinakumbukwa kwa wanadamu lakini ziko katika maeneo ya nafasi ya siri ambayo muundo hupeana uwezekano mdogo sana—inaweza kuwa nyanja ndogo mpya.

8. Marejeo

Biesner, D., Cvejoski, K., Georgiev, B., Sifa, R., & Krupicka, E. (2020). Generative Deep Learning Techniques for Password Generation. arXiv preprint arXiv:2012.05685.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein generative adversarial networks. International conference on machine learning (pp. 214-223). PMLR.
Weir, M., Aggarwal, S., Medeiros, B., & Glodek, B. (2009). Password cracking using probabilistic context-free grammars. 2009 30th IEEE Symposium on Security and Privacy (pp. 391-405). IEEE.
National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B).