1. Utangulizi na Motisha
Uthibitishaji unaotegemea nenosiri bado unatumika kila mahali kwa sababu ya unyenyekevu wake na uzoefu wa mtumiaji. Hata hivyo, nenosiri zinazochaguliwa na watumiaji zinajulikana kwa kutabirika, zikipendelea masharti mafupi, taarifa za kibinafsi, na matumizi ya mara kwa mara katika majukwaa mbalimbali. Utabiri huu wa asili huleta swali muhimu: je, mifumo hii ya kibinadamu ya kuunda nenosiri inaweza kuigwa na kutumika? Karatasi hii inajielezea katika makutano haya, ikichunguza ikiwa mbinu za kisasa za ujuzi wa kina zinazotegemea data zinaweza kuzidi mbinu za kijadi za kukisia nenosiri zinazotegemea kanuni kwa kujifunza usambazaji wa msingi wa nenosiri halisi za ulimwenguni.
2. Usuli na Kazi Inayohusiana
2.1 Kukisia Nenosiri kwa Kijadi
Kihistoria, kukisia nenosiri kulitegemea uchambuzi wa takwimu wa hifadhidata za nenosiri zilizovuja (k.m., RockYou) kuunda algoriti za uzalishaji zinazotegemea kanuni kama vile kanuni za John the Ripper au Hashcat. Mbinu hizi hutegemea sana kanuni zilizoundwa na wataalam (mifumo ya kubadilisha, uingizwaji) na zimewekewa mipaka na ukamilifu wa uvujaji uliochambuliwa.
2.2 Ujuzi wa Kina katika Uzalishaji wa Maandishi
Uwanja huu umebadilishwa kabisa na miundo inayojifunza moja kwa moja kutoka kwa data. Maendeleo makuu ni pamoja na Mbinu za Umakini (k.m., Transformer, BERT) kwa uundaji wa muktadha, Miundo ya Juu ya Mfano (CNN, RNN, Vinasimbu vya Kujisimbua) kwa ujifunzaji wa uwakilishi, na Taratibu za Mafunzo (k.m., uingizaji wa tofauti, mafunzo ya kizushi). Karatasi hii inatumia dhana hizi kwenye uwanja maalum wa masharti ya nenosiri.
3. Mbinu na Miundo
Utafiti huu unafanya uchambuzi wa kulinganisha wa miundo kadhaa ya kizalishi ya kina, ukiweka uzalishaji wa nenosiri kama kazi ya uzalishaji wa mlolongo.
3.1 Mitandao ya Kina ya Neural Kulingana na Umakini
Miundo kama vile vihisishi vya Transformer hutumiwa kukamata utegemezi wa muda mrefu katika muundo wa nenosiri (k.m., "nenosiri123" ambapo "123" mara nyingi hufuata maneno ya msingi ya kawaida).
3.2 Mbinu za Kujisimbua
Vinasimbu vya kawaida vya kujisimbua hujifunza uwakilishi wa fumbo ulioshikiliwa (usimbaji) wa nenosiri na kuzirekebisha tena (kutofautisha). Muhimu kwa uwakilishi lakini wenye mipaka katika ubora wa uzalishaji wa moja kwa moja.
3.3 Mitandao ya Kizushi ya Kizalishi (GANs)
Mtandao wa kizalishi huunda nenosiri za wagombea, huku mtandao wa kutongoa ukijaribu kuzitofautisha na nenosiri halisi. Ilivutiwa na mafanikio ya uzalishaji wa picha kama vile CycleGAN (Zhu et al., 2017), lakini ilibadilishwa kwa ajili ya mlolongo wa maandishi tofauti, mara nyingi inahitaji mbinu kama Gumbel-Softmax au ujifunzaji wa kuimarisha.
3.4 Vinasimbu vya Kujisimbua vya Tofauti (VAEs)
Mchango mkuu wa karatasi hii. VAEs huleta mabadiliko ya uwezekano: kihisishi huweka nenosiri kwa usambazaji katika nafasi ya fumbo (k.m., Gaussian), iliyowekwa vigezo na wastani $\mu$ na tofauti $\sigma^2$. Nenosiri hutolewa kwa kuchukua sampuli ya vekta ya fumbo $z \sim \mathcal{N}(\mu, \sigma^2)$ na kuitofautisha. Hii inawezesha kuingiliana laini na kuchukua sampuli maalum katika nafasi ya fumbo.
4. Mfumo wa Majaribio
4.1 Seti za Data
Majaribio yanafanywa kwenye seti kadhaa za data za nenosiri zilizovuja ili kuhakikisha uthabiti:
- RockYou: Kigezo cha jadi chenye ukubwa mkubwa kilicho na mamilioni ya nenosiri za maandishi wazi.
- LinkedIn: Nenosiri kutoka kwa uvujaji wa mtandao wa kijamii wa kitaaluma.
- Youku/Zomato/Pwnd: Vyanzo mbalimbali vinavyowakilisha aina tofauti za huduma (utiririshaji wa video, upakiaji wa chakula, uvujaji uliokusanywa).
4.2 Vipimo vya Tathmini
Utendaji hupimwa sio tu kwa idadi ya nenosiri zilizolingana (kiwango cha kugonga), lakini muhimu zaidi kwa:
- Utofauti wa Uzalishaji: Utofauti wa nenosiri za kipekee zinazotolewa.
- Upekee wa Sampuli: Sehemu ya nenosiri zilizozalishwa ambazo ni mpya na sio nakala tu kutoka kwa seti ya mafunzo.
5. Matokeo na Uchambuzi
5.1 Ulinganisho wa Utendaji
Uchambuzi wa kimajaribio wa karatasi hii unaonyesha hali ya kina. Ingawa miundo inayotegemea umakini na GANs inaonyesha utendaji mzuri, miundo ya Vinasimbu vya Kujisimbua vya Tofauti (VAE) inajitokeza kuwa bora hasa, mara nyingi ikifikia utendaji wa hali ya juu au unaolingana wa kuchukua sampuli. Nafasi yao ya fumbo iliyopangwa inathibitika kuwa na faida kwa uwanja wa nenosiri.
5.2 Utofauti wa Uzalishaji na Upekee
Uvumbuzi mkuu ni usawa kati ya miundo tofauti:
- GANs zinaweza kutoa sampuli zinazofanana sana na ukweli lakini wakati mwingine zinakumbwa na "kuporomoka kwa hali," na kutoa aina ndogo.
- VAEs huwa zinazalisha matokeo yenye utofauti zaidi na zinashinda katika kuzalisha nenosiri mpya, zinazoweza kukubalika ambazo hazijaonekana wakati wa mafunzo, shukrani kwa nafasi ya fumbo inayoendelea na iliyorekebishwa.
6. Uchunguzi wa Kina wa Kiufundi
Nguvu ya VAEs iko katika kazi yake ya lengo, Kikomo cha Chini cha Ushahidi (ELBO): $$\mathcal{L}_{VAE} = \mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)] - D_{KL}(q_{\phi}(z|x) \parallel p(z))$$ Ambapo:
- $x$ ni nenosiri la ingizo.
- $z$ ni tofauti ya fumbo.
- $q_{\phi}(z|x)$ ni kihisishi (mtandao wa kuhitimisha).
- $p_{\theta}(x|z)$ ni kihisishi (mtandao wa kizalishi).
- Neno la kwanza ni hasara ya ujenzi upya, ikihakikisha nenosiri zilizotofautishwa zinalingana na ingizo.
- Neno la pili ni tofauti ya Kullback-Leibler, ikifanya kazi kama kirekebishi kinacholazimisha usambazaji wa fumbo kuwa karibu na kabla (k.m., Gaussian ya kawaida $\mathcal{N}(0, I)$). Rekebishaji huu ni muhimu kwa kuunda nafasi laini, iliyopangwa vizuri ya fumbo ambapo kuingiliana na kuchukua sampuli kuna maana.
7. Mfumo wa Kuchambua na Mfano wa Kesi
Mfumo: Mfumo wa tathmini wa kimfumo wa mfano wowote wa kizalishi wa nenosiri unapaswa kujumuisha: 1) Utayarishaji wa Data (kushughulikia seti za herufi, urekebishaji wa urefu), 2) Mafunzo ya Mfano na Urekebishaji (kuboresha kwa ELBO au hasara ya kizushi), 3) Kuchukua Sampuli zilizodhibitiwa (kuzalisha orodha ya wagombea wenye ukubwa uliowekwa), na 4) Tathmini ya Pande Nyingi dhidi ya seti ya majaribio iliyohifadhiwa kwa kutumia kiwango cha kugonga, upekee, na vipimo vya utata.
Mfano wa Kesi (Mfano bila Msimbo): Fikiria timu ya usalama inataka kukagua sera yao ya nenosiri ya kampuni. Kwa kutumia mfumo wa VAE uliofunzwa kwenye seti pana ya data kama RockYou:
- Wanazalisha wagombea milioni 10 wa nenosiri mpya.
- Wanalinganisha wagombea hawa dhidi ya dampo (iliyohashwa) ya nenosiri zao za watumiaji (kwa idhini sahihi na ulinzi wa kimaadili).
- Kiwango cha kugonga kinaonyesha ni nenosiri ngapi za watumiaji halisi zinazoathirika na shambulio hili la hali ya juu, linaloendeshwa na AI.
- Kwa kuchambua sifa za nenosiri zilizolingana (k.m., maneno ya msingi ya kawaida, mifumo ya kiambishi), wanaweza kuboresha sera yao ya nenosiri (k.m., kukataza maneno ya msingi ya kawaida, kulazimisha urefu wa chini mrefu zaidi).
8. Matumizi ya Baadaye na Mwelekeo
- Kupima Nguvu ya Nenosiri Mapema: Kuunganisha miundo hii kwenye kiolesura cha kuunda nenosiri ili kutoa maoni ya papo hapo kuhusu uwezekano wa kukisiwa wa nenosiri mpya na AI.
- Miundo ya Mseto na ya Masharti: Kuunda miundo inayoweza kuzalisha nenosiri kulingana na sifa za watumiaji (k.m., umri, lugha) au aina ya huduma (k.m., benki dhidi ya mitandao ya kijamii), kama ilivyoonyeshwa na matumizi ya seti tofauti za data.
- Mafunzo ya Kizushi kwa Ulinzi: Kutumia miundo hii ya kizalishi kuunda seti kubwa, za kisasa za data za "uvujaji wa sintetiki" ili kufunza mifumo imara zaidi ya kugundua ukiukaji na kazi za kisasa za kuhash nenosiri (kama Argon2 au scrypt) ili kuwa thabiti dhidi ya uvunjaji unaotegemea AI.
- Zaidi ya Nenosiri: Mbinu hizi zinatumika kwenye nyanja zingine za usalama kama vile kuzalisha URL za udanganyifu zinazofanana na ukweli, aina tofauti za virusi vya kompyuta, au mifumo ya trafiki ya mtandao kwa ajili ya majaribio ya mfumo wa kugundua uvamizi.
- Mifumo ya Kimaadili na ya Kisheria: Kadri teknolojia inavyokomaa, miongozo wazi ya matumizi yake ya kimaadili katika upenyezaji wa majaribio na utafiti inahitajika haraka ili kuzuia matumizi mabaya.
9. Marejeo
- Biesner, D., Cvejoski, K., Georgiev, B., Sifa, R., & Krupicka, E. (2020). Generative Deep Learning Techniques for Password Generation. arXiv preprint arXiv:2012.05685.
- Kingma, D. P., & Welling, M. (2013). Auto-Encoding Variational Bayes. arXiv preprint arXiv:1312.6114.
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
- Weir, M., Aggarwal, S., Medeiros, B. D., & Glodek, B. (2009). Password cracking using probabilistic context-free grammars. In 2009 30th IEEE Symposium on Security and Privacy (pp. 391-405). IEEE.
Mtazamo wa Mchambuzi: Mashindano ya Silaha ya Nenosiri Yanayoendeshwa na AI
Uelewa wa Msingi: Karatasi hii sio tu uboreshaji mdogo zaidi katika uvunjaji wa nenosiri; ni mabadiliko ya dhana. Inaonyesha kuwa miundo ya kizalishi ya kina, hasa Vinasimbu vya Kujisimbua vya Tofauti (VAEs), imekomaa hadi kiwango ambacho inaweza kujifunza peke yake na kuiga mifumo changamano, mara nyingi isiyo na ufahamu, ya uundaji wa nenosiri wa kibinadamu kwa kiwango kikubwa. Hii inasogeza tishio kutoka kwa nguvu ya kikatili inayotegemea kanuni (nyundo) hadi uchambuzi wa kisaikolojia unaoendeshwa na AI (kisu). Kazi ya Biesner et al. inathibitisha kuwa miundo ile ile inayobadilisha nyanja za ubunifu (kama uzalishaji wa picha na CycleGAN au maandishi na GPT) ina nguvu sawa katika uwanja wa usalisa wa kizushi.
Mtiririko wa Kimantiki na Athari za Kimkakati: Mantiki ya utafiti ni sahihi: 1) Nenosiri za kibinadamu hazina nasibu na zina mifumo, 2) Ujuzi wa kina wa kisasa unashinda katika kuiga usambazaji changamani, 3) Kwa hivyo, DL inapaswa kuiga nenosiri kwa ufanisi. Uthibitisho uko katika matokeo ya kimajaribio katika seti tofauti za data kama RockYou na LinkedIn. Athari ya kimkakati ni wazi: dhana ya ulinzi kwamba "watumiaji watachagua nenosiri ngumu zisizotabirika" imekosekana kimsingi. Ulinzi sasa lazima udhani kuwa mshambuliaji ana msaidizi wa AI anayeweza kuzalisha mabilioni ya wagombea wanaoweza kukubalika kimuktadha, sio tu maneno ya kamusi yaliyoongezewa nambari.
Nguvu na Kasoro: Nguvu kuu ya karatasi hii ni ulinganishi wake wa kina, uliodhibitiwa katika familia za miundo—jambo la nadra ambalo hutoa mwongozo halisi wa vitendo. Kuangazia faida za VAE katika udhibiti wa nafasi ya fumbo (kuingiliana, kuchukua sampuli maalum) ni uelewa mkali, ukitoa udhibiti zaidi kuliko uzalishaji wa GANs ambao mara nyingi ni kisanduku cha weusi. Hata hivyo, kasoro muhimu, ya kawaida kwa utafiti mwingi wa usalama wa ML, ni kuzingatia uwezo wa kushambulia na kuzingatia kidogo hatua za kujilinda. Mfumo wa kimaadili wa utekelezaji umeonyeshwa lakini haujachunguzwa kwa kina. Zaidi ya hayo, ingawa miundo hujifunza kutoka kwa uvujaji, bado inaweza kukumbwa na nenosiri zilizoundwa chini ya sera kali za kisasa za muundo zinazolazimisha nasibu zaidi—uwezekano wa upofu.
Uelewa Unaoweza Kutekelezwa: Kwa CISOs na wasanifu wa usalama, wakati wa kuridhika umekwisha. Hatua ya 1: Sera za nenosiri lazima zibadilike zaidi ya kanuni rahisi za herufi hadi kukataza kikamilifu mifumo inayoweza kujifunzwa na AI (k.m., neno la msingi la kawaida + mwaka). Hatua ya 2: Wekeza na amrishwa matumizi ya wasimamizi wa nenosiri kuzalisha na kuhifadhi nenosiri za nasibu halisi, ukiondoa uchaguzi wa kibinadamu kutoka kwenye mlinganyo. Hatua ya 3: Harakisha mpito kwa uthibitishaji wa mambo mengi (MFA) usioathirika na udanganyifu na teknolojia zisizo na nenosiri (WebAuthn/FIDO2). Kutegemea tu mfuatano wa siri, haijalishi jinsi unavyofikiriwa kuwa mgumu kwa mwanadamu, inakuwa hatari isiyoweza kudumishwa katika kukabiliana na AI ya kizalishi. Utafiti huu ni wito wa dharura: sura ya mwisho ya nenosiri inaandikwa, sio na watumiaji, lakini na algoriti.