PassTSL: Ujifunzaji wa Hatua Mbili kwa Uundaji na Uvunjaji wa Nenosiri Zilizotengenezwa na Binadamu

Orodha ya Yaliyomo

1. Utangulizi

Nenosiri za maandishi bado ndizo njia kuu ya uthibitishaji, lakini hali yake ya kutengenezwa na binadamu hufanya iwe rahisi kushambuliwa kwa kutumia data. Mbinu za kisasa za uundaji, zikiwemo minyororo ya Markov, miundo yenye msingi wa muundo, RNN, na GAN, zina mapungufu katika kukamata muundo tata, unaofanana na lugha lakini tofauti wa nenosiri. Kukiwa na msukumo kutoka kwa mfano wa mabadiliko ya ujifunzaji wa awali na urekebishaji katika Usindikaji wa Lugha ya Asili (NLP), karatasi hii inatangaza PassTSL (kuunda nenosiri za binadamu kupitia Ujifunzaji wa Hatua Mbili). PassTSL inatumia miundo yenye msingi wa transformer kwanza kujifunza muundo wa jumla wa utengenezaji wa nenosiri kutoka kwa seti kubwa na tofauti ya data (ujifunzaji wa awali) na kisha kufanya mfano uwe maalum kwa muktadha maalum kwa kutumia seti ndogo ya data inayohusiana (urekebishaji). Mbinu hii inalenga kufunga pengo kati ya mbinu za kisasa za NLP na changamoto za kipekee za uundaji wa nenosiri.

2. Mbinu: Mfumo wa PassTSL

Ubunifu mkuu wa PassTSL ni mchakato wake wa ujifunzaji wenye hatua mbili zilizopangwa, unaoiga mikakati ya mafanikio katika miundo kama vile BERT na GPT.

2.1. Awamu ya Ujifunzaji wa Awali

Mfano huanza kufundishwa kwenye mkusanyiko mkubwa wa nenosiri za jumla (mfano, data iliyochanganywa kutoka kwa uvunjaji kadhaa). Lengo ni kujifunza utegemezi wa kimsingi wa kiwango cha herufi, mifumo ya kawaida ya kubadilisha (mfano, 'a' -> '@', 's' -> '$'), na miundo ya uwezekano ambayo hupatikana kote katika seti tofauti za nenosiri. Awamu hii hujenga mfano wa msingi thabiti wa tabia ya binadamu ya kutengeneza nenosiri.

2.2. Awamu ya Urekebishaji

Mfano uliojifunza awali kisha hubadilishwa ili kufaa kwenye hifadhidata maalum ya nenosiri lengwa. Kwa kutumia sampuli ndogo kutoka kwa seti lengwa, vigezo vya mfano vinarekebishwa. Karatasi hii inachunguza heuristi ya kuchagua data ya urekebishaji kulingana na tofauti ya Jensen-Shannon (JS) kati ya usambazaji wa ujifunzaji wa awali na lengwa, kwa lengo la kuchagua sampuli zenye habari zaidi za kubadilishia.

2.3. Muundo wa Mfano na Maelezo ya Kiufundi

PassTSL imejengwa juu ya muundo wa kisimbua transformer, ikitumia utaratibu wa kujipa umakini ili kupima umuhimu wa herufi tofauti katika mlolongo wakati wa kutabiri herufi inayofuata. Mfano hutumia nenosiri kama mlolongo wa herufi (ishara). Mafunzo yanahusisha lengo la aina ya uundaji wa lugha uliofichwa (MLM) wakati wa ujifunzaji wa awali, ambapo mfano hujifunza kutabiri herufi zilizofichwa nasibu ndani ya mlolongo wa nenosiri, na hivyo kukamata muktadha wa pande zote mbili.

3. Usanidi wa Majaribio na Matokeo

3.1. Seti za Data na Viwango vya Msingi

Majaribio yalifanywa kwenye hifadhidata sita kubwa za nenosiri zilizovunjika ulimwenguni halisi. PassTSL ililinganishwa na zana tano za kisasa za kukisia nenosiri, zikiwemo miundo yenye msingi wa Markov (mfano, PCFG), RNN, na GAN.

3.2. Utendaji wa Kukisia Nenosiri

PassTSL ilifanya vizuri zaidi kuliko viwango vyote vya msingi. Uboreshaji wa kiwango cha mafanikio ya kukisia kwenye sehemu ya juu zaidi ulikuwa kati ya 4.11% hadi 64.69%, na kuonyesha ufanisi wa mbinu ya hatua mbili. Matokeo yanaonyesha kuwa ujifunzaji wa awali kwenye mkusanyiko mkubwa hutoa faida kubwa ikilinganishwa na miundo iliyofundishwa kutoka mwanzo kwenye seti moja lengwa.

Faida ya Utendaji Kuliko SOTA

Masafa: 4.11% - 64.69%

Muktadha: Uboreshaji wa kiwango cha mafanikio ya kukisia nenosiri kwenye sehemu ya juu zaidi ya tathmini.

3.3. Tathmini ya Kipima Nguvu ya Nenosiri (PSM)

PSM ilitekelezwa kulingana na makadirio ya uwezekano wa PassTSL. Ilitathminiwa dhidi ya PSM yenye msingi wa mtandao wa neva na zxcvbn yenye msingi wa kanuni. Kipimo muhimu kilikuwa usawazishaji kati ya "makosa salama" (kupunguza nguvu) na "makosa hatari" (kuzidisha nguvu). Kwa kiwango sawa cha makosa salama, PSM yenye msingi wa PassTSL ilitoa makosa machache hatari, ikimaanisha ilikuwa sahihi zaidi katika kutambua nenosiri dhaifu za kweli.

3.4. Athari ya Uchaguzi wa Data ya Urekebishaji

Utafiti uligundua kuwa hata kiasi kidogo cha data lengwa ya urekebishaji (mfano, 0.1% ya kiasi cha data ya ujifunzaji wa awali) kunaweza kusababisha uboreshaji wa wastani wa zaidi ya 3% katika utendaji wa kukisia kwenye seti lengwa. Heuristi ya uchaguzi yenye msingi wa tofauti ya JS ilionyeshwa kuwa na ufanisi katika kuchagua sampuli za urekebishaji zenye faida.

4. Ufahamu Muhimu na Uchambuzi

Ufahamu Mkuu: Mafanikio makubwa ya karatasi hii ni kutambua kwamba utengenezaji wa nenosiri ni aina maalum, iliyozuiliwa ya utengenezaji wa lugha ya asili. Kwa kuitendea hivyo na kutumia zana za kisasa za NLP—hasa muundo wa transformer na mfano wa ujifunzaji wa hatua mbili—waandishi wanafikia mabadiliko ya mfano katika usahihi wa uundaji. Hili sio uboreshaji mdogo tu; ni mwendo mkubwa wa kimbinu unaofafanua upya kikomo cha juu cha kinachowezekana katika uvunjaji wa nenosiri wa uwezekano.

Mtiririko wa Mantiki: Hoja ni rahisi na ya kulazimisha: 1) Nenosiri zinashiriki sifa za takwimu na maana na lugha. 2) Miundo ya kisasa ya lugha yenye mafanikio zaidi hutumia ujifunzaji wa awali kwenye mkusanyiko mkubwa ikifuatiwa na urekebishaji maalum wa kazi. 3) Kwa hivyo, kutumia mfumo huu kwa nenosiri kunapaswa kutoa miundo bora. Matokeo ya majaribio katika seti sita tofauti za data yanathibitisha mantiki hii bila shaka, yakionyesha faida thabiti na mara nyingi kubwa zaidi kuliko miundo ya kizazi cha awali kama vile minyororo ya Markov na hata mbinu za awali za neva kama vile RNN na GAN.

Nguvu na Mapungufu: Nguvu kuu ni utendaji ulioonyeshwa, ambao ni mkubwa. Matumizi ya tofauti ya JS kwa uchaguzi wa sampuli za urekebishaji ni heuristi erevu na ya vitendo. Hata hivyo, uchambuzi una mapungufu. Hauelewi kikamilifu umiliki wa hesabu na njaa ya data ya miundo ya transformer. Ujifunzaji wa awali unahitaji mkusanyiko mkubwa wa nenosiri, na hivyo kuleta wasiwasi wa kiadili na vitendo kuhusu chanzo cha data. Zaidi ya hayo, ingawa inashinda miundo mingine, karatasi haichunguzi kwa kina kwa nini utaratibu wa umakini wa transformer ni bora zaidi kwa kazi hii kuliko, kusema, kumbukumbu ya mlango ya LSTM. Je, ni ukamataji wa utegemezi wa masafa marefu, au kitu kingine? Hali hii ya "sanduku nyeusi" bado ipo.

Ufahamu Unaoweza Kutekelezwa: Kwa wataalamu wa usalama, utafiti huu ni kengele ya tahadhari. Vipima vya nguvu vya nenosiri vya ulinzi lazima vikue zaidi ya mifumo ya kamusi na kanuni (kama vile zxcvbn) ili kujumuisha miundo kama hii ya ujifunzaji wa kina ili kutathmini hatari kwa usahihi. Kwa watafiti, njia ya mbele ni wazi: chunguza miundo yenye ufanisi zaidi (mfano, miundo iliyodondoshwa), chunguza ujifunzaji wa shirikishi kwa ujifunzaji wa awali bila kuweka data nyeti katikati, na tumia miundo hii sio tu kwa uvunjaji bali pia kwa kutengeneza mapendekezo thabiti ya sera za nenosiri. Enzi ya ulinzi rahisi wa heuristi imekwisha; mbio za silaha sasa ziko kwenye eneo la AI.

5. Maelezo ya Kiufundi na Uundaji wa Kihisabati

Mfano wa transformer katika PassTSL hutumia safu ya $N$ ya tabaka zinazofanana. Kila tabaka ina tabaka ndogo mbili: utaratibu wa kujipa umakini wenye vichwa vingi na mtandao wa mbele wa mawasiliano yaliyokamilika kulingana na nafasi. Miunganisho ya mabaki na uwekaji wa kawaida wa tabaka hutumiwa karibu na kila tabaka ndogo.

Kazi ya kujipa umakini huweka swali ($Q$), seti ya jozi za ufunguo-thamani ($K$, $V$) kuwa pato. Pato linakokotolewa kama jumla yenye uzito wa thamani, ambapo uzito uliopeanwa kwa kila thamani huamuliwa na kazi ya ulinganifu ya swali na ufunguo unaolingana. Kwa kichwa kimoja cha umakini: $$\text{Umakini}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ ambapo $d_k$ ni kipimo cha funguo.

Lengo la ujifunzaji wa awali linahusisha kutabiri ishara zilizofichwa. Kwa kuzingatia mlolongo wa nenosiri $X = (x_1, x_2, ..., x_T)$, sehemu nasibu ya ishara hubadilishwa na ishara maalum `[MASK]`. Mfano hufundishwa kutabiri ishara asili za nafasi hizi zilizofichwa, na kuongeza uwezekano wa logi: $$\mathcal{L}_{PT} = \sum_{i \in M} \log P(x_i | X_{\backslash M})$$ ambapo $M$ ni seti ya nafasi zilizofichwa.

Urekebishaji hurekebisha vigezo vya mfano $\theta$ kwenye seti ya data lengwa $D_{ft}$ ili kupunguza uwezekano hasi wa logi wa mifuatano: $$\mathcal{L}_{FT} = -\sum_{(X) \in D_{ft}} \log P(X | \theta)$$

6. Mfumo wa Uchambuzi: Mfano wa Kesi Bila Msimbo

Muktadha: Timu ya usalama katika kampuni kubwa ya teknolojia inataka kutathmini uwezo wa nenosiri za wafanyikazi dhidi ya shambulio la kisasa.

Uandaa Data: Timu inakusanya kihalali mkusanyiko mkubwa wa nenosiri za jumla kutoka kwa vyanzo vingi vya uvunjaji vya umma, visivyo na majina (kwa ujifunzaji wa awali). Pia hupata sampuli ndogo, safi ya hashi za nenosiri za kampuni yao wenyewe (kwa urekebishaji), na kuhakikisha hakuna nenosiri za maandishi wazi zinazowasilishwa kwa wachambuzi.
Utumiaji wa Mfano: Wanaweka mfumo unaofanana na PassTSL.
- Hatua A (Ujifunzaji wa Awali): Fundisha mfano wa msingi wa transformer kwenye mkusanyiko wa jumla. Mfano hujifunza muundo wa kimataifa kama vile "password123", "qwerty", na mabadilisho ya kawaida ya leetspeak.
- Hatua B (Urekebishaji): Kwa kutumia heuristi ya tofauti ya JS, chagua 0.1% ya data ya ujifunzaji wa awali inayofanana zaidi kiidadi na sampuli ya nenosiri ya kampuni yao. Rekebisha mfano uliojifunza awali kwenye sehemu hii iliyochaguliwa pamoja na sampuli ya kampuni yao. Hii inafanya mfano ufae kwa muundo maalum wa kampuni (mfano, matumizi ya majina ya bidhaa za ndani, muundo maalum wa tarehe).
Tathmini: Mfano uliorekebishwa hutengeneza orodha ya kukisia. Timu inalinganisha kiwango cha kuvunja dhidi ya ulinzi wao uliopo (mfano, hashcat na seti za kanuni za kawaida). Wanagundua PassTSL inavunja nenosiri 30% zaidi ndani ya kukisia 10^9 za kwanza, na kuonyesha udhaifu mkubwa ambao mbinu za jadi zilikosa.
Hatua: Kulingana na pato la mfano, wanatambua muundo unaokisiwa mara kwa mara na kutekeleza mabadiliko ya sera ya nenosiri lengwa (mfano, kukataza nenosiri zilizo na jina la kampuni) na kuanza kampeni maalum ya elimu ya watumiaji.

7. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Ulinzi wa Kukabiliana na Usafi wa Nenosiri: Miundo ya PassTSL inaweza kuunganishwa kwenye kiolesura cha utengenezaji wa nenosiri cha wakati halisi kama vipima vya nguvu vyenye usahihi wa hali ya juu, na hivyo kuzuia watumiaji kuchagua nenosiri ambazo mfano unaweza kukisia kwa urahisi. Hii inaenda zaidi ya kanuni tuli hadi kukataliwa kwa uwezekano na nguvu.
Utengenezaji wa Nenosiri wa Kipingamizi: Geuza mfano ili kutengeneza nenosiri ambazo ni zisizowezekana zaidi kulingana na usambazaji uliojifunzwa, na kupendekeza nenosiri zenye nguvu za kweli kwa watumiaji, sawa na jinsi miundo ya kutengeneza kama CycleGAN inavyojifunza kutafsiri kati ya nyanja.
Ujifunzaji wa Shirikishi na Kulinda Faragha: Kazi ya baadaye lazima ishikilie changamoto ya faragha ya data. Mbinu kama vile ujifunzaji wa shirikishi, ambapo mfano hufundishwa kwenye vyanzo vya data visivyo na katikati bila kubadilishana nenosiri mbichi, au kutumia faragha tofauti wakati wa mafunzo, ni muhimu kwa kupitishwa kiadili.
Uchambuzi wa Nenosiri wa Njia Mbalimbali: Panua mfumo ili kuunda nenosiri zinazohusishwa na data nyingine ya mtumiaji (mfano, majina ya watumiaji, maswali ya usalama) ili kujenga miundo ya kina ya wasifu wa mtumiaji kwa mashambulio lengwa au, kinyume chake, kwa tathmini ya hatari ya sababu nyingi.
Uboreshaji wa Ufanisi: Utafiti katika udondoshaji wa mfano, upimaji, na utaratibu wa umakini wenye ufanisi zaidi (mfano, Linformer, Performer) ili kufanya miundo hii yenye nguvu iweze kutekelezwa kwenye vifaa vya makali au katika programu wavuti zenye ucheleweshaji mdogo.

8. Marejeo

Vaswani, A., et al. (2017). Umakini Ni Kila Unachohitaji. Maendeleo katika Mfumo wa Usindikaji wa Habari ya Neva 30 (NIPS 2017).
Weir, M., et al. (2009). Kuvunja Nenosiri Kwa Kutumia Sarufi ya Mazingira Bila Mpangilio. Mkutano wa IEEE wa Usalama na Faragha.
Melicher, W., et al. (2016). Haraka, Nyepesi, na Sahihi: Kuunda Uwezekano wa Kukisia Nenosiri Kwa Kutumia Mtandao wa Neva. Mkutano wa Usalama wa USENIX.
Hitaj, B., et al. (2019). PassGAN: Mbinu ya Ujifunzaji wa Kina kwa Kukisia Nenosiri. Akili Iliyotumika.
Wheeler, D. L. (2016). zxcvbn: Ukadiriaji wa Nguvu ya Nenosiri ya Bajeti ya Chini. Mkutano wa Usalama wa USENIX.
Devlin, J., et al. (2018). BERT: Ujifunzaji wa Awali wa Transformer za Kina za Pande Zote Mbili kwa Uelewa wa Lugha. Nakala ya awali ya arXiv arXiv:1810.04805.
Zhu, J.Y., et al. (2017). Tafsiri ya Picha hadi Picha Isiyo na Jozi Kwa Kutumia Mtandao wa Kipingamizi Unaozingatia Mzunguko. Mkutano wa Kimataifa wa IEEE wa Kompyuta ya Kuona (ICCV). (Marejeo ya CycleGAN kwa dhana ya kutengeneza).
Taasisi ya Kitaifa ya Viwango na Teknolojia (NIST). (2017). Miongozo ya Utambulisho wa Dijiti (SP 800-63B). (Kwa muktadha mwenye mamlaka kuhusu uthibitishaji).