PESrank: Çok Boyutlu Sıralama Tahmini ile Çevrimiçi Parola Tahmin Edilebilirliği

1. Giriş

Bu makale, bir parolanın optimal olasılık sırasındaki sırasını hesaplayarak güçlü bir parola kırıcının davranışını doğru bir şekilde modellemek için tasarlanmış yeni bir parola gücü tahmincisi olan PESrank'ı tanıtmaktadır. Çevrimiçi sistemlerde hızlı, doğru ve açıklanabilir parola gücü geri bildirimi için kritik ihtiyacı ele almaktadır.

1.1. Arka Plan

Zayıflıklarına rağmen, metin parolaları baskın kimlik doğrulama yöntemi olmaya devam etmektedir. Yaygın sezgisel güç tahmincileri (örneğin, LUDS kuralları) doğru değildir. Markov modelleri, PCFG'ler veya sinir ağları kullanan kırıcı tabanlı tahminciler daha iyi doğruluk sunar ancak genellikle uzun eğitim sürelerinden veya gerçek zamanlı performans ve açıklanabilirlik eksikliğinden muzdariptir.

1.2. Katkılar

PESrank'ın temel katkıları, yan kanal kriptanalizi sıralama tahmini çerçevesinin parolalara yeni uygulanması, numaralandırma olmadan saniyenin altında sıralama tahmini sağlaması, büyük ölçüde kısalan eğitim süreleri, yeniden eğitim gerektirmeden verimli model kişiselleştirmesi ve kullanıcı geri bildirimi için doğal açıklanabilirliktir.

2. PESrank Metodolojisi

PESrank, parola gücü tahminini, kriptografide kullanılan yan kanal saldırısı analiz tekniklerinden ilham alarak çok boyutlu bir sıralama tahmini problemi olarak yeniden çerçeveler.

2.1. Çok Boyutlu Parola Temsili

Bir parola, d-boyutlu bir arama uzayında bir noktaya ayrıştırılır. Boyutlar, temel kelime (örneğin, "password"), büyük harf kullanımı desenleri (örneğin, "Password"), sonek eklemeleri (örneğin, "password123") veya leet-speak dönüşümleri (örneğin, "p@ssw0rd") gibi bağımsız özellikleri temsil eder. Her boyut için olasılık dağılımı, parola veri kümelerinden ayrı ayrı öğrenilir.

2.2. Sıralama Tahmini Çerçevesi

PESrank, tüm olası parolaları numaralandırmak yerine, belirli bir parola kombinasyonunun sırasını, verilen paroladan daha olası (yani daha yüksek birleşik olasılığa sahip) olan parola kombinasyonlarının sayısını hesaplayarak tahmin eder. Bu, bir yan kanal saldırısında bir şifreleme anahtarının sırasını tahmin etmeye benzer.

3. Teknik Uygulama & Matematiksel Model

3.1. Temel Algoritma ve Formül

PESrank'ın özü, boyut değerleri vektörü $\vec{x} = (x_1, x_2, ..., x_d)$ ile temsil edilen bir parolanın birleşik olasılığını hesaplamayı içerir. Boyutların bağımsız olduğu varsayılarak (verimlilik için bir basitleştirme), olasılık şu şekildedir: $$P(\vec{x}) = \prod_{i=1}^{d} P_i(x_i)$$ Burada $P_i(x_i)$, i boyutunda $x_i$ değerinin eğitim verilerinden öğrenilen olasılığıdır. $R(\vec{x})$ sırası, $P(\vec{y}) > P(\vec{x})$ olan tüm $\vec{y}$ vektörlerinin olasılıklarını toplayarak tahmin edilir. Yan kanal literatüründen sınırlama yaklaşımı gibi verimli algoritmalar, bu toplam için tam numaralandırma yapmadan sıkı üst ve alt sınırlar hesaplamak için kullanılır.

3.2. Açıklanabilirlik ve Kişiselleştirme

Çok boyutlu model doğal olarak açıklanabilirdir. Sistem, bir parolanın düşük sırasına (yüksek tahmin edilebilirliğine) en önemli katkıyı hangi boyutların (örneğin, "çok yaygın bir temel kelime" veya "'123' gibi tahmin edilebilir bir sonek") yaptığını raporlayabilir. Kişiselleştirme (örneğin, kullanıcının adını veya doğum yılını yasaklı bir temel kelime olarak dahil etme), ilgili boyutlar için $P_i(x_i)$ olasılığını sıfıra yakın bir değere dinamik olarak ayarlayarak, modeli yeniden eğitmeye gerek kalmadan sıra hesaplamalarını anında etkileyerek başarılabilir.

4. Deneysel Sonuçlar & Performans

4.1. Doğruluk ve Hız Kıyaslamaları

Python uygulaması kapsamlı bir şekilde değerlendirildi. Temel sonuçlar şunları içerir:

Hız: 905 milyon parola üzerinde eğitilmiş bir modelle bile, sıralama tahmini için saniyenin altında yanıt süresi.
Doğruluk: Tahmin edilen sıra sınırları, gerçek sıranın 2 katı (1-bit marj) içinde tutarlı bir şekilde kaldı ve yüksek hassasiyet gösterdi.
Eğitim Süresi: Sinir ağı veya karmaşık PCFG modellerinden büyük ölçüde daha kısa, kat kat daha az hesaplama gerektiriyor.

Bu metrikler, çevrimiçi dağıtım için pratik uygulanabilirliği vurgulamaktadır.

4.2. Gerçek Dünya Dağıtımı

PESrank, bir üniversite ders kayıt sayfasına entegre edildi. Parola oluşturan kullanıcılara gerçek zamanlı, açıklanabilir geri bildirim sağladı ve gerçek yük koşulları altında kullanılabilirliğini ve performansını gösterdi. Geri bildirim, kullanıcıların zayıf, tahmin edilebilir parola desenlerinden uzaklaşmasına yardımcı oldu.

5. Analiz Çerçevesi & Örnek Vaka

Analist Perspektifi: Temel İçgörü, Mantıksal Akış, Güçlü & Zayıf Yönler, Uygulanabilir İçgörüler

Temel İçgörü: PESrank, sadece parola ölçerlerde bir başka artımsal iyileştirme değildir; temel bir paradigma değişimidir. Yan kanal sıralama tahmininin titiz, nicel çerçevesini—yüksek riskli kriptografik donanım değerlendirmesinde bir temel—insan seçimli parolaların karmaşık dünyasına başarıyla nakleder. Sezgisel tahminden olasılıksal kriptanalize bu geçiş ustaca bir hamledir. Parola kırmayı dilbilimsel veya desen eşleştirme problemi olarak değil, yapılandırılmış bir olasılık uzayında bir arama problemi olarak ele alır ve Hashcat ve John the Ripper gibi modern kırıcıların mangling kuralları ve Markov zincirleriyle gerçekte nasıl çalıştığıyla mükemmel bir şekilde uyum sağlar.

Mantıksal Akış: Mantık zarif bir şekilde indirgemeci. 1) Parolaları dik, kırıcıyla ilgili özelliklere (temel kelimeler, dönüşümler) ayrıştır. 2) İhlal verilerinden her özellik için basit bir olasılık modeli öğren. 3) Daha olası kaç kombinasyonun var olduğunu hesaplayarak bir parolanın tahmin edilebilirliğini yeniden yapılandır. Bu, sinir ağlarının ([30, 37]'deki gibi) monolitik, opak modellerine veya PCFG'lerin [41] bazen hantal kural kümelerine olan ihtiyacı atlar. Boyutlar arasındaki bağımsızlık varsayımı, temel basitleştirici sıçramasıdır; bazı modelleme doğruluğunu hız ve açıklanabilirlikte büyük kazançlar için takas eder—pratikte oldukça elverişli görünen bir takas.

Güçlü & Zayıf Yönler: Güçlü yönleri etkileyicidir: kavurucu hız ve doğal açıklanabilirlik, akademik modellerin iki en büyük sıkıntı noktasını ele alarak gerçek dünya benimsemesi için öldürücü özelliklerdir. Kişiselleştirme hilesi akıllıca ve pratiktir. Ancak, kritik bir zayıflık bağımsızlık varsayımında yatar. Verimli olmasına rağmen, korelasyonları göz ardı eder (örneğin, belirli büyük harf desenleri belirli temel kelimelerle daha olasıdır). Bu, karmaşık, ilişkili parolalar için sıra yanlışlıklarına yol açabilir. Ayrıca, doğruluğu doğal olarak her boyut için eğitim verilerinin kalitesine ve genişliğine bağlıdır, bu da tüm veri odaklı modellerle paylaştığı bir bağımlılıktır. Geçmiş ihlallerde görülmemiş gerçekten yeni parola oluşturma stratejileriyle mücadele edebilir.

Uygulanabilir İçgörüler: Güvenlik ekipleri için mesaj açıktır: LUDS ölçerlerini bırakın. PESrank, kırıcı-doğru, gerçek zamanlı geri bildirimin artık operasyonel olarak mümkün olduğunu göstermektedir. Gösterilen entegrasyon yolu—bir kayıt portalına gömülmesi—bir taslaktır. Araştırmacılar için gelecek hibrit modellerdedir. PESrank'ın verimli, açıklanabilir çerçevesini, boyutlar arası korelasyonları modellemek için hafif bir sinir ağı bileşeniyle birleştirin, tıpkı CycleGAN gibi görüntü modellerinin farklı alan dönüşümleri için ayrı üreteçler kullanırken uyumlu bir yapıyı koruması gibi. Bir sonraki sınır, statik engelleme listelerinin ötesine geçerek, modelini gerçek zamanlı olarak iyileştirmek için bir kullanıcının *reddedilen* parola önerilerinden öğrenen uyarlanabilir kişiselleştirmedir.

6. Gelecek Uygulamalar & Araştırma Yönleri

Proaktif Tehdit Avcılığı: Kullanıcıya yönelik ölçerlerin ötesinde, PESrank'ın temel algoritması, yüksek tahmin edilebilirliğe sahip hesapları proaktif olarak tanımlamak ve işaretlemek için mevcut parola veritabanlarını (uygun hashleme ile) tarayabilir, böylece zorunlu sıfırlamaları mümkün kılabilir.
Gelişmiş Kişiselleştirme Motorları: Gelecekteki sistemler, çalışan isimleri, proje kod adları ve iç jargonla modeli otomatik olarak kişiselleştirmek için kurumsal dizinlerle (örneğin, LDAP) entegre olabilir, dinamik, kuruma özgü bir tehdit modeli oluşturabilir.
Kıyaslama ve Standardizasyon: Sıralama tahmini yaklaşımı titiz, nicel bir metrik sağlar. Bu, belirsiz "güçlü" veya "zayıf" etiketlerin ötesine geçerek, sektör çapında parola gücü kıyaslama standartlarının temelini oluşturabilir.
Çapraz Model Doğrulama: PESrank, hızlı, açıklanabilir bir "ilk geçiş" filtresi olarak kullanılabilir; şüpheli parolalar daha hesaplama yoğun modeller (örneğin, RNN'ler) tarafından daha derin analiz için işaretlenerek kademeli bir savunma oluşturulabilir.
Boyutlar Arası Bağımlılık Araştırması: Ana araştırma yönü, bağımsızlık varsayımını gevşetmektir. Hafif korelasyon modellerini (örneğin, boyutlar üzerinde Bayes ağları) keşfetmek, temel hız avantajından ödün vermeden karmaşık parolalar için doğruluğu artırabilir.

7. Kaynaklar

L. David ve A. Wool, "Çevrimiçi Parola Tahmin Edilebilirliği: Çok Boyutlu Sıralama Tahmini," arXiv preprint arXiv:1912.02551v2, 2020.
J. Bonneau, "Tahmin Bilimi: 70 Milyon Paroladan Oluşan Anonimleştirilmiş Bir Külliyatın Analizi," IEEE Güvenlik ve Gizlilik Sempozyumu, 2012.
M. Weir, S. Aggarwal, B. de Medeiros ve B. Glodek, "Olasılıksal Bağlamdan Bağımsız Dilbilgisi Kullanarak Parola Kırma," IEEE Güvenlik ve Gizlilik Sempozyumu, 2009.
W. Melicher, B. Ur, S. M. Segreti, S. Komanduri, L. Bauer, N. Christin ve L. F. Cranor, "Hızlı, Hafif ve Doğru: Sinir Ağları Kullanarak Parola Tahmin Edilebilirliğini Modelleme," USENIX Güvenlik Sempozyumu, 2016.
D. Wang, H. Cheng, P. Wang, X. Huang ve G. Jian, "Bal Sözcüklerinin Güvenlik Analizi," NDSS, 2018. (Titiz parola ile ilgili analiz örneği)
P. G. Kelley, S. Komanduri, M. L. Mazurek, R. Shay, T. Vidas, L. Bauer, N. Christin, L. F. Cranor ve J. Lopez, "Tekrar ve Tekrar Tahmin Et: Parola Kırma Algoritmalarını Simüle Ederek Parola Gücünü Ölçme," IEEE Güvenlik ve Gizlilik Sempozyumu, 2012.
Ulusal Standartlar ve Teknoloji Enstitüsü (NIST), "Dijital Kimlik Yönergeleri," NIST Özel Yayın 800-63B, 2017. (Kimlik doğrulama standartları bağlamı için)