Dil Seçin

PassGPT: Büyük Dil Modelleri ile Parola Modelleme ve Yönlendirilmiş Üretim

PassGPT'in analizi: GAN'ları geride bırakan, parola üretimi ve güç tahmini için bir Büyük Dil Modeli (LLM) ve yönlendirilmiş parola oluşturma yeteneği.
computationalcoin.com | PDF Size: 1.8 MB
Değerlendirme: 4.5/5
Değerlendirmeniz
Bu belgeyi zaten değerlendirdiniz
PDF Belge Kapağı - PassGPT: Büyük Dil Modelleri ile Parola Modelleme ve Yönlendirilmiş Üretim

İçindekiler

1. Giriş

Basitlikleri ve kolay uygulanabilirlikleri nedeniyle parolalar, baskın kimlik doğrulama mekanizması olmaya devam etmektedir. Ancak, parola sızıntıları hem saldırılara hem de insan parola oluşturma kalıpları üzerine araştırmalara olanak tanıyarak önemli bir tehdit oluşturmaktadır. Bu makale, Büyük Dil Modellerinin (LLM) parola modellemesine uygulanmasını araştırmakta ve PassGPT'yi tanıtmaktadır. PassGPT, üretim ve güç tahmini için parola sızıntıları üzerinde eğitilmiş bir LLM olup, önceki Üretici Çekişmeli Ağ (GAN) tabanlı yöntemlere kıyasla üstün performans sergilemekte ve yönlendirilmiş üretim gibi yeni yetenekler sunmaktadır.

2. Metodoloji & Mimari

PassGPT, parolaların sıralı, karakter düzeyinde üretimi için uyarlanmış GPT-2 mimarisi üzerine inşa edilmiştir. Bu yaklaşım, parolaları tek, atomik birimler olarak üreten GAN'lardan temel olarak farklıdır.

2.1. PassGPT Model Mimarisi

Model, Transformer kod çözücü mimarisine dayanmaktadır. Parolaları karakter (veya belirteç) dizileri olarak işler ve önceki bağlam verildiğinde sonraki karakterin koşullu olasılığını öğrenir: $P(x_t | x_{PassVQT, üretilen parolaların karmaşıklığını (ve potansiyel olarak çeşitliliğini) artırmak için vektör nicemleme tekniklerini içerir.

2.2. Yönlendirilmiş Parola Üretimi

Önemli bir yenilik, yönlendirilmiş parola üretimidir. Örnekleme prosedürünü manipüle ederek (örneğin, koşullu olasılıklar veya kısıtlı kod çözme kullanarak), PassGPT, standart GAN'larla mümkün olmayan bir görev olan, keyfi kullanıcı tanımlı kısıtlamaları karşılayan parolalar üretebilir (örneğin, "bir rakam ve bir büyük harf içermelidir").

2.3. Eğitim & Veri

Model, güvenlik araştırmalarında yaygın olan çevrimdışı parola tahmini tehdit modeliyle uyumlu olarak, büyük ölçekli parola sızıntıları üzerinde çevrimdışı, denetimsiz bir şekilde eğitilmiştir.

3. Deneysel Sonuçlar & Analiz

3.1. Parola Tahmin Performansı

PassGPT, önceki en gelişmiş derin üretici modellerden (örneğin, GAN'lar) önemli ölçüde daha iyi performans göstermektedir. %20 daha fazla daha önce görülmemiş parolayı tahmin eder ve eğitim sırasında görülmeyen yeni parola veri kümelerine karşı güçlü bir genelleme yeteneği sergiler.

Performans Özeti

Önceki GAN'lara kıyasla görülmemiş parolaları tahmin etmede %20 Artış.

Bazı temel yöntemlere kıyasla 2 Kat Daha Fazla parola tahmin edildi.

3.2. Olasılık Dağılımı & Entropi Analizi

GAN'ların aksine, PassGPT, tüm parola uzayı üzerinde açık bir olasılık dağılımı sağlar. Analizler, PassGPT'in, yerleşik güç tahmin edicileri (zxcvbn gibi) tarafından "güçlü" kabul edilen parolalara daha düşük olasılıklar (daha yüksek şaşkınlık) atadığını, bu da uyumlu olduğunu göstermektedir. Ayrıca, tahmin ediciler tarafından güçlü kabul edilen ancak model altında olasılıksal olarak muhtemel olan parolaları belirleyerek potansiyel zayıflıkları ortaya çıkarır.

3.3. GAN Tabanlı Yaklaşımlarla Karşılaştırma

PassGPT'in sıralı üretimi, GAN'lara göre avantajlar sunar: 1) Açık olasılık dağılımları, 2) Yönlendirilmiş üretim yeteneği, 3) Görülmemiş veriler üzerinde daha iyi performans. Makale, bunu parolalar için tek çıktılı üretimden, kontrol edilebilir, olasılıksal dizi modellemeye bir paradigma değişimi olarak konumlandırmaktadır.

4. Teknik Detaylar & Matematiksel Çerçeve

PassGPT'in temelinde, eğitim verisinin olabilirliğini maksimize eden otoregresif dil modelleme hedefi yatar:

$L(\theta) = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \log P(x_t^{(i)} | x_{

Burada $N$ parola sayısı, $T_i$ $i$ parolasının uzunluğu, $x_t^{(i)}$ $t$-inci karakter ve $\theta$ model parametreleridir. Üretim için örnekleme, çeşitlilik ve kaliteyi dengelemek için top-k veya çekirdek örnekleme gibi yöntemler kullanır. Tam bir parola $S$'nin olasılığı şudur: $P(S) = \prod_{t=1}^{|S|} P(x_t | x_{

5. Temel Kavrayış & Analist Perspektifi

Temel Kavrayış: Makalenin gerçek atılımı sadece daha iyi bir parola kırıcı olması değil; parola oluşturmanın kontrol edilebilir dizi üretimi problemi olarak formalize edilmesidir. Modern NLP'in temel taşı olan sonraki belirteç tahminini parolalara uygulayarak, PassGPT, GAN'ların (örneğin, CycleGAN tarzı görüntü çevirilerindeki gibi) kara kutu, tek seferlik üretiminin ötesine geçerek şeffaf, yönlendirilebilir bir sürece dönüşmektedir. Bu, güvenliği sadece güç tahmininden, parola seçiminin arkasındaki insan sürecini modellemeye yeniden çerçeveler.

Mantıksal Akış: Argüman ikna edicidir: 1) LLM'ler karmaşık, gerçek dünya dağılımlarını (metin) yakalamada üstündür. 2) Parolalar, kısıtlı, insan tarafından üretilmiş bir alt dildir. 3) Dolayısıyla, LLM'ler onları etkili bir şekilde modellemelidir - ki öyle yaparlar, GAN'ları geride bırakırlar. 4) LLM'lerin sıralı doğası, politika farkındalıklı kırma veya proaktif güç testi için bir uygulama olan yönlendirilmiş üretimin kilidini açar. 5) Açık olasılık çıktısı, güvenlik için doğrudan, yorumlanabilir bir metrik sağlayarak üretici saldırılar ve olasılıksal güç tahmin edicileri arasındaki boşluğu kapatır.

Güçlü & Zayıf Yönler: Gücü inkâr edilemez: üstün performans ve yeni işlevsellik. Yönlendirilmiş üretim demosu, hemen pratik fayda gösteren bir ustalık eseridir. Ancak, analiz, ML-for-security makalelerinde yaygın olan kritik bir kusura sahiptir: çift kullanım doğası etrafında dolanır. "Güç tahmin edicilerini geliştirmek"ten bahsederken, birincil gösterilen kullanım saldırgan (tahmin) yönündedir. Etik çerçeve zayıftır. Ayrıca, GAN'ları geride bıraksa da, gelişmiş kurallı Hashcat gibi devasa, kural tabanlı kırma araçlarıyla karşılaştırma daha az nettir. Modelin performansı hala eğitim verisi olan sızıntılarla sınırlıdır ve bu, tüm insan parola davranışını temsil etmeyebilir.

Eyleme Dönüştürülebilir İçgörüler: Savunmacılar için bu bir kıyamet işareti değil, bir seferberlik çağrısıdır. İlk olarak, parola gücü tahmin edicileri, önerildiği gibi, bu tür üretici olasılıkları entegre etmelidir. Zxcvbn gibi araçlar, sadece statik kurallara karşı değil, PassGPT benzeri bir modelin olasılığına karşı parolaları kontrol etmek için güncellenmelidir. İkinci olarak, kırmızı ekipler bu metodolojiyi iç denetimler için derhal benimsemelidir; yönlendirilmiş üretim, belirli parola politikalarına uyumu test etmek için mükemmeldir. Üçüncü olarak, bu araştırma, parolaların ötesine geçme ihtiyacını doğrulamaktadır. Bir LLM onları bu kadar iyi modelleyebiliyorsa, uzun vadeli entropi çöküyordur. FIDO2/WebAuthn ve parola anahtarlarına yatırım daha da acil hale gelmektedir. Sonuç: PassGPT'i bir kırıcı olarak değil, şimdiye kadar inşa edilmiş en doğru insan parola zayıflığı simülatörü olarak ele alın. Rakibiniz yapmadan önce savunmalarınızı düzeltmek için kullanın.

6. Analiz Çerçevesi: Örnek Vaka

Senaryo: Bir şirket politikası, en az bir büyük harf, bir rakam ve bir özel karakter içeren parolalar gerektirmektedir. Geleneksel bir kural tabanlı kırıcı, bozma kuralları kullanabilir. Bir GAN ise sadece uyumlu parolalar üretmekte zorlanır.

PassGPT Yönlendirilmiş Üretim Yaklaşımı:

  1. Kısıt Tanımı: Karakter tipi pozisyonlarını zorlamak için örnekleme süreci için bir maske veya mantık tanımlayın.
  2. Kısıtlı Örnekleme: Her bir karakter $x_t$'nin otoregresif üretimi sırasında, örnekleme dağılımı, kalan politika gereksinimlerini karşılayan kümeden yalnızca karakterlere izin verecek şekilde filtrelenir veya yönlendirilir (örneğin, $t$ pozisyonuna kadar bir rakam üretilmemişse, rakamlar üzerindeki olasılık kütlesini artırın).
  3. Çıktı: Model, hem olasılıksal olarak muhtemel (sızıntılardan öğrenilmiş) hem de politika uyumlu olan "C@t9Lover" veya "F1r3Tr#ck" gibi diziler üretir.
Bu, PassGPT'in politika farkındalıklı güvenlik testi için nasıl kullanılabileceğini, politika kontrolünü geçen en olası zayıf parolaları üreterek politika boşluklarını belirleyerek gösterir.

7. Uygulama Öngörüsü & Gelecek Yönelimler

Kısa vadeli (1-2 yıl):

Orta vadeli (3-5 yıl): Uzun vadeli & Araştırma Sınırları: Makalenin başarısının ima ettiği gibi, nihai yönelim, sezgisel parola kurallarının veri odaklı, olasılıksal güvenlik modelleriyle kademeli olarak değiştirilmesidir.

8. Referanslar

  1. Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545v2.
  2. Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
  3. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
  4. Vaswani, A., et al. (2012017). Attention Is All You Need. Advances in Neural Information Processing Systems.
  5. Melicher, W., et al. (2016). Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks. USENIX Security Symposium.
  6. Weir, M., et al. (2009). Password Cracking Using Probabilistic Context-Free Grammars. IEEE Symposium on Security and Privacy.
  7. FIDO Alliance. (2023). FIDO2/WebAuthn Specifications. Retrieved from https://fidoalliance.org/fido2/.