1. Giriş

Parolalar, basitlik ve esneklikleri nedeniyle kullanıcı kimlik doğrulamasında en yaygın yöntem olmaya devam etmektedir. Sonuç olarak, parola tahmini hem saldırı güvenliği testleri (örn., sızma testi, parola kurtarma) hem de savunma gücü değerlendirmesi için gerekli olan siber güvenlik araştırmalarının kritik bir bileşenidir. Kural tabanlı sözlüklerden Markov zincirleri ve PCFG gibi istatistiksel modellere kadar geleneksel yöntemler, ölçeklenebilirlik ve uyarlanabilirlik açısından doğal sınırlamalara sahiptir. Derin öğrenmenin, özellikle de otoregresif sinir ağlarının ortaya çıkışı, karmaşık parola dağılımlarını doğrudan veriden öğrenerek bir paradigma değişimi vaat etmiştir. Ancak, önemli bir darboğaz devam etmektedir: standart rastgele örnekleme bu modellerle kullanılan üretim yöntemi oldukça verimsizdir, kopyalar üretir ve herhangi bir optimal sıradan yoksundur, bu da pratik parola saldırılarını büyük ölçüde yavaşlatır. Bu makale, SOPG (Search-Based Ordered Password Generation), olasılığa yaklaşık olarak azalan sırada otoregresif bir modelden şifre üretmek için tasarlanmış yeni bir yöntem olup, sinirsel şifre tahmininin verimliliğinde devrim yaratmaktadır.

2. Background & Related Work

2.1 Geleneksel Şifre Tahmin Yöntemleri

İlk yaklaşımlar sözlük saldırılarına ve manuel olarak hazırlanmış kod çarpıtma kuralları (örn., John the Ripper). Basit olmalarına rağmen, bu yöntemler teorik bir temelden yoksundur ve etkinlikleri büyük ölçüde uzman bilgisine bağlıdır. Büyük ölçekli şifre sızıntılarının (örneğin, 2009'daki RockYou) yaygınlaşması, veri odaklı, olasılıksal yöntemleri mümkün kılmıştır. Markov modelleri (örneğin, OMEN) ve Probabilistic Context-Free Grammar (PCFG) önemli ilerlemeleri temsil etmiş, şifre yapılarını ve olasılıklarını sistematik olarak modellemiştir. Ancak, genellikle aşırı uyum sorunu yaşarlar ve çeşitli, yüksek hacimli, makul şifrelerden oluşan bir küme üretmekte zorlanırlar; bu da kapsama oranlarını sınırlar.

2.2 Sinir Ağı Tabanlı Yaklaşımlar

Derin öğrenme modelleri, Üretici Çekişmeli Ağlar (GAN'lar) PassGAN gibi ve Varyasyonel Otokodlayıcılar (VAE'ler) VAEPass gibi, şifre veri setlerinin temel dağılımını öğrenir. Daha yakın zamanda, otoregresif modeller, özellikle Transformer mimarisine dayananlar (örn., PassGPT), şifreleri dizi olarak modelleyerek ve öncekiler verildiğinde bir sonraki token'ı tahmin ederek üstün performans göstermiştir. Bu modeller uzun menzilli bağımlılıkları daha etkili bir şekilde yakalar. Tüm bu sinirsel yaklaşımlardaki temel kusur, varsayılan olarak kullanılan rastgele örnekleme (örn., çekirdek örnekleme, top-k örnekleme) şifre oluşturma için kullanılmasıdır, ki bu doğası gereği sırasız ve tekrarlayıcıdır.

3. SOPG Yöntemi

3.1 Core Concept & Motivation

SOPG'nin temel içgörüsü, bir parola tahmin saldırısının verimli olabilmesi için oluşturulan parola listesinin tekrar etmeyen ve en olasıdan en az olasıya sıralanmışRastgele örnekleme her iki açıdan da başarısız olur. SOPG, otoregresif modeli sistematik bir arama algoritması için olasılıksal bir rehber olarak ele alarak bu sorunu çözer; bu, bir ışın aramasına benzer ancak tek bir en iyi dizi yerine eksiksiz, sıralı ve benzersiz adaylar kümesi oluşturmak için optimize edilmiştir.

3.2 Search Algorithm & Ordered Generation

SOPG, potansiyel parola uzayında öncelik kuyruğu tabanlı bir arama stratejisi kullanır. Bir başlangıç simgesinden (örneğin, dizi başlangıcı) başlar ve kısmi parolaları yinelemeli olarak genişletir. Her adımda, bir sonraki olası karakter için olasılıkları tahmin etmek üzere sinir ağını kullanır. Rastgele örnekleme yapmak yerine, dalları stratejik olarak keşfeder ve en yüksek olasılıklı tam parolalara yol açan genişletmelere öncelik verir. Bu süreç, parolaları neredeyse optimal bir sırayla sistematik olarak numaralandırarak, modelin olasılık dağılımının rehberli bir geçişini etkin bir şekilde gerçekleştirir.

3.3 SOPGesGPT Model Mimarisi

Yazarlar yöntemlerini SOPGesGPT, GPT (Generative Pre-trained Transformer) mimarisine dayalı oluşturulmuş bir şifre tahmin modelidir. Model, şifre token'larının ortak olasılık dağılımı $P(x_1, x_2, ..., x_T)$'yi öğrenmek için gerçek şifre sızıntıları üzerinde eğitilmiştir. GPT'nin otoregresif doğası, $P(x_t | x_{

4. Technical Details & Mathematical Formulation

Bir şifrenin $\mathbf{x} = (x_1, x_2, ..., x_T)$ olasılığını şu şekilde tanımlayan bir otoregresif model verildiğinde:

Algoritma, her düğümün kısmi bir parola olduğu bir ağacı aramak olarak kavramsallaştırılabilir. Bir öncelik kuyruğu, düğümleri yönetir ve bunlar, o düğümden türeyen herhangi bir tam parolanın olasılığının bir üst sınır tahmini ile sıralanır. Bu tahmin, modelin koşullu olasılıklarından türetilir. Algoritma, en yüksek üst sınırı olan düğümü tekrar tekrar çıkarır, onu bir token ile genişletir (alt düğümler oluşturur), yeni üst sınır tahminlerini hesaplar ve bunları kuyruğa geri ekler. Bir yaprak düğüm (tam bir parola) çıkarıldığında, sıralı listedeki bir sonraki parola olarak çıktı verilir. Bu, olasılık uzayında en iyi öncelikli aramayı sağlar. üst sınır tahmini o düğümden türeyen herhangi bir tam parolanın olasılığının. Bu tahmin, modelin koşullu olasılıklarından türetilir. Algoritma, en yüksek üst sınırı olan düğümü tekrar tekrar çıkarır, onu bir token ile genişletir (alt düğümler oluşturur), yeni üst sınır tahminlerini hesaplar ve bunları kuyruğa geri ekler. Bir yaprak düğüm (tam bir parola) çıkarıldığında, sıralı listedeki bir sonraki parola olarak çıktı verilir. Bu, olasılık uzayında en iyi öncelikli aramayı sağlar.

5. Experimental Results & Analysis

Kapsama Oranı

35.06%

SOPGesGPT'nin test setindeki performansı

PassGPT'ye göre iyileştirme

%81

Daha Yüksek Kapsama Oranı

Inference Efficiency

Çok Daha Az

Gereken Parolalar vs. Rastgele Örnekleme

5.1 Rastgele Örnekleme ile Karşılaştırma

Makale, öncelikle SOPG'nin aynı temel GPT modeli üzerinde rastgele örneklemeye kıyasla temel avantajını göstermektedir. Aynı kapsama oranına (test edilen şifrelerin kırılma yüzdesi) ulaşmak için SOPG'nin gerektirdiği Üretilen parolaların büyüklük mertebeleri daha az ve model çıkarımları. Bunun nedeni, SOPG tarafından üretilen her parolanın benzersiz ve yüksek olasılıklı olmasıdır, oysa rastgele örnekleme, hesaplamaları yinelemeler ve düşük olasılıklı tahminler üzerinde boşa harcar. Bu doğrudan daha hızlı saldırı sürelerine ve daha düşük hesaplama maliyetine dönüşür.

5.2 En İyi Tekniklere Karşı Kıyaslama

Tek bir site testinde, SOPGesGPT, önemli kıyaslamalarla karşılaştırılmıştır: OMEN (Markov), FLA, PassGAN (GAN), VAEPass (VAE) ve güncel PassGPT (Rastgele örneklemeli Transformer). Sonuçlar kesindir. SOPGesGPT, karşılaştırmalarda belirleyici bir üstünlük sağlamıştır. %35.06'lık bir kapsama oranına ulaşmıştır., bu oranla PassGPT'yi %81, VAEPass'ı %380, PassGAN'ı %421, FLA'yı %298 ve OMEN'i %254 oranında geride bırakmıştır. Bu, yeni bir en ileri seviye (state-of-the-art) belirleyerek, üretim yönteminin (SOPG) kadar kritiktir model mimarisi.

5.3 Temel Performans Metrikleri

Etkin Oran: Üretilen şifrelerin gerçek (test setindeki bir şifreyle eşleşen) olma oranı. SOPGesGPT bu metrikte de öndedir, bu da yalnızca daha fazla değil, aynı zamanda daha kaliteli şifreler ürettiğini gösterir. tahminler.
Üretim Verimliliği: Belirli bir yüzdedeki şifreyi kırmak için gereken model çağrısı/çıkarım sayısıyla ölçülür. SOPG'nin sıralı yaklaşımı, çok az çıkarımla birçok şifreyi kıran dik bir verimlilik eğrisi sağlar.
Grafik Açıklaması: Varsayımsal bir grafik iki çizgi gösterecektir: Biri, yavaş ve asimptotik olarak yükselen, uzun bir kuyrukta tekrarlar içeren "Rastgele Örnekleme Kapsamı vs. Oluşturulan #Şifreler" çizgisi. "SOPG Kapsamı vs. Oluşturulan #Şifreler" çizgisi ise başlangıçta keskin ve neredeyse doğrusal bir şekilde yükselecek, daha sonra bir plato oluşturacak ve neredeyse optimal tahmin sırasını gösterecektir.

6. Analysis Framework & Case Example

Çerçeve: Parola Tahmin Etme Verimliliği Dörtgeni. Herhangi bir parola tahmin sistemini iki eksende analiz edebiliriz: (1) Model Kalitesi (gerçek şifre dağılımını öğrenme yeteneği) ve (2) Üretim Optimalliği (israf olmadan tahminleri azalan olasılık sırasına göre çıktılama yeteneği).

  • Kadran I (Düşük Model, Düşük Optimallik): Geleneksel kural tabanlı saldırılar.
  • Kadran II (Yüksek Model, Düşük Optimallik): PassGPT, PassGAN – rastgele örnekleme ile engellenen güçlü modeller.
  • Quadrant III (Düşük Model, Yüksek Optimallik): Ordered Markov/PCFG – sınırlı modeller ancak verimli üretim.
  • Quadrant IV (Yüksek Model, Yüksek Optimallik): SOPGesGPT – hedef durum, yüksek kapasiteli bir sinirsel modeli SOPG optimal üretim algoritmasıyla birleştirir.

Örnek Vaka (Kodsuz): "password123" şifresinin olasılığının $10^{-3}$, "xq7!kLp2" şifresinin olasılığının ise $10^{-9}$ olduğunu bilen bir model düşünün. Rastgele bir örnekleyici "password123" şifresini bulmak için milyonlarca tahminde bulunabilir. SOPG ise arama algoritmasını kullanarak "password123" şifresini ilk tahminlerinden biri olarak belirler ve çıktılar, böylece kapsama hemen katkıda bulunur. Bu sıralı hedefleme, dramatik verimlilik artışının kaynağıdır.

7. Application Outlook & Future Directions

Proaktif Parola Gücü Denetleyicileri: SOPG, sadece sözlük kontrolü yapmak yerine, en gelişmiş ve verimli bir saldırıyı simüle ederek kullanıcılara daha gerçekçi bir risk değerlendirmesi sunan yeni nesil gerçek zamanlı parola gücü ölçerlerine güç sağlayabilir.
Digital Forensics & Lawful Recovery: El konulan cihazlarda yetkili soruşturmalar için şifre kurtarmayı hızlandırma.
Kimlik Doğrulama Sistemleri için Çekişmeli Eğitim: SOPG tarafından oluşturulan listeleri kullanarak kimlik doğrulama sistemlerini akıllı saldırılara karşı stres testine tabi tutmak ve güçlendirmek.
Gelecekteki Araştırma Yönleri:

  • Hibrit Modeller: SOPG'nin sıralı üretimini, şifreler için diğer üretken mimarilerle (örneğin, difüzyon modelleri) birleştirmek.
  • Uyarlanabilir/Çevrimiçi SOPG: Hedef sistemden gelen geri bildirimlere (örneğin, hız sınırlama yanıtları) dayanarak aramayı gerçek zamanlı olarak değiştirmek.
  • Şifrelerin Ötesinde: Sıralı üretim paradigmasının, olası kimlik avı URL'leri veya kötü amaçlı yazılım varyantları oluşturma gibi diğer güvenlik alanlarına uygulanması.
  • Savunma Karşı Önlemleri: Sıralı üretim stratejilerini kullanan saldırıları tespit etme ve hafifletme üzerine araştırma.

8. References

  1. J. Bonneau, "Tahmin Bilimi: 70 Milyon Şifreden Oluşan Anonimleştirilmiş Bir Külliyatın Analizi," IEEE Symposium on Security and Privacy, 2012.
  2. M. Weir, S. Aggarwal, B. de Medeiros ve B. Glodek, "Olasılıksal Bağlamdan Bağımsız Dilbilgisi Kullanarak Parola Kırma," IEEE Symposium on Security and Privacy, 2009.
  3. A. Radford, K. Narasimhan, T. Salimans ve I. Sutskever, "Üretken Ön Eğitim ile Dil Anlayışını Geliştirme," OpenAI, 2018. (GPT temel makalesi)
  4. B. Hitaj, P. Gasti, G. Ateniese ve F. Perez-Cruz, "PassGAN: Bir Parola Tahmin Yaklaşımı için Derin Öğrenme," Uygulamalı Kriptografi ve Ağ Güvenliği Uluslararası Konferansı (ACNS), 2019.
  5. D. Pasquini, G. Ateniese ve M. Bernaschi, "Kaplanı Serbest Bırakmak: Bölünmüş Öğrenme Üzerinde Çıkarım Saldırıları," ACM SIGSAC Conference on Computer and Communications Security (CCS), 2021. (Şifre çıkarımı tartışmasını içerir).
  6. M. J. H. Almeida, Computers & Security, 2023.

9. Original Analysis & Expert Commentary

Core Insight

Makalenin atılımı yeni bir sinir mimarisi değil, sorunun temelden yeniden çerçevelenmesidir. Yıllardır, şifre tahmin topluluğu, Doğal Dil İşleme alanındaki eğilimleri yansıtarak, daha büyük, daha iyi yoğunluk tahmin edicileri (GPT kısmı) inşa etmeye takıntılıydı. SOPG, kırma gibi aşağı akış görevi için, Kod çözme stratejisi son derece önemlidirBu, bir mayın tarlasının mükemmel bir haritasına (model) sahip olmakla, hiçbir adımı boşa harcamadan onu nasıl geçeceğini bilmek (SOPG) arasındaki farktır. Bu, araştırma önceliğini saf model kapasitesinden verimli çıkarım algoritmalarına Bu modellerin üzerine—diğer üretken yapay zeka alanlarının daha önce öğrendiği bir ders (örn., makine çevirisinde ışın araması).

Mantıksal Akış

Argüman ikna edicidir: 1) Parola saldırı verimliliği, isabet oranına karşı tahmin sayısı eğrisi ile tanımlanır. 2) Otoregresif modeller, token başına olasılıklar verir. 3) Bu dağılımdan rastgele örnekleme, sıralı bir tahmin listesi oluşturmak için oldukça yetersizdir. 4) Bu nedenle, modeli bir kahin gibi kullanarak en olası dizileri açıkça ilk önce inşa eden bir arama algoritmasına ihtiyacımız var. (3) numaralı sorunu tanımaktan (4) numaralı mühendislik çözümüne sıçrama, yeniliğin yattığı yerdir. Klasik bilgisayar bilimi arama algoritmalarına (A*, ışın) bağlantı açıktır, ancak bunun parolaların geniş, yapılandırılmış çıktı alanına uyarlanması önemsiz değildir.

Strengths & Flaws

Güçlü Yönler: Ampirik sonuçlar çarpıcıdır ve SOPG'nin standart çevrimdışı, tek siteli değerlendirmedeki üstünlüğü hakkında şüpheye çok az yer bırakmaktadır. Verimlilik argümanı teorik olarak sağlamdır ve pratikte doğrulanmıştır. Bu, yalnızca onların GPT uygulamasına değil, herhangi bir otoregresif modele uygulanabilen genel bir yöntemdir.
Flaws & Questions: Değerlendirme etkileyici olsa da, hâlâ bir laboratuvar ortamında yapılmıştır. Gerçek dünya saldırıları, uyarlanabilir savunmalarla (oran sınırlama, hesap kilitleme, honeywords) karşılaşır ve makale, SOPG'nin bu senaryolardaki dayanıklılığını test etmemektedir. Arama algoritmasının kendisinin oluşturulan her şifre başına hesaplama yükü, tek bir rastgele örneklemden muhtemelen daha yüksektir, ancak genel verimlilik kazancı net olarak pozitiftir. Ayrıca, odadaki etik fil var: Yazarlar bunu savunma amaçlı kullanım için konumlandırsa da, bu araç yüksek verimlilikli saldırılar için engeli önemli ölçüde düşürmektedir. Alan, tıpkı CycleGAN veya büyük dil modelleri.

Eyleme Dönüştürülebilir İçgörüler

İçin Güvenlik Uzmanları: Bu makale bir uyarı niteliğindedir. Parola politikaları, basit sözlük kelimelerini engellemenin ötesine geçerek evrilmelidir. Savunmacılar, artık yeni kıstas haline gelen SOPG benzeri sıralı saldırılara karşı sistemlerini stres testine tabi tutmaya başlamalıdır. Have I Been Pwned veya zxcvbn gibi araçların, daha gerçekçi güç tahmini için bu gelişmiş üretim tekniklerini dahil etmesi gerekmektedir.
İçin Araştırmacılar: Bayrak devredildi. Bir sonraki sınır artık sadece model değil, aynı zamanda uyarlanabilir ve sorgu-verimli üretim. Kısmi saldırı geri bildirimlerinden öğrenen modeller oluşturabilir miyiz? Sıralı üretimi tespit eden ve karıştıran savunma modelleri geliştirebilir miyiz? Ayrıca, NIST Dijital kimlik yönergelerinde, uzun vadeli çözüm parolaların ötesine geçmekte yatmaktadır. Bu araştırma, aynı anda parola kırmanın zirvesini vurgularken, onun doğasında bulunan sınırlamaların altını çizerek bizi parolasız kimlik doğrulamaya yönlendiriyor. SOPG, hem parola tahmini için ustaca bir son hamle hem de onun emekliye ayrılması için güçlü bir argümandır.