PassGPT: 대규모 언어 모델을 활용한 비밀번호 모델링 및 유도 생성

1. 서론

인증 기술의 발전에도 불구하고, 비밀번호는 그 단순성과 배포 용이성으로 인해 여전히 지배적인 메커니즘으로 남아 있습니다. 비밀번호 유출은 무단 접근과 크래킹 도구의 정교화를 가능하게 하여 심각한 보안 위협을 초래합니다. 본 논문은 대규모 언어 모델(LLM)을 비밀번호 모델링에 적용하는 방법을 조사하며, 생성 및 강도 추정을 위해 비밀번호 유출 데이터로 훈련된 PassGPT 모델을 소개합니다.

본 연구는 PassGPT가 기존 생성적 적대 신경망(GAN) 기반 방법보다 이전에 보지 못한 비밀번호를 20% 더 많이 추측하여 성능을 능가하며, 임의의 제약 조건 하에서 비밀번호를 생성하는 새로운 기능인 유도 비밀번호 생성을 도입함을 보여줍니다.

2. 방법론 및 아키텍처

PassGPT는 GPT-2 아키텍처를 기반으로 하며, 비밀번호 문자를 순차적으로 생성하도록 조정되었습니다. 이 접근 방식은 비밀번호를 완전한 단위로 생성하는 GAN과 대조됩니다.

2.1. PassGPT 모델 설계

이 모델은 대규모 비밀번호 유출 데이터로 훈련된 자기회귀 트랜스포머입니다. 이 모델은 이전 시퀀스 $x_{

2.2. 유도 비밀번호 생성

핵심 혁신은 문자 수준의 유도 생성입니다. 샘플링 절차를 조작함으로써(예: 조건부 확률 사용 또는 마스킹), PassGPT는 특정 기호 포함, 길이 요구사항 충족 또는 특정 부분 문자열 포함과 같은 구체적인 제약 조건을 만족하는 비밀번호를 생성할 수 있습니다. 이는 표준 GAN으로는 달성할 수 없는 업적입니다.

2.3. PassVQT 개선

PassVQT는 벡터 양자화 트랜스포머(VQT) 기술을 통합하여, 이산 코드북을 사용하여 잠재 임베딩을 표현합니다. 이는 생성된 비밀번호의 복잡성과 다양성을 증가시킬 수 있지만, 계산 비용이 따를 수 있습니다.

3. 실험 결과

3.1. 비밀번호 추측 성능

실제 비밀번호 유출 데이터(예: RockYou)에 대한 실험은 PassGPT가 PassGAN과 같은 기존 최첨단 딥 생성 모델을 크게 능가함을 보여줍니다. 한 테스트에서 PassGPT는 GAN 기반 접근법에 비해 이전에 보지 못한 고유 비밀번호를 두 배 더 많이 추측했습니다. 또한 새로운, 훈련 중 보지 못한 데이터셋에 대한 강력한 일반화 능력을 보여주었습니다.

성능 비교

PassGPT 대 GAN: 보지 못한 비밀번호 추측에서 20% 더 높은 성공률.

일반화: 훈련 중 보지 못한 새로운 비밀번호 유출 데이터에서도 효과적인 성능.

3.2. 확률 분포 분석

GAN과 달리, PassGPT는 비밀번호에 대한 명시적인 확률 분포를 제공합니다. 분석 결과, 낮은 비밀번호 확률(높은 음의 로그 가능도)과 zxcvbn과 같은 추정기로 측정된 높은 강도 사이에 강한 상관관계가 있음을 보여줍니다. 그러나 PassGPT는 기존 추정기에서 "강력하다"고 판단된 비밀번호가 해당 모델 하에서 상대적으로 높은 확률을 가진 사례를 식별하여 잠재적 취약점을 나타냈습니다.

차트 함의: 가상의 산점도는 x축에 비밀번호 확률(PassGPT), y축에 강도 점수(zxcvbn)를 표시하여 일반적인 음의 추세를 보여주지만, 높은 강도의 비밀번호가 예상치 못하게 높은 확률을 가지는 주목할 만한 이상치도 드러낼 것입니다.

4. 기술 분석 및 프레임워크

산업 분석가 관점: PassGPT 접근법, 그 함의 및 실질적인 시사점에 대한 비판적 평가.

4.1. 핵심 통찰

본 논문의 근본적인 돌파구는 단순히 비밀번호를 위한 또 다른 AI 모델이 아닙니다. 이는 판별적 패턴 매칭에서 생성적 시퀀스 모델링으로의 패러다임 전환입니다. Hashcat과 같은 도구가 규칙과 마르코프 체인에 의존하고, PassGAN과 같은 GAN이 전체적인 출력을 생성하는 반면, PassGPT는 비밀번호 생성을 언어적 행위로 취급합니다. 이는 GPT-3와 같은 LLM이 자연어의 "문법"과 "의미론"을 포착하는 방식과 유사하지만, 여기서는 인간의 비밀번호 생성이라는 "언어"에 적용됩니다. 진정한 가치 제안은 제공하는 명시적이고 추적 가능한 확률 분포입니다. 이는 GAN에서 두드러지게 부족한 기능으로, GAN은 종종 "블랙박스"로 비판받습니다(Goodfellow 외, 2014). 이는 비밀번호 보안을 경험적 추측에서 확률적 추론으로 이동시킵니다.

4.2. 논리적 흐름

주장은 설득력 있는 논리로 진행됩니다: (1) LLM은 시퀀스를 모델링함으로써 NLP를 지배합니다; (2) 비밀번호는 잠재 구조를 가진 문자 시퀀스입니다; (3) 따라서, LLM은 비밀번호를 효과적으로 모델링해야 합니다. 검증은 강력합니다: 우수한 추측 성능이 전제를 증명합니다. 유도 생성의 도입은 CTRL(Keskar 외, 2019)과 같은 모델에서의 제어된 텍스트 생성과 유사하게, 순차적 아키텍처의 자연스러운 확장입니다. 확률 분포 분석은 생성 모델링을 다시 강도 추정의 실용적 영역으로 연결하는 중요한 다음 단계입니다. 모델링 -> 생성 -> 분석 -> 응용으로의 흐름은 일관되고 영향력이 있습니다.

4.3. 강점 및 한계

강점: 성능 향상은 부인할 수 없습니다. 유도 생성 기능은 침투 테스트(규칙을 준수하는 비밀번호 후보 생성)에 즉시 응용 가능하며, 사용자가 기억하기 쉽지만 복잡한 비밀번호를 생성하는 데 도움을 줄 수 있는 진정한 혁신입니다. 확률 분포를 제공하는 것은 엔트로피 계산 및 기존 보안 프레임워크와의 통합을 가능하게 하는 주요 이론적, 실질적 장점입니다.

한계 및 우려사항: 본 논문은 중요한 문제들을 간과하고 있습니다. 첫째, 윤리적 이중 사용: 이것은 강력한 크래킹 도구입니다. "오프라인 추측" 연구를 위해 위치지어졌지만, 오용 가능성이 높으며, 코드/모델의 공개는 다른 이중 사용 AI 연구를 둘러싼 논쟁과 유사하게 엄격한 윤리 지침을 요구합니다(Brundage 외, 2018). 둘째, 데이터 의존성: 모든 ML 모델과 마찬가지로, PassGPT는 훈련 데이터만큼만 좋습니다. 일반적인 유출 데이터에서 과소 대표된 문화나 언어의 비밀번호를 모델링하는 데 실패할 수 있습니다. 셋째, 계산 비용: 대형 트랜스포머를 훈련하고 실행하는 것은 일부 오래된 방법에 비해 자원 집약적이어서 실시간 응용을 제한할 수 있습니다. PassVQT 변형의 증가된 "복잡성"은 언급되었지만 철저히 평가되지는 않았습니다. 더 높은 다양성이 더 효과적인 추측으로 이어지는가, 아니면 단지 더 많은 무의미한 문자열을 생성하는가?

4.4. 실행 가능한 통찰

보안 팀을 위해: 귀사의 비밀번호 정책이 이 새로운 세대의 AI 기반 공격에 어떻게 취약할 수 있는지 즉시 평가하십시오. 복잡하지만 예측 가능한 패턴(예: "회사명2024!")을 강제하는 정책은 이제 더 노출되었습니다. 진정한 무작위성(비밀번호 관리자)이나 패스프레이즈 사용으로의 전환을 주장하십시오.

연구자 및 공급업체를 위해: LLM 기반 확률 추정을 강도 측정기에 통합하십시오. 기존 규칙(zxcvbn)과 PassGPT의 가능도를 결합한 하이브리드 추정기가 더 강력할 수 있습니다. PassGPT에 의해 생성될 가능성이 높은 비밀번호를 탐지할 수 있는 방어 모델을 개발하여 비밀번호 보안에서 AI 대 AI 군비 경쟁을 창출하십시오.

정책 입안자를 위해: 이 기술의 방어적 응용에 대한 연구에 자금을 지원하고, 사이버 보안에서 강력한 공격적 AI 도구의 출판을 위한 명확한 윤리적 프레임워크를 수립하십시오.

프레임워크 예시(비코드): 금융 기관의 비밀번호 정책을 고려해 보십시오: "12자, 대문자 1개, 소문자 1개, 숫자 1개, 특수문자 1개." 전통적인 크래킹 도구는 무차별 대입 공격이나 변형 규칙을 사용할 수 있습니다. GAN은 모든 제약 조건을 엄격히 충족하는 출력을 생성하는 데 어려움을 겪을 수 있습니다. PassGPT의 유도 생성은 이 정확한 정책을 충족하는 시퀀스만 샘플링하도록 지시될 수 있어, 제한된 검색 공간의 고확률 부분 공간을 효율적으로 탐색함으로써, 이 정책을 테스트하는 레드 팀과 블랙박스 공격자 모두에게 강력한 도구가 됩니다.

5. 향후 응용 및 방향

향상된 강도 추정: 웹사이트 및 애플리케이션을 위한 실시간 비밀번호 강도 측정기에 PassGPT의 확률 점수 통합.
선제적 비밀번호 감사: 조직은 유도 PassGPT 모델을 사용하여 내부 정책을 준수하는 비밀번호를 선제적으로 생성 및 테스트하여 공격자보다 먼저 취약점을 식별할 수 있습니다.
하이브리드 방어 모델: 사람이 선택한 비밀번호와 LLM이 생성한 비밀번호를 구별하여 잠재적으로 손상되었거나 약한 자격 증명을 표시할 수 있는 판별 모델 개발.
크로스 도메인 시퀀스 모델링: 네트워크 프로토콜 지문, 악성코드 API 호출 시퀀스 또는 사기 거래 패턴과 같은 다른 보안 관련 시퀀스에 동일한 아키텍처 적용.
연합 및 프라이버시 보존 훈련: 민감한 유출 데이터를 중앙 집중화하지 않고 분산된 익명화된 비밀번호 데이터에서 이러한 모델을 훈련하는 기술 탐구.
적대적 비밀번호 생성: 유도 생성을 사용하여 추정기에는 강력해 보이지만 모델에 의해 쉽게 추측될 수 있는 "적대적 예시"를 생성하여 해당 추정기를 스트레스 테스트하고 개선.

6. 참고문헌

Rando, J., Perez-Cruz, F., & Hitaj, B. (2023). PassGPT: Password Modeling and (Guided) Generation with Large Language Models. arXiv preprint arXiv:2306.01545.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). PassGAN: A Deep Learning Approach for Password Guessing. In Applied Cryptography and Network Security.
Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
Brundage, M., Avin, S., Clark, J., Toner, H., Eckersley, P., Garfinkel, B., ... & Amodei, D. (2018). The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228.
Wheeler, D. L. (2016). zxcvbn: Low-budget password strength estimation. In USENIX Security Symposium.