국내 LLM, 보안성 해외 모델 대비 82%… AI 안전성 평가 첫 공개

숭실대, 20종 모델 대상 최신 공격 57종 적용… 언어·형태별 편차도 분석
“AI 보안은 기술 넘어 국가안보까지”...레드티밍 인프라·전문인력 양성 시급

숭실대 AI안전성연구센터는 국내 LLM의 보안성·안전성이 외산의 82% 수준으로 나타났다. 사진=숭실대 AI안전성연구센터

숭실대 AI안전성연구센터는 국내외 주요 파운데이션 모델(LLM) 20종을 비교한 결과, 국내 모델의 보안성과 안전성이 외산 모델 대비 약 82% 수준에 그치는 것으로 분석됐다. 이번 분석은 13일 열린 ‘국내외 파운데이션 모델 보안성·안전성 평가 분석 세미나’에서 공개됐다. 평가는 과학기술정보통신부·정보통신기획평가원의 ‘정보보호 핵심 원천기술 개발 사업’ 연구과제의 하나로 수행됐다.

연구팀은 1.2B부터 660B 규모까지 다양한 모델을 대상으로 프롬프트 인젝션, 탈옥(Jailbreak), 유해 콘텐츠 생성 유도 등 총 57종의 최신 공격 기법을 적용했다. 평가 모델에는 △SK텔레콤 A.X △LG 엑사원(EXAONE) △카카오 카나나(Kanana) △업스테이지 솔라(Solar) △엔씨소프트 바르코(VARCO) 등 국내 모델, △오픈AI(OpenAI) GPT 시리즈 △딥시크(DeepSeek) R1 △메타(Meta) 라마(LlaMA) △앤스로픽(Anthropic) 클로드(Claude) △알리바바(Alibaba) 큐원(Qwen) 등 해외 주요 모델이 포함됐다. 또 모델을 직접 설치해 실행하는 ‘단독형’과 기업이 제공하는 보안 기능이 포함된 ‘서비스 통합형’을 구분해 평가한 점이 특징이다.

서비스 통합형 평가에서는 앤스로픽 클로드 소네트4(Sonnet4)가 628점으로 가장 높은 보안·안전성을 보였고, 오픈AI GPT-5가 626점으로 뒤를 이었다. 국내 모델 중에서는 J모델이 495점을 기록하며 3순위에 올랐다. 해외 모델 점수 범위는 628~317점(평균 447점), 국내 모델은 495~299점(평균 385점)으로, 국내 모델의 상대적 수준은 약 86%였다.

단독형에서는 오픈AI의 GPT-oss 20B가 487점(700점 만점)으로 가장 안전성이 높았고, 딥시크 7B가 477점으로 뒤를 이었다. 국내 모델 중에서는 C모델이 416점을 기록했다. 해외 모델 평균은 432점, 국내 모델 평균은 350점으로, 국내 모델은 해외 대비 약 81% 수준을 보였다. 두 형태를 종합하면 국내 모델의 외산 모델 대비 상대적 수준은 약 82%로 평가됐다.

국내 모델은 대부분의 공격 유형에서 해외 모델보다 안전성 측면에서 낮았으며, 특정 공격에서는 모델별 편차가 크게 나타났다. 또 해외 모델은 한국어·영어 안전성 차이가 거의 없었으나 국내 모델은 한국어가 상대적으로 더 안전한 경향을 보여 언어적 편차도 확인됐다.

최대선 숭실대 AI안전성연구센터장은 “국내 모델은 보안성 측면에서 해외 모델보다 낮은 수준으로 나타났다”며 “그동안 국내에서는 단순 벤치마크 기반의 안전성 평가에 머물렀고, 높은 기술력이 필요한 보안성 평가는 충분히 이뤄지지 않았던 점이 배경으로 보인다”고 말했다. 최 센터장은 이어 “국내 모델이 세계 시장에서 경쟁력을 확보하기 위해서는 체계적 평가, 지속적 검증, 이에 필요한 기술 확보가 필수”라고 강조했다.

이번 세미나는 총 두 개의 발표 세션으로 구성됐다. 먼저 박소희 AI안전성연구센터 AI위험관리팀 교수는 글로벌 주요 기관들의 AI 안전성 평가 동향을 소개하며, 해외에서는 공격·안전성 벤치마크가 제도적으로 자리 잡고 있다고 설명했다.

이어서 나현식 AI안전성연구센터 AI 신뢰성 제고팀 교수는 국내외 모델 20종의 평가 방법과 보안·안전성 비교 결과를 발표했다.

국내외 LMM 20개의 보안성·안전성 평가 결과. 자료=숭실대 AI안전성연구센터

발표 후에는 이원태 국민대 특임교수(국가인공지능전략위원회 보안TF장)가 좌장을 맡아 산업·법제·안보·기술 전문가들이 참여하는 패널 토론을 진행했다.

먼저 이호진 씨투랩 부대표는 “오픈소스 모델에 대한 공격 연구는 활발하지만, 실제 기업 환경에서 방어 기능이 적용된 모델에 대한 평가가 더 의미 있다”며 “한국어 기반의 공격과 평가가 더 반영되길 바란다”고 말했다.

최광희 법무법인 세종 고문은 “AI 해킹 에이전트가 실제로 취약점을 탐지하고 상시 공격을 수행하는 시대가 됐다”며 “위험도가 높은 오픈소스 모델은 공개·관리 정책이 필요하다”고 밝혔다.

남기혁 AI안전연구소 실장은 “AI 모델의 위험 범위가 매우 넓어 개별 기관이 대응하기 어렵다”며 “레드팀 정보와 위협 데이터를 공유하는 협력체계와 제삼자 검증 구조가 필요하다”고 강조했다.

이화영 사이버안보연구소 소장은 “국가 단위의 복합적 사이버 위협이 정교해지면서 프롬프트 인젝션 같은 구조적 취약점 기반 공격이 더욱 위협적”이라며 “외부 데이터·시스템 권한까지 고려한 평가와 정책 대응이 필요하다”고 말했다.

최대선 센터장은 ‘AI 레드티밍 플레이그라운드’ 구축 필요성을 강조했다. 최 센터장은 “AI는 빠르게 발전하고 위협도 동시에 고도화된다”며 “몇 년마다 나오는 가이드라인이나 연 1회 인증 방식으로는 따라갈 수 없다”고 지적했다. 이어 “최신 공격을 반영, 지속해서 레드티밍을 수행하고 그 결과를 공개·공유하며, 이를 토대로 방어 기술 개발이 선순환하는 체계가 필요하다”고 강조했다. 또 “AI 레드티밍 전문인력 양성도 중요하다”며 “플레이그라운드가 실전형 인재를 키우는 기반이 될 수 있다”고 말했다. 그 사례로 미국 캘리포니아대 버클리(UC 버클리)의 AI 레드티밍 부트캠프를 좋은 사례로 들었다.

좌장을 맡은 이원태 특임교수는 “AI 모델의 보안성과 안전성을 객관적으로 비교·평가한 연구는 국내에서 처음 시도된 것”이라며 “향후 AI 보안 내재화를 위한 정책적·기술적 기반이 될 수 있는 의미 있는 시작점”이라고 설명했다. 이어 “AI 기술이 발전하면서 보안 위협 역시 고도화되고 있어, 이를 체계적으로 평가할 수 있는 인프라와 거버넌스 구축이 시급하다”고 강조했다. 이 특임교수는 “AI 보안은 단순한 기술 이슈가 아니라 산업, 법제, 국가안보까지 아우르는 종합 과제”라며 “보안은 안전의 전제가 되고 안전은 보안을 사회적으로 확산시키는 핵심 요소”라고 덧붙였다.

한편 숭실대 AI안전성연구센터는 최신 공격을 반영한 동적 평가체계 구축, AI 에이전트를 활용한 자동화 레드티밍 기술 개발, 공격·안전성 데이터 공유 플랫폼 구축을 추진한다. 또 평가 대상을 에이전틱 AI(Agentic AI), 멀티모달 모델, 피지컬 AI(Physical AI) 등으로 확장해 국내 AI 모델의 안전성과 신뢰성을 높이는 연구를 이어갈 계획이다.

전체메뉴

과학·기술·정보