과학기술정보통신부가 방송통신위원회, 소방청과 함께 지난 10월 15일 SKC&C 데이터센터 화재로 인해 발생한 네이버 및 카카오 등의 서비스 장애에 대해 조사한 결과에 대해 6일 발표했다.
과기부는 “판교 데이터 센터 화재의 경우 배터리 온도 등을 감시하는 시스템을 갖추고 있었으나 화재 발생 직전까지 화재에 대한 이상징후가 나타난 바는 없었다“며 ”화재 발생 후 가스소화장비가 작동했으나 가스 소화가 어려운 리튬이온 배터리 화재의 특성 상 초기 진압에 한계가 있었다“고 밝혔다.
또한 “리튬이온배터리가 일부 무정전 전원장치와 물리적으로 완벽히 분리되지 않은 공간에 배치돼 있어 화재 열기 등으로 무정전 전원장치가 작동 중지됐고, 일부 전원 공급도 중단됐다”며 “각 무정전 전원장치 집단이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계가 갖춰졌으나 화재 등으로특정 공간의 무정전 전원장치에 동시에 발생할 시 그 무정전 전원장치들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조였다”고 설명했다.
그러면서 “배터리 상단에 포설돼 있던 전력선이 화재로 인해 손상됐고 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단했다”며 “살수가 필요한 상황에서 그로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치가 이뤄지지 못했다”고 밝혔다.
과기부는 데이터 센터의 화재 대응에 대해 “(일반적인)화재 대비 지침은 있었으나 살수 상황, 발화구역 등 실제 화재 상황 수준까지 반영한 세부 대응계획 및 모의훈련은 없었다”고 덧붙였다.
과기부에 따르면 카카오의 경우 계열사들의 주요 서비스의 장애는 최대 127시간 33분까지 지속됐고 네이버의 경우 최대 12시간 내 정상화가 이뤄졌다고 밝혔다.
카카오의 경우 서비스 기능을 ▲애플리케이션 ▲서비스 플랫폼 ▲운영 및 관리도구 ▲데이터베이스 ▲기반시설 설비 레이어 등 5개 레이어로 구분해 판교 데이터센터와 기타 센터 간 동작-대기 체계(active-standby, 동작 서버가 작동 불능 시 대기 서버를 통해 서비스를 제공하는 방식)로 이중화 했으나 이번 사고 시 대기 시스템이 제대로 동작하지 못했다고 지적했다.
카카오는 ▲대기 서버를 동작서버로 만들기 위한 권한관리 기능인 ‘운영 및 관리도구’가 판교 데이터센터 내에서만 이중화돼있을 뿐 타 데이터센터에 이중화 돼있지 않았다는 점 ▲애플리케이션 및 서비스 플랫폼 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성요소가 데이터센터 간 이중화가 돼있지 않았다는 점 등으로 인해 판교 데이터센터의 동작서버 작동 불능 시 서비스 장애 복구가 지연됐다는 것이 과기부의 설명이다.
과기부는 “카카오톡, 다음 등 카카오의 서비스 대부분의 핵심 기능이 판교 데이터센터에 집중돼 화재 사고 시 카카오 대부분 서비스가 즉각 영향받았다”며 “특히 여러 서비스의 구동 초기단계부터 필요한 ‘카카오 인증’과 같은 여러 서비스 전반에 광범위한 영향을 미친 영향이 됐다”고 설명했다.
카카오는 장애 탐지·전파·복구 전반에 걸쳐 정의하고 있으나 사내 전파 수단 준비 미흡, 이용자 공지채널의 낮은 접근성 등 각 단계별 체계화 및 자동화가 미흡했다는 지적을 받았다.
일부 서버, 연결망 등 오류에 대비한 재난 대비 훈련 등 조치는 했으나 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대한 대비가 부족했다는 설명이다.
네이버의 경우 데이터센터 간 이중화 조치를 해 서비스 중단은 없었으나 타 데이터센터로 서비스를 전환하는 과정 등에서 ▲쇼핑 상품 리뷰 미노출 ▲뉴스 일부 기사 댓글 이용 불가 현상 ▲파파고 발음듣기 기능 오류 등 일부 기능에 오류가 발생했다.
이에 대해선 대부분 다른 기능에 비해 상대적으로 낮은 복구 우선순위, 복구하는 데이터의 무결성 확인 등으로 인해 복구에 시간이 소요됐다는 것이 과기부의 설명이다.
과기부는 화재 및 서비스 장애로 인한 국민이 입은 피해의 신속한 복구 및 재발 방지를 위해 각 사업자의 선제적인 조치 이행이 필요하다며 SKC&C와 카카오, 네이버 3사에 화재 및 서비스장애의 주요 원인에 대한 개선조치 및 향후 조치게획 수립을 요구하고 방송통신재난대책본부에 1개월 이내로 보고하도록 행정지도를 추진할 계획이다.
과기부는 SKC&C에 ▲배터리 감시시스템 계측정보 등 관리 강화 방안 및 현 배터리 감시 시스템 외 다양한 화재감지 시스템 구축방안 수립 ▲리튬이온 배터리 화재 시 필요한 소화설비 등 구축 혹은 불가능할 시 대안 마련 ▲배터리와 기타 전기설비 간 물리적 공간 분리 ▲배터리실 내 위치한 전력선 재비치를 통한 구조적 안전성 확보 혹은 대안조치 강구 ▲화재 등 재난 발생 시 해당 구역의 전력을 개별 차단할 수 있는 방안 마련 ▲재난현장에 직접 진입하지 않고도 해당구역 전력 차단 등 조치를 할 수 있도록 다양한 방안 수립 ▲현실적인 재난대응 각본 개발 및 세부 훈련 계획 수립 및 모의훈련 실시 후 결과보고 등을 요구했다.
카카오는 ▲카카오 서비스 장애 복구 지연의 핵심 원인인 ‘운영 및 관리도구’의 데이터센터 간 동작-동작(active-active) 등 매우 높은 수준의 다중화 적용 ▲핵심기능의 우선순위, 중요도 등을 고려한 현재보다 높은 수준의 분산 및 다중화 적용 방안 수립 ▲데이터센터 전소, 연결망 마비 등 최악의 상횡 대비한 훈련 계획 수립 및 모의훈련 실시 후 보고 ▲신속한 장애복구를 위한 서비스별 복구목표 설정 및 상시 대응조직 구성, 장애 각본별 복구방안 수립 ▲장애 탐지-전파-복구 전 단계의 복구체계 재점검해 자동화 요소 발굴 등 개선밤안 수립 ▲서비스 장애 발생 시 다양한 방식으로 신속히 이용자에게 고지할 수 있는 체계구축 ▲이번 장애와 관련된 국민 피해를 구제하기 위한 원칙 및 기준 설정 및 보상계획 수립 등을 요구받았다.
네이버에는 ▲보다 철저한 장애 예방과 신속복구를 위한 서비스별 복구 목표, 장애 각본별 복구방안 등의 재점검 및 개선방안 마련 ▲주 데이터센터 전소 등 상황 가정한 모의훈련 실시 후 보고 등을 요구했다.
이종호 과기부 장관은 “데이터센터와 디지털서비스 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 끼치는 만큼 이번사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해복구 및 재발 예방에 최선의 노력을 다함으로써 디지털 서비스에 대한 국민 신뢰를 다시 화복할 수 있길 바란다”며 “정부는 이번 사고를 계기로 주요 디지털 서비스에 대한 재난대응 체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도개선 등을 종합해 디지털 시대에 맞는 안정성 강화 방안을 마련함으로써 끊김없는 디지털 서비스를 제공할 수 있는 확고한 디지털 위기 관리 체계를 구축해나가겠다”고 말했다.
과기부는 1개월 후 3사가 제출한 조치결과 및 향후 조치 계획, 재난 예방-대비-대응-복구 전 단계별 재난관리체계강화를 위한 전문가·사업자 의견, 법·제도 개선사항을 반영해 디지털서비스 안정성 확보를 위한 종합적 개선방안을 오는 2023년 1분기 중으로 수립한다는 계획을 밝혔다.