인프라 설비·서비스 등 다중화…재난·사고에 이중삼중 대비
안산 데이터센터에 4600억 투자…인프라 전담 조직 강화
[아시아경제 최유리 기자, 차민영 기자] 데이터센터 화재로 서비스 먹통 사태를 겪은 카카오가 재발 방지를 위해 인프라 설비부터 서비스까지 시스템 전체를 다중화기로 했다. 장애 모니터링 시스템의 다중화와 데이터 다중 복제 등을 통해 예기치 못한 상황에 이중삼중으로 대비하겠다는 것이다.
장애 원인은 '이중화 미흡'…시스템 전체 다중화로 재발 방지
카카오는 7일 연례 개발자 콘퍼런스인 ‘이프 카카오 데브 2022’에서 이같은 내용을 핵심으로 한 서비스 장애 원인과 재발 방지책을 밝혔다. 지난 10월15일 SK C&C 판교 데이터센터 화재로 서비스 먹통 사태가 발생한 지 2개월여 만에 내놓는 대책이다.
카카오는 판교 데이터센터 화재 후 서비스 먹통 사태가 벌어진 원인으로 데이터 운영 관리 도구의 이중화 미흡과 가용 자원 부족을 꼽았다. 카카오는 당시 서버를 이중화하고 판교 데이터센터 서버를 동작(액티브) 상태로, 또 다른 데이터센터 서버는 대기(스탠바이) 상태로 뒀다. 그러나 대기 서버를 동작 상태로 바꿀 권한 관리 기능인 운영 관리 도구를 이중화하지 않았다. 비상시 쓰도록 대기 중인 서버를 가동하지 못해 피해를 키운 것이다. 전날 과학기술정보통신부 역시 미흡한 이중화 조치를 장애 사태 원인으로 지목했다.
이에 카카오는 재발 방지를 위해 앞으로 데이터 운영 관리 도구뿐 아니라 시스템 전체를 다중화하기로 했다. 데이터센터, 데이터, 플랫폼, 서비스 등 인프라 설비부터 애플리케이션까지 시스템 전체에 이중화를 적용한다. 주요 원인으로 지목됐던 운영 관리 도구는 삼중화해 예기치 못한 상황에 대비한다. 아울러 모니터링 시스템을 다중화하고 데이터도 다중 복제해 장애 발생 시 지속적인 서비스가 가능하도록 할 방침이다. 또 총 4600억원의 예산을 투입해 시공 중인 안산 데이터센터에서 방재 대책 등을 강화하고 비상대응계획 및 데이터센터 재난복구(DR) 체계를 구축하기로 했다.
인프라 조직도 강화한다. 현재 카카오 비상대책위원회 재발방지대책 공동 소위원장을 맡고 있는 고우찬 카카오엔터프라이즈 최고클라우드책임자(COO)를 필두로 IT 엔지니어링 전담 조직과 인재 확보에 나설 계획이다.
비상대책위원회 재발방지대책 공동 소위원장을 맡고 있는 남궁훈 전 카카오 대표는 "지금이라도 반성하고 개선해 미래에는 이런 사고가 발생하지 않도록 최선을 다하겠다"며 "서비스 안정화가 최우선 과제이며 사회적 책임이라는 것을 항상 명심할 것"이라고 강조했다.
정부 시정 요구 대부분 담아…보상 계획 마련은 과제 산적
카카오 재발 방지책에는 정부가 요구한 시정 조치 대부분이 담겼지만 보상 계획 마련은 아직 갈 길이 먼 상황이다. 과기정통부는 지난 7일 카카오 장애 사태 조사 결과를 발표하고 이중화 조치 시정을 요구했다. 카카오톡 수발신 기능이나 인증 기능에서 지금보다 높은 수준의 분산·다중화 방안을 마련하라는 내용이다. 재난 대비 모의훈련 실시와 시나리오별 장애 복구방안 수립을 촉구하는 한편 이용자 피해 보상 계획을 세워달라고 당부했다.
현재 카카오 피해보상 협의체는 2차 회의를 진행한 가운데 유형별 피해 사례를 공유했다. 이를 분석해 보상 기준과 금액에 대한 원칙을 수립할 계획이다. 그러나 무료 서비스에 대한 보상 규정과 선례가 없고 피해를 실제로 확인해야 하는 등 과제가 산적했다. 카카오 관계자는 "정부가 발표한 시정 요구 사항 중 보강할 부분이 있다면 적극 검토해 반영하겠다"고 말했다.
과기정통부는 데이터센터 운영사인 SK C&C와 서비스 장애가 발생했던 네이버에도 개선 계획을 수립해 달라고 당부했다. SK C&C에는 배터리 모니터링 시스템 관리 강화 방안과 다양한 화재 감지 시스템 마련을 촉구했다. 리튬이온 배터리 화재 시 필요한 소화설비 등을 구축하고 불가능할 경우 별도의 대안을 세워달라고 했다. 재난대응 시나리오를 개발하고 세부 훈련 계획을 수립하는 한편, 훈련 실시 결과도 보고하라고 했다. 네이버에는 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검해 개선방안을 마련하고 주 데이터센터 전소 등 상황을 가정해 모의 훈련을 실시해 달라고 요구했다.
기업들은 적극 협력한다는 입장이다. SK C&C와 네이버 관계자는 "정부의 시정 요구 사항을 참고해 앞으로도 중단없는 안정적인 서비스 운영에 최선을 다할 것"이라고 말했다.
최유리 기자 yrchoi@asiae.co.kr
차민영 기자 blooming@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>