카카오 뼈아픈 반성문…'다리 끊긴 서비스·컨트롤타워도 부재'

이확영 카카오 비상대책위원회 원인조사 소위원장(그렙 대표)가 7일 이프 카카오에서 서비스 장애 원인에 대해 설명하고 있다. (사진=이프 카카오 온라인 영상 캡처)

[아시아경제 이승진 기자] 지난 10월 15일 판교 데이터센터 화재로 대규모 서비스 장애가 발생한 카카오가 뼈아픈 반성문을 제출했다. 카카오는 데이터센터 이중화가 돼 있지 않았던 것을 비롯해 위기에 대응할 컨트롤타워 부재로 서비스 장애를 확산시켰다고 분석했다.

7일 오전 11시 열린 개발자 컨퍼런스 '이프 카카오 데브 2022(이프 카카오)'에서 지난 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인을 분석하고 재발방지대책을 공개했다.

카카오 비상대책위원회 원인조사 소위원장을 맡았던 이확영 그렙 최고경영자(CEO)는 이날 “카카오의 서비스와 인프라에 대한 경험을 기반으로 현재 상황을 비교적 빠르게 파악할 수 있었다”며 몇 가지 원인을 꼽았다.

현재 그렙 대표로 있는 이확영 소위원장은 삼성SDS, 프리챌, NHN을 거쳐 2007년 카카오에서 최고기술책임자(CTO)를 지낸 바 있다. 그만큼 카카오 서비스를 잘 알면서 외부자의 시각에서 이번 사태를 볼 수 있다는 판단 아래 원인조사 소위원장으로 선임됐다.

그가 가장 먼저 언급한 원인은 ‘데이터센터 간 이중화’ 문제다. 이 소위원장은 “데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구됐을 텐데 일부 시스템이 판교 데이터센터(SK) 내에만 이중화돼 있어 장애 복구가 늦어졌다”고 지적했다.

둘째는 서비스의 개발과 관리를 위한 운영 관리 도구의 이중화가 부족했다는 것이다. 그는 “컨테이너 이미지를 저장, 관리하는 시스템이나 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 돼 복구에 상당한 어려움을 겪었다”고 설명했다.

데이터센터 전체 장애에 대응할 인력과 자원이 충분히 않았다는 점도 원인으로 꼽혔다. 이 위원장은 “가용 인력이 부족해, 센터 전원이 들어왔음에도 시스템을 정상화하기까지 시간이 걸렸다”면서 “카카오톡, 카카오 워크를 사용할 수 없어, 중요사항을 전달하거나 의사결정을 공유할 소통창구가 부재했다”고 말했다.

그러면서 "판교 데이터센터 전체를 대신할 만큼 가용 자원이 확보돼 있지 않았기 때문에, 데이터센터의 전원이 들어와 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다"고 했다.

서비스 장애를 총괄할 컨트롤 타워가 없던 점도 지적했다. 이 위원장은 “카카오 공동체가 동시다발적으로 장애에 대응했지만, 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 구축되지 않았다”고 말했다.

그는 “현재 원인 분석 결과보고서를 비대위에 제출한 상태”라며 “이전보다 높은 목표를 설정하고 노력해, 카카오 서비스가 다시금 이용자들로부터 신뢰를 회복하고 사랑받길 바란다”고 했다.

이승진 기자 promotion2@asiae.co.kr<ⓒ경제를 보는 눈, 세계를 보는 창 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

IT과학부 이승진 기자 promotion2@asiae.co.krⓒ 경제를 보는 눈, 세계를 보는 창 아시아경제
무단전재, 복사, 배포 등을 금지합니다.

오늘의 주요 뉴스

헤드라인

많이 본 뉴스