KT 네트워크 마비사태는 ‘인재’...안전불감증에 부실한 관리
사태 초기 KT홍보실 ‘디도스’라고 거짓말 해 안전장치없이 전국을 하나로 연결 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 나타나 라우터 교체 작업 야간에 예정됐으나 실제로는 주간에 이뤄져
[이코노미21 김창섭 본부장] KT 네트워크 장애 사고는 대규모 네트워크 장치를 안전장치 없이 운영하고 오류를 사전에 차단할 장치도 마련하지 않는 등 KT의 부실한 관리 체계가 근본 원인으로 드러났다.
과학기술정보통신부는 29일 KT 네트워크 장애 사고에 대한 원인을 분석하고 결과를 발표했다.
과기정통부에 따르면 25일 오전 11시16분경부터 KT DNS(Domain Name System) 서버에서 트래픽이 급증했다. 중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 평시 대비 4배 이상, 부산 DNS는 평시 대비 3.7배 이상 증가하는 등 큰 폭의 트래픽 증가가 나타났다.
KT DNS는 도메인 주소를 IP 주소로 변환하는 역할을 수행한다.
과기정통부는 이번 사고 로그기록을 분석한 결과 “부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력해 사고가 발생했다”고 밝혔다.
과기정통부는 “작업내역을 확인한 결과 사고발생 라우터에 라우팅 설정명령어 입력과정에서 통상 만개 정도의 경로정보를 전달하는 IS-IS(내부 라우터 간 경로정보를 주고받는 프로토콜) 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락한 것”으로 확인했다.
이로 인해 통상 수십만개의 경로정보를 전달하는 BGP(외부 라우터와 경로정보를 주고받는 프로토콜)에서 교환해야 할 경로정보가 IS-IS로 전송됐다는 것이다.
과기정통부 조사에 따르면 KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있었다. 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대됐다는 설명이다.
결국 KT의 부실한 관리체계를 지적한 것이다.
또한 과기정통부는 KT의 IPTV 서비스와 음성전화서비스에 장애가 발생한 이유로 “서비스 망은 별도로 구성됐으나 인터넷 서비스 장애로 인해 문자 이용이 늘고 단말 전원을 리셋하는 이용자들이 늘어나면서 트래픽 증가가 발생해 부하가 가중됐을 것”으로 추정했다.
특히 과기정통부는 라우터 교체 작업이 야간에 예정됐으나 주간에 수행된 이유도 KT의 관리적·기술적 문제 때문이라고 밝혔다.
당초 라우터 교체와 같은 중대한 작업의 경우 사용자가 많지 않은 시간대에 진행하는 게 일반적이다. KT 네트워크관제센터 역시 해당 작업을 오전 01~06시에 할 것을 승인했지만 실제 작업은 주간에 수행되면서 피해는 확산됐다.
여기에 더해 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 KT의 작업관리체계가 부실했다.
과기정통부는 네트워크가 연결된 채로 작업이 이뤄졌다는 점도 지적했다.
과기정통부는 “1·2차에 걸친 사전검증 단계가 있었으나 사람이 직접 검토하는 체계이기 때문에 오류를 발견하지 못했다. 또 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다”고 설명했다.
한편 KT새노조는 이날 “과기부 조사 결과를 통해 참담할 정도로 KT가 허술하게 네트워크를 관리해왔다는 사실이 드러났다”며 “협력업체 작업자가 어떻게 낮에 임의로 KT시설에 들어가서 작업을 할 수 있었는지, KT홍보실이 당당하게 디도스라고 거짓말을 했던 경위는 규명 되지 않았다”고 지적했다.
새노조는 “공기업 시절이라면 사장이 즉각 해임됐을 정도로 심각한 사안이다. 그런 책임지는 자세없이 보상 논의만으로는 국민도 내부 구성원도 설득 못한다는 사실을 이사회는 주지해야할 것”이라고 주장했다. [이코노미21]