숙련된 직원에게 여유를 주기 위해 원격 네트워크 유지관리 자동화
1992년에 일본에서 설립된 NTT Docomo는 30년 동안 품질 높은 이동통신 서비스를 제공하고 있으며 Fortune Global에서 500대 이동통신 기업으로 선정한 NTT Group의 자회사이기도 합니다. NTT Docomo는 음성 통화부터 데이터 통신, IoT까지 다양한 서비스를 제공합니다. 이 회사에서는 2020년 3월부터 5G와 같은 새로운 네트워크 서비스를 제공하기 시작했습니다. 이후로 엔지니어가 현장에 없는 상태에서 문제와 중단을 해결하기 위한 원격 유지관리 작업의 양이 꾸준히 증가했습니다.
일본의 이동통신 네트워크는 현대 사회의 기반이 되는 중요한 인프라 중 하나이며 시스템 장애가 장기적으로 이어지거나 오랫동안 중단이 발생하지 않도록 하는 것이 중요합니다. 그러기 위해 작업량이 계속 늘어나고 있으며 관리를 위해 NTT Docomo는 사람이 개입하지 않고 원격으로 문제를 해결하는 제로 터치 운영을 도입했습니다.
이런 프로세스를 자동화함으로써 복구 시간을 단축하고 유지관리에 관여하는 직원의 수를 획기적으로 줄이는 동시에 수행하는 작업의 질을 높이고 인적 오류의 위험을 제거하는 것이 목표였습니다.
로밍 서비스 원격 유지관리에 제로 터치 운영 도입
네트워크 담당 직원의 작업량이 늘어나자, 그에 따른 고품질 원격 지원에 대한 요구도 늘어났습니다.
"통화, 이메일, SMS는 단지 통신의 수단일 뿐만 아니라 사람들의 삶과 경제에서 핵심적인 부분입니다. 그래서 성능이 좋은 사회적 인프라가 필요하죠." NTT Docomo의 국제 서비스 운영, 국제 서비스, 국제 운영 부서의 책임자인 Takaaki Okami의 설명입니다. "중단이 발생하면 빠르게 서비스를 다시 실행해야 합니다. 저희는 문제 파악과 해결 속도를 높이기 위해 자동화를 활용하기로 했습니다."
이 프로세스를 자동화하면 원격 네트워크 담당 기술자를 더 복잡한 케이스에 재배치할 수 있을 것입니다. "이동통신 서비스는 우리 비즈니스와 수익에서 큰 부분을 차지합니다." 서비스 운영 부서의 국제 서비스 기술 선임 부담당자인 Yuki Nagaguro는 이렇게 말합니다. "저희의 과제는 비즈니스의 다른 부분을 어떻게 성장시키느냐는 것입니다. 어떤 작업을 자동화해서 직원을 재배치할 수 있다면 그 직원들이 더 전략적인 혁신 이니셔티브에 활발하게 기여할 수 있겠죠."
2020년 10월, NTT Docomo는 원격 유지관리 작업에 제로 터치 운영을 도입하는 개념 증명을 시작했습니다. 시작은 Docomo의 고객이 해외 여행 중에 전화 통화를 하고 데이터를 사용하게 해주는 해외 로밍 서비스였습니다.
일상적인 장애 해결 자동화
NTT Docomo는 제로 터치 개념 증명의 일환으로 자동화할 소규모의 프로세스를 결정했습니다.
통신 서비스와 네트워크 장애는 복구 절차가 확립되어 있으며 자동화하기가 간편한 일상적 장애와 비일상적 장애로 분류했습니다. 비일상적 장애는 개별적으로 해결해야 하며 특정 역량과 경험을 갖춘 직원이 필요하기 때문에 완전히 자동화하기가 더 어렵습니다.
"유지관리에 표준 절차가 필요한 경우 시스템이 처리하도록 하면 어떤 직원이나 지원 팀에 할당하는 것보다 훨씬 빠를 겁니다. 인적 오류의 위험도 사라지죠." 뉴욕 지사의 서비스 운영 부서에서 일하는 국제 서비스 기술 선임 부담당자인 Kiyotatsu Suto의 말입니다. "일상적 장애를 자동화하는 건 당연한 일이었습니다."
또한 일상적 문제는 모든 장애의 약 80%에 해당하기 때문에 해결을 자동화하면 유지관리 팀의 작업 부하가 크게 줄어들 것입니다.
"저희는 작게 시작해서 국제 로밍 서비스에 집중하기로 했습니다. 그런 다음 거기서 얻은 지식을 사용해서 비즈니스의 더 큰 부분을 차지하는 국내 서비스 솔루션으로 확대하는 거죠"라고 Okami는 말합니다.
ServiceNow에서 찾은 최고의 SaaS 솔루션
NTT Docomo는 제로 터치 운영의 기반으로 SaaS 솔루션을 사용하기로 했습니다. Nagaguro는 이렇게 설명합니다. "SaaS를 사용하면 새로운 프로젝트에 새로운 인프라를 구축할 필요가 없어 설치 리드 시간이 줄어듭니다. 저희는 계속해서 환경에 새로운 기능을 추가하고 있으므로 유연한 솔루션이 필요했고 CPU, 메모리 같은 시스템 리소스를 쉽게 확장할 수 있는 기능이 필요했습니다."
NTT Docomo는 시장을 살펴보고 ServiceNow IT Service Management를 선택했습니다. "IT Service Management는 ITIL(IT 인프라 라이브러리) 베스트 프랙티스를 준수하며 웹 포털, 자동화된 디지털 워크플로우, 시각화 도구 등의 기능을 기본적으로 제공합니다." Nagaguro는 이렇게 언급합니다. "인스턴스 간의 연결성과 다양한 API 덕분에 이 플랫폼을 저희가 사용하는 커뮤니케이션 도구인 Slack이나 UiPath 자동화 시스템과 같은 다른 기술과 쉽게 연결할 수 있습니다."
ServiceNow는 노코드/로우코드 개발도 지원하며 커스터마이제이션을 최소화해서 사내에서 관리할 수 있습니다.
예산을 지키기 위해 범위 조정
솔루션을 프로덕션으로 진행하기 전에 개념 증명 중에 해결해야만 하는 중대한 문제가 있었습니다. 예를 들어, 300개의 프로세스 목록에서 자동화할 작업을 결정하는 일은 작업량이 엄청난 일이었습니다.
"자동화할 만한 작업 목록을 줄이는 일이 큰 과제였습니다. 모든 걸 자동화하면 예산의 네 배가 들고 큰 손실을 가져올 상황이었습니다." Okami는 이렇게 말합니다. "저희는 회사 안팎의 40개 관련 팀과 회의를 열어 작업이 얼마나 긴박한지, 작업을 더 낮은 빈도로 실행할 수 있는지 아니면 다른 팀이나 파트너에게 아웃소싱할 수 있는지 고려해 보도록 요청했습니다."
덕분에 프로세스의 목록이 300개에서 감당할 수 있는 정도로 줄어들었고 그 과정에서 개발 비용이 82% 절감되었습니다. 프로젝트가 다시 궤도에 올라서고 수익을 낼 수 있게 되자 팀에서는 해외 로밍 서비스를 위한 제로 터치 모니터링과 유지관리를 개발했고 2022년 4월에 출시했습니다.
시스템 복구 속도 최대 75% 가속화
현재 Docomo 고객이 인시던트 티켓을 직접 발행할 수도 있고 모니터링 시스템이 문제를 탐지하면 자동으로 발행되기도 합니다. 그러면 문제가 어디에 발생했는지 판단하는 정상 상태 테스트를 실행하고 문제가 파악된 경우 표준 복구 프로세스를 수행하는 워크플로우가 트리거됩니다.
"이전에는 고객이 컨택 센터에 전화를 걸어 에이전트에게 장애에 대해 알려야 했습니다. 그러면 에이전트가 티켓을 원격 유지관리 직원에게 에스컬레이션하고, 원격 유지관리 직원이 수동으로 시스템 테스트를 거쳐 문제를 해결함으로써 서비스를 재개했습니다." Suto가 이렇게 설명합니다. "프로세스 전체가 마치 '버킷 릴레이' 같았는데 이제는 ServiceNow 덕분에 자동화되었습니다."
이를 통해 장애 알림을 받고 서비스를 복구하기까지 걸리는 시간이 최대 75% 단축되었습니다. 일상적 문제에 자동화된 워크플로우를 사용하는 것이 직원에게 라우팅하는 것보다 훨씬 더 빠르다는 것이 증명된 셈입니다. 원격 유지관리 팀에 30%의 시간적인 여유가 확보되어 이제 팀이 더 가치 있는 전략적 활동에 집중할 수 있게 되었습니다.
제로 터치 모니터링을 국내 서비스로 확장할 계획을 이미 수립한 NTT Docomo는 더 광범위한 NTT Group을 선도하고 있습니다. 여기에서 얻은 교훈을 14개의 다른 NTT 조직에 공유하는 데 합의했고 결국에는 그룹 전체에 솔루션을 배포할 수 있기를 바라고 있습니다.