서비스 신뢰성 관리 탐색

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 소요 시간: 4분
  • SRM(서비스 신뢰성 관리)은 팀이 기술 서비스 상태를 자율적으로 관리할 수 있는 셀프 서비스 안내 환경을 제공합니다. 이 환경은 서비스 운영 작업 공간 애플리케이션을 사용하여 구축되며 ITOM 및 ITSM 기능을 단일 서비스 운영 워크플로우에 결합합니다.

    SRM 개요

    SRE(사이트 신뢰성 엔지니어링) 방식을 채택하는 IT 팀을 위해 SRM(서비스 신뢰성 관리)으로 서비스 상태를 최적화합니다. SRM은 팀이 SRE를 통해 디지털 서비스의 신뢰성을 개선할 수 있도록 지원하는 단일 운영 작업 공간입니다.
    • 당직 에스컬레이션을 사용하여 모니터링 및 ITOM 경보로 식별된 문제에 적시에 대응합니다.
    • 안내식 셀프 서비스를 통해 설정 마찰을 줄여 분산된 팀을 온보딩하여 분리된 데이터, 강력한 액세스 권한, 중앙 IT의 거버넌스를 최소화합니다.

    SRM이 활성화되면 여러 플러그인과 애플리케이션도 설치됩니다. 자세한 내용은 ITOM 상태와 함께 설치되는 플러그인 또는 애플리케이션 문서를 참조하십시오.

    SRM 사용자

    표 1. 사용자
    사용자 설명 포함하는 역할
    admin

    ServiceNow 관리자는 ServiceNow 플랫폼의 관리, 개발, 운영, 교육 및 유지관리를 담당합니다.

    설치를 담당하며 SRM서비스 운영 작업 공간 관리자 센터 구성을 수행할 수 있습니다.

    모두
    관리자 [srm_admin]
    주:
    ServiceNow admin 역할이 아님

    SRM 관리자는 계정 설정, 구성 및 사용자를 관리할 수 있습니다.

    관리자는 다음 작업을 수행할 수 있습니다.
    • 모든 SRM 구성에 액세스, 생성, 편집 또는 삭제합니다.
    • 통합을 추가하거나 관리합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합 생성
    • 신뢰성 표시기 설정 및 유지.
    • 오류 예산 정책 설정 및 유지.
    • 관리자
    • 응답기
    관리자 [srm_manager] 관리자는 SR 팀을 감독합니다. 관리자는 팀 당직 일정에 SRE를 할당하고, 성과를 모니터링하고, 인시던트 처리를 위한 절차를 만들고, 솔루션을 개발합니다. 관리자는 모든 시스템과 DevOps 워크플로우에 걸쳐 탄력적 운영을 보장합니다.
    관리자는 팀 컨텍스트 내에서 다음 작업을 수행할 수 있습니다.
    • 팀, 당직 일정 및 서비스를 정의하고 설정합니다.
    • 소속된 팀의 응답자 및 관리자 등의 사용자를 추가하고 삭제합니다.
    • 통합을 추가하거나 관리합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합 생성
    • 신뢰성 표시기 설정 및 유지.
    • 오류 예산 정책 설정 및 유지.
    응답기
    응답자 [srm_responder]

    SRM을 사용하여 일상적인 작업을 수행하는 SRE(Service Reliability Engineer)입니다. 응답자는 당직을 서서 인시던트를 진단하고 정정하는 사람입니다.

    응답자는 자신이 속한 구성에만 액세스할 수 있습니다. 권한 있는 경보 또는 인시던트에만 접근할 수 있습니다.

    SRE는 팀 컨텍스트 내에서 다음 작업을 수행할 수 있습니다.
    • 서비스, 팀 및 통합 설정
    • 자신의 당직 일정 확인
    • 인시던트 및 경보 기록 관리
    • 자신이 만든 팀 업데이트
    • 다른 응답자 추가
    • APM(애플리케이션 성능 모니터링) 도구와의 통합 생성
    • 신뢰성 메트릭 설정 및 유지
    • 오류 예산 작업 설정 및 유지
    다음을 포함하여 17가지 역할을 상속합니다.
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    자세한 내용은 SRM 역할 및 책임 문서를 참조하십시오.

    SRM 워크플로우

    응답자, 관리자 및 관리자가 팀을 관리하고, 서비스를 등록하고, SLO를 정의하고, 통합을 모니터링하고, 알림에 응답하고, 인시던트를 정정하는 방법을 보여주는 인포그래픽입니다. 자세한 내용은 다음 설명을 참조하십시오.
    1. IT 또는 LOB(Line of Business)의 제품 팀은 새로운 기술 및 애플리케이션 서비스를 지속적으로 제공합니다. 예: 새 고객 청구 포털.
    2. SLO 관리와 함께 팀은 SRM에 자신을 구현하여 이러한 서비스를 등록하고 서비스 수준 목표(SLO)를 정의하여 비즈니스 결과를 보장할 수 있습니다. 예: 청구 포털의 월별 가용성 95%
    3. 모니터링 통합은 이러한 서비스의 실시간 상태를 수집하기 위해 팀에서 설정합니다. 예: 클라우드 옵저버빌리티
    4. 모니터링은 서비스가 수행되지 않을 때 경보에 영향을 주는 SLI(서비스 수준 표시기)를 만듭니다. 자동화는 그룹화하고 보강합니다. 예: 청구 포털 대기 시간이 7초를 초과합니다.
    5. 경보에서 중단 또는 고객 영향 저하를 나타내면 인시던트가 생성되고 당직 알림으로 해당 팀 자원에 알립니다. 예: 청구 SRE 팀이 청구 포털에서 대기 시간 문제에 대한 전화 통화를 통해 알림을 받습니다.
    6. 인시던트가 공동으로 진단되고 정정된 후에는 복원성 향상을 위한 작업 항목이 캡처됩니다. 예: 결제 팀에서 웹 서버 용량을 추가하기로 결정합니다.
    7. 경영진은 SLO 성능을 지속적으로 검토하고, 오류 예산이 소진되었을 때 변경을 방지하고, 성과가 저조한 서비스에 대한 개선 이니셔티브의 우선 순위를 지정합니다.

    SRM 이점

    표 2. SRM 이점
    이점 기능 사용자
    팀 기반 경험 SRM 팀 작업 서비스 신뢰성 응답자, 매니저 및 관리자
    서비스 등록 SRM 서비스 작업 서비스 신뢰성 응답자, 매니저 및 관리자
    사전 구축된 통합 SRM 통합 작업 서비스 신뢰성 응답자, 매니저 및 관리자
    서비스 상태 측정 신뢰성 메트릭 작업 서비스 신뢰성 응답자, 매니저 및 관리자
    당직 범위 SRM 당직 일정 생성 서비스 신뢰성 응답자, 매니저 및 관리자
    높은 심각도 경보 및 인시던트 정정 SRM 신뢰성 작업 실행 서비스 신뢰성 응답자, 매니저 및 관리자