신뢰성 메트릭 작업
서비스 상태를 추적하고, 문제에 대응하고, 비즈니스 목표를 지원하는 데 도움이 될 수 있는 신뢰성 메트릭 및 기능에 대해 알아봅니다.
상위 수준 워크플로우
- SRM은 신호 집계를 위해 통합을 활용합니다.
- 의 서비스에 SRM대해 SLI(서비스 수준 표시기) 및 SLO(서비스 수준 목표)를 포함하는 신뢰성 표시기가 생성됩니다.
- 서비스에 대해 자격 있는 경보가 생성되면 SRM의 신뢰성 표시기에 누적 위반 및 오류 예산 값이 업데이트됩니다.
- 서비스에서 인시던트 만들기 또는 이메일 보내기 등의 작업을 트리거하여 서비스 문제를 정정하기 위한 오류 예산 정책이 생성됩니다. 오류 예산은 범주별로 제한됩니다.
메트릭의 SRM 주요 기능은 다음과 같습니다.
- SLI 신호 집계
- 기간 및 횟수 기반 SLO 생성
- 오류 예산 생성
- 오류 예산 정책 정의
- 오류 예산 시각화
다음으로 이동 안정성 및 오류 예산 메트릭에 대한 모든 관련 중요 데이터를 볼 수 있는 탭입니다. 자세한 내용은 SRM 서비스 작업 문서를 참조하십시오.
주:
점수는 SLI와 SLO 및 오류 예산이 생성되고 영향을 받는 경우에만 표시됩니다. 자세한 내용은 SLO, SLI 및 오류 예산 정책 생성 문서를 참조하십시오.
신뢰성 메트릭 탭
신뢰성 메트릭 탭에는 특정 서비스가 신뢰성 목표를 얼마나 잘 충족하는지 보여줍니다. 이를 사용하여 서비스의 SLO, SLI(서비스 수준 표시기) 및 오류 예산을 추적합니다.
에서 서비스 운영 작업 공간신뢰성 메트릭 탭을 보려면 다음으로 이동하십시오. .
신뢰성 메트릭 탭에서 수행할 수 있는 작업에 대해 자세히 알아보려면 다음 링크를 참조하십시오.
서비스 수준 목표 테이블
신뢰성 메트릭 탭의 서비스 수준 목표 테이블에는 선택한 서비스에 대한 다음 세부 정보가 포함됩니다.
- 서비스 수준 목표: SLO의 이름입니다. SLO는 SLA(서비스 수준 계약)를 충족하기 위해 팀이 도달해야 하는 대상 값 또는 목표입니다.
- SLI 유형: 측정 중인 성능 범주:
- 가용성: 서비스 또는 구성 항목을 사용할 수 있는 시간의 백분율로, 가동 시간이라고도 합니다.
- 오류: 서비스 오류의 빈도입니다.
- 대기 시간: 요청을 처리하는 데 걸리는 시간입니다.
- 포화도: 자원 사용량에 중점을 둔 시스템의 충만도입니다.
- 준수 기간: 성과 계산에 사용되는 기간:
- 월: 현재 월입니다. 예를 들어 현재 날짜가 1월 26일이면 월은 1월 1일부터 1월 31일까지입니다.
- 롤링 7일, 30일 또는 90일: 현재 날짜로부터 일수입니다. 예를 들어 롤링 7일의 경우 기간은 현재 날짜로부터 7일 전입니다.
- 상태: SLO의 상태입니다(예: 초안, 실행 중 또는 폐기됨).
- 목표(백분율): SLI 성과의 목표 백분율입니다.
- 발생 제한: 발생한 제한 위반 횟수입니다. 카운트 기반 SLO에서만 사용됩니다.
- 서비스 수준 표시기: SLO와 연결된 SLI입니다.
- 오류 예산: 준수 기간 및 목표(백분율)를 사용하여 계산한 준수 기간의 허용 장애 시간입니다.
- 남은 오류 예산: 오류 예산을 계속 사용할 수 있습니다.
- 남은 위반 발생: 한도에 도달하기 전에 계속 사용할 수 있는 위반 수입니다.
주:
성능을 위해 SLO 및 SLI 기록([sn_sow_srm_slo_history] 및 [sn_sow_srm_sli_metric])은 1년 후에 보관되고 5년 후에 삭제됩니다. 보관된 데이터는 테이블과 시각화에서 생략됩니다.
주:
SLO를 업데이트하면 상태가 변경되어 이 SLO 기록이 폐기되고 정확한 모니터링을 위해 복사본이 생성됩니다.
신뢰성 메트릭
서비스 수준 목표에는 다음 상세 정보가 표시됩니다.
- 서비스 수준 목표: SLO의 이름입니다. SLO는 SLA(서비스 수준 계약)를 충족하기 위해 팀이 도달해야 하는 대상 값 또는 목표입니다.
- SLI 유형: 서비스 의 성과에 대한 실제 수치입니다. SLI 유형은 다음과 같습니다.
- 가용성: 서비스를 사용할 수 있는 시간의 백분율을 측정합니다. 이 유형을 가동 시간이라고도 합니다. 가용성은 신뢰성의 기본이자 기본 메트릭입니다.
- 오류: 서비스 오류의 빈도를 측정합니다.
- 대기 시간: 요청을 처리하는 데 걸리는 시간을 측정합니다. 경과한 시간을 추적합니다.
- 포화도: 시스템의 충만도를 측정하여, 가장 제약이 있는 자원을 강조합니다.
- 준수 기간: SLO가 지속되도록 설정된 기간입니다.
- 월: 이 기간은 현재 월로 간주됩니다. 예를 들어, 현재 날짜가 1월 26일이면 기간은 1월 1일~1월 31일로 간주됩니다.
- 롤링 7일: 이 기간은 현재 날짜로부터 7일로 간주됩니다.
- 롤링 30일: 이 기간은 현재 날짜로부터 30일로 간주됩니다. 예를 들어, 현재 날짜가 1월 26일이면 기간은 12월 25일부터 시작되는 것으로 간주됩니다.
- 롤링 90일: 이 기간은 현재 날짜로부터 90일로 간주됩니다. 예를 들어, 현재 날짜가 1월 26일이면 기간은 10월 25일부터 시작되는 것으로 간주됩니다.
- 상태: SLO의 상태입니다. 선택 항목은 다음과 같습니다.
- 초안: SLO가 인스턴스에서 아직 실행되고 있지 않습니다. 새 SLI를 추가하거나 기존 SLI를 업데이트할 수 있으며 SLO를 삭제할 수 있습니다.
- 실행 중: SLO가 인스턴스에서 활성 상태입니다. SLO를 편집, 폐기 또는 삭제할 수 있습니다.주:실행 중 상태의 SLO를 편집하면 해당 SLO가 폐기되고 새 복사본이 생성됩니다.
- 폐기됨: SLO가 인스턴스에서 더 이상 실행되지 않습니다. 이를 다시 활성화할 수 있습니다.
- 목표(%): 원하는 SLI 성과의 백분율입니다.
- 발생 제한: 발생한 제한 위반 횟수입니다. (SLO 카운트 유형에 사용됩니다.)
- 서비스 수준 표시기: 서비스 성과에 대한 실제 숫자입니다. 고객의 기대에 부응하고 있는지 여부를 나타내는 측정 가능한 사실입니다.
- 오류 예산: 지출할 수 있는 오류 예산의 양입니다. SLO를 만들 때 오류 예산은 제공된 준수 기간 및 목표(%)를 기준으로 계산됩니다.
- 남은 오류 예산: 아직 사용 가능한 오류 예산의 양입니다.
- 남은 위반 발생: 한도에 도달하기 전에 계속 사용할 수 있는 위반 수입니다.
주:
서비스 수준 목표 이력[sn_sow_srm_slo_history] 및 서비스 수준 표시기 메트릭[sn_sow_srm_sli_metric] 기록은 1년 후에 보관되고 5년 후 삭제됩니다. 이 접근 방식을 사용하면 데이터 보존을 일관되게 유지하면서 성능을 개선할 수 있습니다. 보관된 테이블에 대해서는 쿼리가 실행되지 않습니다.