메트릭 인텔리전스 이해

Xanadu IT Operations Management

Release

xanadu

ft:locale

ko-KR

ft:publication_title

Xanadu IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

메트릭 인텔리전스 이해

릴리스 버전: Xanadu

업데이트 날짜 2024년 08월 01일

소요 시간: 8분

메트릭 인텔리전스를 사용하여 서비스 중단 가능성을 식별하고 방지하십시오. 기록 메트릭 데이터를 기반으로 하는 메트릭 인텔리전스는 이벤트에서 캡처하지 않을 가능성이 있는 CI의 비정상 동작을 표시합니다. 예외 경보를 일반 IT 경보로 격상하여 서비스 운영 작업 공간 및 서비스 상태 대시보드에 표시하면 선제적인 조치를 취할 수 있습니다.

New York 릴리스부터 메트릭 인텔리전스는 IT Operations Management 제품에서 ITOM 상태의 일부입니다.

예외 탐지

메트릭 데이터는 SCOM, SolarWinds 모니터링 시스템, Nagios XI 서버 등의 다양한 데이터 소스에 의해 수집됩니다(기본적으로 일부는 메트릭 수집용으로 구성됨). 이러한 모니터링 시스템은 소스 환경에서 정기적으로 메트릭 데이터를 수집합니다. 메트릭 인텔리전스는 이러한 모니터링 시스템에서 원시 데이터를 캡처하고, 이벤트 규칙과 CMDB 식별 엔진을 사용하여 데이터를 기존 CI 및 해당 자원에 매핑합니다. 그런 다음 데이터를 분석하여 예외를 탐지하고 기타 통계 점수를 제공합니다.

메트릭 인텔리전스는 기록 메트릭 데이터를 사용하여 통계 모델을 만듭니다. 이러한 모델을 사용하면 상한 및 하한과 함께 예상 메트릭 값을 쉽게 예측할 수 있습니다. 그러면 메트릭 인텔리전스에서는 이러한 예상 정보를 사용하여 통계적 이상값을 탐지하고 예외 점수를 계산합니다. 예외는 0~10의 범위에서 점수가 매겨집니다. CI 메트릭의 예외 점수가 높으면 CI가 서비스 중단 위험에 노출되었다는 의미일 수 있습니다.

처리 후에는 인사이트 탐색기에 메트릭 통계 및 차트가 표시되고, 예외 맵은 CI와 가장 높은 예외 점수 사이의 상관관계 점수를 타임라인에 보여줍니다.

유지관리가 진행되는 동안 예외가 탐지될 때는 관련이 없을 수 있으므로 시스템 유지관리 중에 예외 탐지를 사용하지 않도록 설정할 수 있습니다. 그렇게 하려면 mid.mi.anomaly_detection.disable 속성을 true로 설정합니다.

메트릭 인텔리전스에서 사용하는 용어

소스 메트릭 유형: '% 여유 공간' 또는 ' 현재 대역폭'처럼 CI의 데이터 소스에서 측정할 수 있는 메트릭입니다. 각 데이터 소스와 관련하여 가능한 모든 소스 메트릭 유형이 처리되도록 선택할 수 있습니다. 예를 들어 SCOM 데이터 소스에 대해 기본적으로 활성화되는 380개 소스 메트릭 유형이 있습니다.
예외: 통제 범위 밖에 있는 데이터는 통계적 이상값으로 간주됩니다. 이러한 이상값은 예외 점수를 계산하는 데 사용되며, 예외 점수는 메트릭이 발생할 가능성이 낮은 정도를 나타내는 0~10 사이의 값입니다. 예외 점수가 임계값을 초과하면 예외 경보가 생성됩니다. 예외 경보는 일반 IT 경보와는 별도로 보고됩니다.
자원: 각 하위 구성요소를 개별적으로 모니터할 수 있는 비슷한 유형의 여러 개별 구성요소로 구성된 CI 구성요소입니다. 개별 웹 페이지 또는 'Disk C:'나 'Disk D:' 같은 특정 디스크를 예로 들 수 있습니다.
시계열: 시간 범위의 연속적인 값(예: 메트릭 값)으로, CI 및 메트릭 유형과 관련되어 있습니다. 각 메트릭에 대해 예외 점수가 평가되므로, 특정 기간의 연속적인 예외 점수 역시 시계열입니다. 시계열은 메트릭 데이터 시리즈를 위해 빌드된 통계 모델에 따라 계산되며 메트릭 데이터 값, 예외 점수, 상한 및 하한 통제 범위에 사용됩니다.

통계 모델

메트릭 인텔리전스 작업은 과거의 메트릭 데이터(최대 32일 전)를 통해 학습합니다. 모델 학습 프로세스는 과거의 데이터를 분석하여 미래 가치를 예상하는 모델을 작성합니다. 일반적으로 모델은 다음에 모델 학습 프로세스가 실행될 때까지 적용됩니다. 이러한 모델은 상한 및 하한을 계산하는 데 사용됩니다. 들어오는 값 중에서 이러한 범위를 초과하는 값과 예상 값의 통계적 유의성을 벗어나는 값은 예외를 발생시킵니다. 각 모델은 고유하게 패턴화되며, 모델의 일반적인 동작을 보여주는 분류 규칙 레이블이 지정됩니다. 이 분류는 예외 탐지를 적용할 수 있는지 여부를 결정합니다. 대부분의 모델에서는 예상 값에서 벗어나는 미래의 값을 예상할 수 있습니다. 이러한 모델은 통제 범위와 연결되어 있으며 예외 탐지를 적용할 수 있습니다(사용하도록 설정한 경우).

그러나 일부 모델은 예외 값을 확인하기에는 데이터가 부족하고 추가 정보 없이는(예외 탐지를 사용하도록 설정했더라도) 예외 탐지를 적용할 수 없습니다.

학습된 데이터 모델은 메트릭 시계열 모델 [sa_time_series] 테이블에 저장됩니다.

다음 통계 모델 및 분류 규칙은 예외 탐지에 사용됩니다.

시계열 통계 모델

일단 설정된 시계열 모델은 들어오는 메트릭 데이터의 변화에 맞게 조정되지 않습니다. 따라서 들어오는 데이터의 패턴이 바뀌면 해당 변경 내용이 예외로 식별될 가능성이 높습니다. 학습된 상한 및 하한 통제 범위는 다음에 학습 프로세스가 실행될 때까지 유지됩니다(매일 데이터를 습득).

매주

주 단위로 반복되는 패턴이 있는 데이터입니다(계절 모델).

weekly_model_min_days 구성 설정에서 적어도 15일 이상으로 설정된 시계열 데이터가 필요합니다.

주간 분류 규칙

매일

일 단위로 반복되는 패턴이 있는 데이터입니다(계절 모델).

daily_model_min_days 구성 설정에서 적어도 3일 이상으로 설정된 시계열 데이터가 필요합니다.

일간 분류 규칙

트렌디

약간의 경사와 약간의 노이즈가 포함된 선형 추세가 있는 데이터입니다.

corrupt_data_count_threshold 구성 설정에서 적어도 30 이상으로 설정된 시계열 데이터 요소가 필요합니다.

트렌디 분류 규칙

노이지

데이터 모델에서 기본 패턴으로 분류되는 일반적인 노이지 데이터입니다. 특정 추세 또는 계절적 특성으로는 패턴을 식별할 수 없습니다.

corrupt_data_count_threshold 구성 설정에서 적어도 30 이상으로 설정된 시계열 데이터 요소가 필요합니다.

노이지 분류 규칙

양수로 고정된 노이지

하한이 0으로 고정되어 있다는 점을 제외하고 노이지 분류 규칙과 유사합니다.

corrupt_data_count_threshold 구성 설정에서 적어도 30 이상으로 설정된 시계열 데이터 요소가 필요합니다.

양수로 고정된 노이지 분류 규칙

가운데 맞춤 노이지

일반적으로 사용자가 지정한 상한과 하한 사이에서 대칭적으로 분포되는 노이지 데이터입니다. 범위 및 너비 값을 설정하는 데 사용되는 수식은 통계 데이터를 무시하며, 하한과 상한 너비가 동일한 값을 가집니다.

시계열의 데이터 요소 수가 0이어야 합니다.

자세한 내용은 사용자 지정 상한 및 하한 메트릭 범위 지정 문서를 참조하십시오.

가운데 맞춤 노이지 분류 규칙

편중된 노이지

사용자가 지정한 상한과 하한 사이에 균일하게 분포되지 않고 대신 범위 중 하나에 더 가깝게 집중되는 경향이 있는 노이지 데이터입니다. 데이터의 중간값은 상위 너비와 하위 너비를 별도로 계산하는 데 사용됩니다.

시계열에 하나 이상의 데이터 요소가 필요합니다.

자세한 내용은 사용자 지정 상한 및 하한 메트릭 범위 지정 문서를 참조하십시오.

편중된 노이지 분류 규칙

편중된 노이지 – GEV(일반화된 극단 값) 분포

사용자가 지정한 상한과 하한 사이에 균일하지 않게 분포되고 범위 중 하나에 더 가깝게 집중되는 노이지 데이터입니다. 또한 데이터 분포는 긴 꼬리(long taile) 또는 두터운 꼬리(heavy tail)를 보여줍니다. 분포 꼬리에서 파생되는 데이터의 중간값은 상위 너비와 하위 너비를 별도로 계산하는 데 사용됩니다. 계열에 데이터 지점이 하나 이상 있어야 합니다.

누적기

트렌디 분류 규칙과 비슷하지만 노이즈 없이 단조 증가하는 데이터 패턴입니다. 이 분류 규칙의 경우에는 데이터 모델이 없고 예외 탐지도 없습니다.

corrupt_data_count_threshold 구성 설정에서 적어도 30 이상으로 설정된 시계열 데이터 요소가 필요합니다.

누적기 분류 규칙의 다이어그램.

근사 상수

대부분의 값이 특정 상수 값인 근사 상수 데이터입니다. 이 분류 규칙의 경우에는 데이터 모델이 없고 예외 탐지도 없습니다.

corrupt_data_count_threshold 구성 설정에서 적어도 30 이상으로 설정된 시계열 데이터 요소가 필요합니다.

근사 상수 분류 규칙의 다이어그램.

다항

모든 값이 비교적 작은 숫자 값 중 하나인 데이터 패턴입니다. 예를 들어 값은 항상 100 또는 99.9입니다. 이 분류 규칙의 경우에는 데이터 모델이 없고 예외 탐지도 없습니다.

400개 이상의 시계열 데이터 요소가 필요하며, 이 숫자는 multinomial_count_threshold 구성 설정 값에 10을 곱하여 계산됩니다.

다항 분류 규칙

손상

데이터의 데이터 요소가 부족하여 패턴을 식별할 수 없습니다. 이 분류 규칙의 경우에는 데이터 모델이 없고 예외 탐지도 없습니다.

시계열의 데이터 요소 수가 corrupt_data_count_threshold 구성 설정 값(기본값은 30)보다 작아야 합니다.

칼만 필터 통계 모델

시계열 통계 모델에 추가되며 노이지 및 양수 노이지 분류 규칙에만 적용 가능합니다. 이 모델은 수준이 모델에서 유일한 매개변수인 데이터 스트림에서 모델 매개변수를 추정하는 일반적인 방법입니다. 칼만 필터 모델은 들어오는 메트릭 데이터의 새 값에 따라 조정할 수 있습니다. 노이즈에 명확한 패턴이 없거나 노이즈가 너무 많은 경우에는 칼만 필터 모델이 사용되지 않습니다.

로컬 수준

들어오는 데이터가 현재 통제 범위에 따라 새 값 주위에 클러스터링되는 경우 학습자는 영구적 변경을 수용할 수 있도록 데이터 모델을 조정합니다. 이 클러스터링은 데이터 모델에서 새 값으로 탐지되므로 대부분의 들어오는 데이터는 예외가 아닌 통제 범위 내에 다시 있게 됩니다. 이러한 변경 탐지는 서버에 코어 또는 메모리를 추가하는 경우처럼 기준선에 영향을 주는 경우에 유용합니다.

corrupt_data_count_threshold 구성 설정에서 적어도 30 이상으로 설정된 시계열 데이터 요소가 필요합니다.

칼만 필터 로컬 수준 분류 규칙의 다이어그램.

인식할 수 없음

데이터가 로컬 수준 분류 규칙에 맞지 않으면 시계열 분류 규칙이 사용됩니다. 이 작업은 학습한 로컬 수준 모델의 편차 비율을 적절한 값으로 조정할 수 없는 경우에 발생합니다.

비매개변수형 통계 모델

양수 노이지 분류 규칙에 추가됩니다. 비매개변수형 모델에서 노이즈 분포는 대칭이 아니며 계절 패턴에 맞지 않습니다. 비매개변수형 모델은 실제 데이터에 더 잘 맞는 통제 범위를 만들며, 학습된 통제 범위는 다음 학습 주기까지 지속됩니다. 이 모델은 데이터 변경에 따라 조정되지 않으며, 편차를 예외로 식별하는 데 걸리는 시간이 더 깁니다.

고정 비매개변수형

시간에 따라 변하지 않는 데이터로, 시간에 따라 데이터가 변해도 평균값이나 편차 같은 매개변수가 크게 변하지 않습니다.

snpm_minimum_data_count 구성 설정에서 적어도 5000 이상으로 설정된 시계열 데이터 요소가 필요합니다.

비매개변수형 고정 분류 규칙의 다이어그램.

인식할 수 없음

데이터가 고정 분류 규칙에 맞지 않으면 시계열 분류 규칙이 사용됩니다.

MAD(절대 평균 편차) 통계 모델

편중된 노이지 분류 규칙에 대한 추가 기능입니다. 이러한 유형의 데이터에서 노이즈 분포는 대칭이 아니며 계절 패턴에 맞지 않습니다. 또한 데이터는 두텁거나 긴 꼬리 분포를 반영합니다. MAD 통계 모델은 데이터에 더 잘 맞는 통제 범위를 만들며, 학습된 통제 범위는 다음 학습 주기까지 지속됩니다. 이 모델을 사용하면 효율성이 약 30% 더 높아져 데이터 수집의 해독이 향상됩니다.