이벤트 관리 운영자를 위한 경보의 개요
이벤트 관리 운영자는 이벤트에서 경보가 생성되는 방식, 경보에서 확인할 사항, 경보를 그룹화하는 방법을 이해해야 합니다.
이벤트 관리 튜토리얼의 첫 번째 강좌입니다.
| 강좌 1 | 이벤트 및 경보의 개요 |
|
| 강좌 2 | ||
| 강좌 3 | ||
| 강좌 4 |
조직에는 이미 Microsoft SCOM(System Center Operations Manager), Nagios, SolarWinds 등의 이벤트 모니터링 도구가 있습니다. 컴퓨터가 다운되거나 데이터베이스 오류가 발생하는 경우처럼 네트워크에서 문제가 발생하면 이벤트 모니터링 도구는 ServiceNow 인스턴스에 이벤트를 보냅니다. 이벤트 관리 애플리케이션은 관리자가 구성한 설정에 따라 이벤트를 처리한 다음, 경보를 생성합니다. 경보는 조치가 필요하다는 것을 나타내는 표시기입니다.
이벤트 관리 운영자의 역할은 경보를 살펴보고, 조직에서 이벤트 관리를 구현한 방식에 따라 조치를 취하여 근본적인 문제를 해결하거나 문제를 해결할 수 있는 사람에게 알리는 것입니다. 이 튜토리얼의 뒷부분에서는 일반적인 경보 관리 프로세스의 단계를 볼 수 있습니다.
경보 우선순위 및 심각도
- 경보의 우선순위는 애플리케이션 서비스에 미치는 영향의 중요도를 확인할 수 있는 점수입니다. 여러 요인에 따라 경보 우선순위 점수가 결정됩니다. 이벤트 관리 관리자는 이벤트 관리 애플리케이션에서 우선순위를 계산하는 데 사용하는 알고리즘을 구성할 수 있습니다.
- 경보의 심각도는 근본적인 문제의 심각성을 나타내는 지표입니다. 조직의 이벤트 모니터링 도구는 일반적으로 이벤트를 사용하여 심각도 값을 보내며, 이 값은 경보를 통해 전달됩니다. 여러분이 이 튜토리얼에서 보게 될 기본 심각도 유형은 다음과 같습니다.
심각도 설명 중요
자원이 작동하지 않거나 중요한 문제가 곧 발생합니다. 심각
주 기능에 심각한 장애가 있거나 성능이 저하되었습니다. 경미
중요하지 않은 부분적 기능 손실 또는 성능 저하가 발생했습니다. 경고
자원이 여전히 작동하는 경우에도 주의가 필요합니다. 정상
심각도 없음. 경보가 생성됩니다. 자원이 여전히 작동하고 있습니다. 무결
경보에 대한 조치가 더 이상 필요 없습니다.
상관 경보
일부 알림은 서로 관련되어 있습니다. 예를 들어 라우터가 다운되면 라우터에 연결된 서버마다 하나씩 별도의 경보가 생성될 수 있습니다. 이러한 모든 경보는 서로 관련이 있거나 상관관계가 있습니다. 상관관계가 있는 경보를 쉽게 관리할 수 있도록 이벤트 관리에서 자동으로 경보를 그룹화하고, 맨 위에 기본 경보라고 하는 루트 경보 하나와 기본 경고 아래에 보조 경보라고 하는 기타 관련 경고가 있는 2수준 계층 구조를 설정할 수 있습니다. 경보를 볼 때 기본적으로 기본 경보가 눈에 잘 보이게 표시되므로 보조 경보의 방해를 받지 않고 어떤 경보에 집중해야 하는지 알 수 있습니다.
이 예에서는 라우터가 네트워크에서 다운되면 연결된 서버가 다른 라우터에 도달할 수 없으므로 연결된 서버의 네트워크 통신도 영향을 받습니다. 라우터 중단은 기본 경보가 되고 서버에서 생성된 경보는 라우터 경보 아래에서 상관관계가 지정된 보조 경보입니다.
조직의 이벤트 관리 구현 방식에 따라 관리자가 설정하는 상관관계 규칙을 기준으로 경보를 자동으로 그룹화할 수 있습니다. 또한 인스턴스는 이러한 규칙과 운영자가 제공하는 피드백을 기반으로 경보의 상관관계를 개선하는 방법을 배울 수 있습니다. 운영자는 여전히 상관관계의 정확성을 확인하고, 필요한 경우 추가 경보와 기본 경보의 상관관계를 수동으로 지정해야 합니다. 이 작업을 수행하는 방법은 튜토리얼의 뒷부분에서 배웁니다.
이 튜토리얼에서는 수동으로 경보의 상관관계를 지정하는 방법을 배웁니다. 고급 주제에서는 시스템에서 자동 경보 상관관계 프로세스를 개선할 수 있도록 시스템에 피드백을 제공하는 방법을 설명합니다.
경보 플래핑
경보는 플래핑이 가능합니다. 즉, 빠른 속도로 연속해서 여러 개의 열기-닫기 이벤트를 가질 수 있습니다. 플래핑은 근본적인 이벤트의 타당성을 이벤트 관리에서 알 수 없다는 것을 나타냅니다. 이벤트는 CI가 구성되는 방식에 대한 작은 문제 또는 네트워크 중단처럼 큰 문제를 나타낼 수 있습니다.
예를 들어 웹 서비스를 호스팅하는 서버의 활성 프로세스가 너무 많으면 과도한 CPU 사용에 대한 이벤트가 트리거될 수 있습니다. 웹 서비스 요청에 따라 CPU 사용량이 급격하게 변할 수 있기 때문에 여러 이벤트가 트리거될 수 있으며, 그 결과로 경보가 플래핑 상태로 전환될 수 있습니다. 운영자가 서버를 다시 시작하는 인시던트를 만들거나, 다른 누군가가 CPU를 다시 구성하거나, 장치의 하드웨어를 변경해야 할 수 있습니다.
또 다른 예로 네트워크 케이블이 느슨하게 연결되어 일시적인 네트워크 중단이 반복적으로 발생하는 경우가 있습니다. 관리자가 구성하는 임계치가 이러한 종류의 경보에 적합하지 않을 수 있으며 이벤트 관리는 이 경보를 플래핑 경보로 간주합니다.
튜토리얼 계속 진행
이벤트 관리 운영자용 애플리케이션 서비스 강좌로 계속 진행합니다.