경보 그룹화 및 사용 사례

  • 릴리스 버전: Zurich
  • 업데이트 날짜 2025년 07월 31일
  • 소요 시간: 7분
  • 경보 그룹화 방법은 수동 및 규칙 기반과 같은 사용자 정의 접근 방식부터 자동, 혼합, 텍스트 기반, 로그 분석 및 네트워크 트래픽 기반 그룹화를 포함하여 미세하게 조정 가능한 고급 알고리즘에 이르기까지 다양합니다.

    표 1. 경보 그룹화 유형 및 사용 사례
    유형 설명 사용 케이스
    로그 분석 그룹화 경보는 로그 데이터 분석을 기반으로 그룹화됩니다. 여기에는 관련 경보 및 문제를 식별하기 위한 로그 항목의 상관 관계 지정이 포함됩니다. 이 방법은 로그 패턴과 시퀀스를 활용하여 IT 환경 전반에서 복잡한 다단계 문제를 감지할 수 있습니다.

    온라인 게임 회사가 사전 예방적 로그 분석을 구현하여 서버 안정성을 향상합니다. 게임 서버의 로그를 실시간으로 모니터링하고 분석 도구를 사용하여 충돌 전에 발생하는 오류 패턴을 감지합니다.

    예를 들어, 분석 결과 특정 오류 패턴은 서버 충돌 약 30분 전에 나타납니다. 이러한 패턴에 대한 자동 경보를 설정하면 회사는 충돌이 발생하기 전에 서비스 다시 시작 또는 자원 재할당과 같은 정정 작업을 시작할 수 있습니다. 이러한 사전 예방적 접근 방식은 중단을 방지하고 다운타임을 최소화하며 플레이어에게 영향을 미치기 전에 문제를 해결하여 게임 경험을 개선합니다.

    규칙 기반 그룹화 사용자가 설정한 미리 정의된 규칙과 기준에 따라 경보가 그룹화됩니다. 이러한 규칙에는 임계치 또는 이벤트 유형과 같은 특정 조건이 포함될 수 있습니다. 이 방법은 일관되고 반복 가능한 패턴에 효과적이지만 규칙을 유지관리해야 합니다.

    전자 상거래 웹 사이트를 관리하는 데이터 센터에서 규칙 기반 경보 그룹화는 반짝 세일과 같은 이벤트 중에 높은 트래픽을 처리하는 데 도움이 됩니다. 높은 CPU 사용량과 같은 서버 문제에 대한 경보는 상위 경보로 지정됩니다. 이러한 상위 경보는 느린 데이터베이스 쿼리 등의 관련 문제를 보고하는 하위 경보에 연결됩니다.

    이 규칙은 서버 관련 경보를 증상과 함께 그룹화하여 IT 팀이 서버 과부하 문제를 신속하게 식별하고 해결할 수 있도록 합니다. 이 접근 방식은 문제 해결 효율성을 향상시키고 다운타임을 최소화합니다.

    자동화된 그룹화

    고급 알고리즘이 경보 데이터의 패턴과 유사성을 기반으로 관련 경보를 자동으로 식별하고 그룹화합니다. 이 방법은 머신 러닝과 AI를 활용하여 알려지지 않은 새로운 문제에 적응함으로써 사전 예방적 경보 관리를 제공합니다.

    이벤트 관리에서는 마지막 이벤트 생성 시간의 근접성에 따라 서로 유사하지만 반드시 같지는 않은 경보를 그룹화합니다. CI와 패턴 식별자가 동일한 경보는 함께 그룹화됩니다.

    자동 경보 그룹화는 다음 구성요소로 구성됩니다.
    • 경보 집계 학습자(서비스 분석 기법 경보 집계 학습자 - 매일): 이 오프라인 작업은 과거 경보를 처리하고 통계 분석을 수행하여 경보 패턴을 빌드하기 위해 매일 실행됩니다. 자세한 내용은 패턴 기반 경보 그룹화 구성 문서를 참조하십시오.
    • 실시간 경보 집계 작업(RCA/Alert 집계를 사용하는 서비스 분석 기법 그룹 경보): 이 작업은 1분마다 실행되어 경보 패턴, CMDB 관계, 텍스트 유사성, 사용자 정의 경보 클러스터링 태그 및 프로세스 간 네트워크 트래픽 연결을 기반으로 경보 집계 그룹을 생성합니다.

    대형 금융 기관이 머신 러닝을 사용하여 수많은 서버와 애플리케이션의 경보를 관리합니다. 시스템은 기록 경보 데이터를 분석하여 클라이언트 연결 오류를 자주 동반하는 데이터베이스 서버 오류와 같은 패턴을 인식합니다. 그런 다음 관련 경보를 자동으로 그룹화합니다. 예를 들어 새 데이터베이스 서버 오류 경보가 탐지되면 이전 연결 오류 경보와 함께 그룹화됩니다.

    이렇게 자동화된 그룹화를 통해 IT 및 보안 팀은 문제를 신속하게 식별하고 해결하여 응답 시간을 개선하고 다운타임을 줄일 수 있습니다.

    혼합 그룹화 혼합 그룹화 방법은 CMDB 기반 그룹화 및 태그 기반 그룹화와 같은 여러 그룹화 전략을 사용하여 경보를 하나의 응집력 있는 그룹으로 결합합니다. 각 전략의 강점을 활용하여 경보 노이즈를 줄이고, 경보 상관 관계를 개선하고, 인시던트의 진정한 근본 원인을 강조합니다.
    • CMDB 기반 그룹화: CI(구성 항목) 관계와 CMDB(구성 관리 데이터베이스)의 의존성에 따라 경보가 그룹화됩니다. 이 접근 방식은 특정 인프라 구성요소 또는 서비스와 관련된 경보를 함께 그룹화하여 컨텍스트 인식 경보 관리를 제공합니다.
    • 태그 클러스터 그룹화: 경보는 애플리케이션, 서버 유형 또는 지리적 위치와 같은 일반적인 속성을 나타내는 태그 또는 레이블을 사용하여 분류 및 그룹화됩니다. 이 방법을 사용하면 진화하는 태그 지정 전략에 따라 유연하고 동적으로 그룹화할 수 있습니다.

    CMDB 기반 그룹화 사용 사례:

    한 통신 회사가 CMDB 데이터를 사용하여 네트워크 인프라와 관련된 경보를 관리합니다. 특정 네트워크 라우터 및 연결된 장치와 관련된 경보는 CMDB 관계에 따라 그룹화되므로 네트워크 팀이 모든 관련 문제를 확인하고 근본 원인을 효율적으로 해결할 수 있습니다.

    태그 클러스터 그룹화의 사용 사례:

    CMDB가 없는 조직은 다양한 서비스를 실행하는 Linux 서버를 관리합니다. IT 팀은 각 경보의 노드 필드를 사용하여 서버를 식별하고, 이 노드 값을 기반으로 동일한 서버의 서비스와 관련된 모든 이벤트를 그룹화합니다. 예를 들어 서비스 A 다운 및 서비스 B 높은 CPU 사용량과 같은 경보는 동일한 노드 값을 공유하는 경우 함께 클러스터링합니다.

    이 방법을 사용하면 IT 팀이 서버 관련 문제를 보다 효율적으로 해결할 수 있습니다. 팀은 동일한 노드, 애플리케이션 또는 IP 주소에 대한 경보를 클러스터링하여 CMDB 없이도 대응 노력을 간소화하고 문제를 보다 효과적으로 해결합니다.

    네트워크 트래픽 기반 그룹화 네트워크 트래픽 기반 경보 그룹화는 호스트 전반의 프로세스 간 네트워크 연결을 분석하여 관련 경보를 식별합니다. 이 방법은 ML 서비스 매핑을 통해 탐지된 서비스 후보를 활용하여 네트워크 트래픽 문제와 관련된 경보를 함께 그룹화하여 컨텍스트를 개선하고 경보를 더 빠르게 해결할 수 있도록 합니다.

    클라우드 기반 전자 상거래 플랫폼에서 트랜잭션 속도가 느려져 결제 처리가 지연됩니다. 기존 경보는 API 시간 제한, 데이터베이스 지연 및 네트워크 문제에 대한 별도의 경보를 생성하므로 근본 원인을 정확히 파악하기 어렵습니다.

    네트워크 트래픽 기반 그룹화를 사용하면 ML 서비스 매핑을 통해 식별된 프로세스 간 연결을 기준으로 경보가 자동으로 그룹화됩니다. 시스템은 지불 게이트웨이 서비스, 사기 탐지 및 주문 처리가 동일한 서비스 후보의 일부임을 탐지합니다. 이는 과부하된 사기 탐지 프로세스로 인해 트랜잭션 병목 현상이 발생하고 있음을 알 수 있습니다. 팀은 서비스를 확장하여 문제를 신속하게 해결하고, 다운타임을 최소화하며, 고객 경험을 개선합니다.

    텍스트 기반 그룹화 경보는 유사성 및 관련 문제를 식별하기 위해 경보의 텍스트 콘텐츠를 분석하여 그룹화됩니다. NLP(자연어 처리) 기술은 경보 설명, 메트릭 이름 및 CI 클래스에서 공통점을 찾는 데 사용되므로 이 방법은 구조화되지 않은 데이터에 효과적입니다.

    가상 미팅에 Zoom Rooms를 사용하는 조직의 IT 팀은 Zoom Room 서버에 중단이 발생하면 수많은 알림을 받습니다. 각 경고는 Zoom 방 번호 10이 다운됨, Zoom 룸 번호 11이 다운됨 등과 같이 다른 Zoom 룸이 다운되었음을 나타낼 수 있으며 유일한 차이점은 방 번호입니다.

    CMDB가 있는 조직의 경우 시스템이 연결된 모든 Zoom rooms에 대한 서버의 영향에 따라 경보의 상관 관계를 지정할 수 있으므로 CMDB 관계를 사용하여 이러한 경보를 그룹화할 수 있습니다. 그러나 CMDB가 없는 조직의 경우 텍스트 기반 그룹화를 사용할 수 있습니다. 이 시스템은 자연어 처리를 적용하여 유사한 설명이 있는 알림을 그룹화하여 IT 팀이 여러 Zoom Room이 동일한 기본 서버 문제의 영향을 받는다는 것을 빠르게 식별할 수 있도록 도와줍니다. 이 접근 방식을 통해 IT 팀은 문제의 근본 원인을 효율적으로 해결하여 다운타임을 줄이고 응답 시간을 개선할 수 있습니다.

    수동 그룹화 사용자가 시스템에 대한 전문 지식과 이해를 바탕으로 관련 경보를 수동으로 선택하고 그룹화합니다. 이 접근 방식을 사용하면 정밀하게 제어할 수 있지만 시간이 오래 걸리고 자동화된 상관관계를 놓칠 수 있습니다. 시스템 관리자가 단일 서버에서 실패한 여러 서비스에 대한 복수의 경고를 받습니다. 관리자는 이러한 경고를 수동으로 그룹화함으로써 이러한 경고가 모두 해당 서버의 단일 하드웨어 장애와 관련이 있음을 인식한 후 하드웨어 문제 해결의 우선 순위를 지정하여 모든 서비스를 재개합니다.
    수동 및 규칙 기반 경보 그룹화는 주로 상위 경보를 선택하는 방식에서 알고리즘 기반 그룹화와 다릅니다. 수동, 규칙 기반 또는 로그 분석 그룹화에서는 실제 경보 중 하나가 상위 경보로 지정됩니다. 자동, CMDB, 텍스트 기반, 태그 클러스터 모드 및 네트워크 트래픽에서는 그룹에서 가장 오래되고 가장 심각한 경보를 나타내는 가상 경보가 상위 경보로 생성됩니다.
    주:
    도메인 분리 환경에서는 동일한 도메인 내의 경보에 대해서만 경보 그룹이 생성됩니다.

    예약된 작업 및 매개변수에 대한 자세한 내용은 경보 그룹화를 위한 예약된 작업 및 매개변수 문서를 참조하십시오. 서로 다른 그룹화 유형에 대한 자세한 내용은 경보 그룹화 유형 및 생성 방법 문서를 참조하십시오.