클러스터링 솔루션 만들기 및 교육

  • 릴리스 버전: Zurich
  • 업데이트 날짜 2025년 07월 31일
  • 소요 시간: 6분
  • 유사한 기록을 클러스터로 그룹화하여 기록을 일괄적으로 처리하거나 패턴을 파악할 수 있습니다.

    시작하기 전에

    필요한 역할: ml_admin 또는 admin
    중요사항:
    Zurich 릴리스에서 분류, 클러스터링 및 유사성 프레임워크의 모델은 워크플로우 솔루션을 사용합니다. 이들은 미리 학습된 것이므로 새로운 솔루션에 단어 말뭉치가 필요하지 않습니다. 단어 말뭉치가 포함된 기존 솔루션을 업그레이드 후 다시 학습하면 워크플로우 솔루션이 되고 단어 말뭉치 필드가 양식에서 제거됩니다.

    이 태스크 정보

    이 예시 절차에서는 최근에 발생한 유사한 인시던트를 그룹화하여 중요 인시던트를 식별하는 솔루션을 만듭니다.

    암호화된 교육 데이터 사용에 대한 자세한 내용은 단원을 참조하십시오 예측 인텔리전스에서의 데이터 암호화.

    프로시저

    1. 솔루션 정의에 대해 원하는 애플리케이션 범위에 있는지 확인한 후 다음으로 이동합니다. 모두 > 예측 인텔리전스 > 클러스터링 > 솔루션 정의.
    2. 클러스터링 정의 목록에서 새로 만들기를 선택합니다.
    3. 클러스터링 정의 양식에서 다음 지침에 따라 필드를 구성합니다.
      필드
      레이블 클러스터링 솔루션의 고유한 이름을 입력합니다. 예를 들어 이 사용 사례에서는 중요 인시던트에 대한 인시던트 그룹화를 입력할 수 있습니다.
      이름 솔루션 레이블을 입력하면 이 필드는 레이블 값에 따라 시스템에서 할당한 이름으로 자동으로 채워집니다.
      단어 뭉치

      레거시 클러스터링 솔루션이 있는 경우 정의 양식의 단어 말뭉치 필드에서 관련 단어 말뭉치를 선택할 수 있습니다.

      주:
      릴리스에서는 Zurich 미리 학습된 모델이 대신 사용되므로 단어 말뭉치가 필요하지 않습니다. 단어 말뭉치 필드는 미리 학습된 모델의 정의 양식에 표시되지 않습니다.

      자세한 내용은 단어 말뭉치 만들기 문서를 참조하십시오.

      테이블

      하나 이상의 클러스터로 그룹화할 기록 유형이 포함된 테이블을 선택합니다. 예를 들어 이 사용 사례에서는 중요 인시던트 분석을 위해 함께 그룹화하려는 인시던트 기록이 포함된 인시던트 [incident] 테이블을 선택합니다.

      테이블 값을 할당하면 현재 조건과 일치하는 레코드 수를 보여주는 링크가 양식에 나타납니다.

      필드 시스템에서 클러스터에 포함할 기록을 식별하는 데 도움이 되는 입력 필드 유형을 하나 이상 선택합니다. 이 사용 사례에서는 짧은 설명을 사용합니다.
      주:
      참조 유형 필드를 선택할 때는 필드의 속성 이름으로 닷워킹을 진행해야 합니다. 예를 들어 short_description 대신 short_description.name을 입력합니다.
      그룹 기준 사용 클러스터를 생성하기 전에 입력 기록을 필드별로 그룹화하려는 경우에만 이 확인란을 선택합니다.
      주:
      이 확인란을 선택하면 그룹화 기준 목록이 활성화됩니다. 확인란을 선택하지 않으면 모든 테이블 기록이 클러스터로 그룹화됩니다.
      그룹화 기준

      이 목록에서 값을 선택하는 것은 선택 사항입니다. 이렇게 하면 시스템은 선택 항목에 따라 기록을 하나 이상의 클러스터로 그룹화합니다.

      순도 필드 시스템에서 클러스터에서 가장 자주 사용되는 클래스를 식별하는 데 도움이 될 수 있는 테이블에서 필드를 선택합니다. 이 예시 시나리오에서는 범주할당 그룹을 선택합니다. 이름.
      필터 클러스터에 포함하려는 입력 필드 기록에 적용할 필터 조건을 추가합니다.
      • 클러스터링을 위한 최대 기록 수는 300,000개로 제한됩니다.
      • 최상의 결과를 얻으려면 최소 2,000개 이상의 기록을 목표로 하십시오.
      주:
      스크립트 포함은 필터에서 참조할 수 없습니다. 대안으로 데이터베이스 뷰를 사용합니다.
      처리 언어 솔루션 정의에서 교육하려는 데이터 세트의 지배적 언어를 선택합니다. 데이터 세트 언어가 이탈리아어인 경우 이탈리아어를 선택합니다. 또한 기본적으로 모든 데이터 세트에 영어 처리가 적용됩니다. 예를 들어, 이탈리아어를 선택하면 시스템이 데이터를 영어와 이탈리아어로 처리합니다.
      주:
      처리 중이라는 용어는 솔루션 교육의 일부로 사용되는 언어별 단계를 나타냅니다. 예를 들면 단어 토큰화, 스톱 워드 제거, 어간 추출 등입니다.
      스톱 워드 처리 언어를 선택하면 시스템이 자동으로 해당 언어로 된 스톱 워드 목록을 추가합니다. 예를 들어, 처리 언어가 이탈리아어인 경우 기본 이탈리아어 스톱 워드 목록이 나타납니다. 기본 영어 스톱 워드 목록도 포함되어 있습니다. 사용자 지정 중지 단어 목록을 만드는 경우 중지 단어 필드에서 선택하여 솔루션에 추가할 수 있습니다.
      업데이트 빈도
      시스템이 클러스터를 새 기록 및 업데이트된 기록으로 업데이트하는 빈도를 선택합니다.
      주:
      시스템은 클러스터링 솔루션(있는 경우)에 설정한 그룹화 기준 필터 조건에 따라 기록을 끌어옵니다.

      예를 들어 15분 마다를 선택하면 시스템은 해당 시간 범위 내에 도착한 기록을 식별합니다. 시스템은 기존 클러스터에 할당을 시도하거나 가능한 경우 새 클러스터를 생성합니다.

      이 예에서는 20개의 새 기록이 도착합니다. 이러한 기록 중 16개는 기존 클러스터에 포함되고 4개는 기존 클러스터에 포함되지 않는 경우 시스템은 할당되지 않은 4개의 기록에 대해 새 클러스터를 형성합니다.

      클러스터를 전혀 업데이트하지 않도록 선택할 수도 있습니다.

      교육 빈도 시스템에서 이전 클러스터 결과를 모두 삭제하고 처음부터 클러스터를 다시 생성하는 빈도를 선택합니다. 옵션은 매일, 3일마다, 7일마다, 또는 매월까지 다양합니다. 클러스터를 한 번 교육하도록 선택할 수도 있습니다.
      주:
      ML 스케줄러는 인스턴스가 커밋할 수 있는 교육 수를 24시간 내에 인스턴스당 50개의 새로운 ML 교육 요청으로 제한합니다. 예약된 재교육 요청은 제한에서 제외됩니다. 또한 클러스터링 및 유사성 업데이트는 새 교육 요청이 24시간 내에 50개를 초과하는 경우에도 이 제한에서 제외됩니다.
      클러스터당 최소 기록 수 클러스터에 포함할 최소 기록 수를 입력합니다. 입력하는 값은 2 이상이어야 합니다.
    4. 솔루션 정의에 적합한 컨텍스트 메뉴 옵션 또는 버튼을 선택합니다.
      옵션설명
      저장 또는 저장 및 교육 솔루션 정의 기록을 저장하여 나중에 반환하거나 교육을 위해 저장하고 제출할 수 있습니다.
      제출 또는 제출 및 교육 솔루션 정의 기록을 만들고 제출하거나 제출하고 교육합니다.
    5. 교육을 위해 솔루션을 제출한 경우 교육 활성화 창에서 확인을 선택하여 확인합니다.

    결과

    시스템은 솔루션을 교육하고 교육이 완료되면 실시간으로 알려줍니다.

    트리맵 플롯은 클러스터링 솔루션 정의 양식의 클러스터 시각화 탭에 나타납니다. 이 그림에는 시스템이 솔루션에 대해 형성한 군집이 왼쪽 위 코너에서 오른쪽 아래 코너까지 내림차순으로 표시되어 있습니다. 트리맵 노드 레이블은 클러스터의 상위 단어로 생성되는 클러스터 개념으로, 각 클러스터에서 가장 눈에 띄는 컨텐츠를 볼 수 있도록 도와줍니다.
    주:
    클러스터 개념은 처리된 입력 데이터의 상위 단어를 데이터의 언어로 표시합니다. 언어에 따라 클러스터 개념은 단어를 루트 형태로 표시하여 잘린 것처럼 보일 수 있습니다.
    각 노드는 해당 노드의 클러스터 품질에 따라 빨간색에서 녹색으로 색이 지정됩니다. 그룹 선택 필터는 클러스터링 정의 양식에서 그룹화 기준 및그룹화 기준 필드 사용을 선택한 경우에만 나타납니다. 클러스터를 가리키면 Groupby에서 해당 Groupby 값, 클러스터 수 및 기록을 볼 수 있습니다.
    그림 1. 클러스터 시각화 예시
    클러스터링 솔루션 정의 양식의 클러스터 시각화 탭입니다. 시스템이 솔루션을 위해 형성한 클러스터를 내림차순으로 보여줍니다.

    클러스터를 열려면 클러스터를 클릭하거나 모든 그룹 표시 필터에서 선택할 수 있습니다.

    클러스터 그룹 내에서 클러스터 크기와 클러스터 품질에 대한 두 개의 슬라이드 막대를 각각 사용하여 결과를 추가로 필터링할 수 있습니다. 클러스터링 계층 구조가 있는 경우에만 나타나는 뒤로 버튼을 클릭하여 뒤로 이동할 수도 있습니다. 이 수준의 클러스터를 가리키면 클러스터 개념, 품질 및 크기 값과 함께 순도 필드 백분위수 값이 나타납니다.
    그림 2. 클러스터 그룹 예
    클러스터 그룹입니다. 클러스터 크기 및 클러스터 품질을 필터링할 수 있습니다. 이 수준의 클러스터를 가리키면 순도 필드 값이 나타납니다.
    클러스터 노드를 클릭하면 해당 ML 클러스터 세부 정보가 목록 뷰 형식으로 나타납니다.
    그림 3. 클러스터 상세 페이지
    ML 클러스터 세부 정보 테이블에는 클러스터링 솔루션에 대한 기록 ID, Groupby 노드, ML 솔루션 이름 및 순위 백분율이 포함되어 있으며 목록 뷰 형식으로 표시됩니다.

    다음에 수행할 작업

    • 솔루션의 솔루션 통계 탭에서 솔루션 출력을 검토합니다. 클러스터링 솔루션 결과가 만족스럽지 않은 경우 솔루션에 설정한 값을 다시 구성하고 결과가 만족스러울 때까지 다시 학습시킵니다.

    • 클러스터 ID, 품질 크기 및 Groupby 값의 목록 뷰에 대한 클러스터 요약 탭을 검토하십시오.
      그림 4. 클러스터 요약 예
      클러스터 요약 테이블에는 모든 클러스터가 클러스터 ID, 품질, 크기 및 groupby 값별로 나열됩니다.
    • 클러스터 업데이트 탭에서 솔루션 정의에서 구성한 각 클러스터 업데이트 간격에 대한 클러스터의 변경 내용 요약을 검토합니다.
      그림 5. 클러스터 업데이트 예
      클러스터 업데이트 탭에는 다른 클러스터에 할당된 기록, 새로 만든 기록, 새 클러스터에 할당된 기록 수, 클러스터링된 총 기록 수가 표시됩니다.