클러스터링 솔루션 생성 및 교육

릴리스 버전: Washingtondc

업데이트 날짜 2024년 02월 01일

읽기6분

유사한 기록을 클러스터로 그룹화하여 기록을 일괄적으로 처리하거나 패턴을 파악할 수 있습니다.

시작하기 전에

필요한 역할: ml_admin 또는 admin

중요사항:

릴리스에서는 Washington DC 클러스터링 및 유사성 모델이 워크플로우 솔루션을 사용합니다. 이들은 미리 학습되었으므로 새 솔루션에 단어 말뭉치가 필요하지 않습니다. 업그레이드 후 단어 말뭉치를 사용하는 기존 솔루션을 다시 교육하면 해당 솔루션이 워크플로우 솔루션이 되고 단어 말뭉치 필드가 양식에서 제거됩니다.

이 태스크 정보

예측 인텔리전스 는 원본 데이터가 이러한 유형의 암호화로 보호되는 교육 솔루션을 지원합니다.

FDE(전체 디스크 암호화).
열 수준 암호화. Column Level Encryption을 사용하는 경우 sharedservice.worker 사용자에게 암호화에 사용된 것과 동일한 암호화 모듈 역할이 있는지 확인합니다.

예측 인텔리전스 는 Edge Encryption으로 원본 데이터를 암호화하는 교육 솔루션을 지원하지 않습니다.

이 예시 절차에서는 중요 인시던트를 식별하기 위해 최근에 발생한 유사한 인시던트를 그룹화합니다.

프로시저

다음으로 이동 모두 > Predictive Intelligence > 클러스터링 > 솔루션 정의레이블이 표시됩니다.
Clustering Definitions(클러스터링 정의) 목록에서 New(새로 만들기)를 클릭합니다.

클러스터링 정의 양식에서 다음 지침에 따라 이러한 필드를 구성합니다.


필드	값
레이블	클러스터링 솔루션의 고유한 이름을 입력합니다. 예를 들어, 이 사용 사례에서는 `그룹 인시던트를 중요 인시던트에 입력할 수 있습니다.`
이름	솔루션 레이블 값을 입력하면 이 필드는 레이블 값과 유사한 시스템 할당 이름으로 자동으로 채워집니다.
Word 말뭉치	레거시 클러스터링 솔루션이 있는 경우 정의 양식의 단어 말뭉치 필드에서 관련 단어 말뭉치를 선택할 수 있습니다. 주: Washington DC 릴리스에서는 미리 학습된 모델이 대신 사용되므로 단어 말뭉치가 필요하지 않습니다. 단어 말뭉치 필드는 미리 학습된 모델의 정의 양식에 표시되지 않습니다. 자세한 내용은 단어 말뭉치 생성 문서를 참조하십시오.
테이블	하나 이상의 클러스터로 그룹화할 기록 유형이 포함된 테이블을 선택합니다. 예를 들어, 이 사용 사례에서는 중요 인시던트 분석을 위해 함께 그룹화할 인시던트 기록이 포함된 인시던트 [incident] 테이블을 선택합니다. 테이블 값을 할당하면 현재 조건과 일치하는 기록 수를 보여주는 링크가 양식에 나타납니다.
필드	시스템이 클러스터에 포함하려는 기록을 식별하는 데 도움이 되는 하나 이상의 입력 필드 유형을 선택합니다. 이 사용 사례에서는 짧은 설명을 사용합니다. 주: 참조 유형 필드를 선택할 때 필드의 속성 이름으로 닷워킹해야 합니다. 예를 들어 `short_description` 대신 `short_description.name`을 입력합니다.
그룹 기준 사용	클러스터를 생성하기 전에 입력 기록을 필드별로 그룹화하려는 경우에만 이 확인란을 선택합니다. 주: 이 확인란을 선택하면 그룹화 기준 목록이 활성화됩니다. 확인란을 선택하지 않으면 모든 테이블 기록이 클러스터로 그룹화됩니다.
그룹화 기준	이 목록에서 값을 선택하는 것은 선택 사항입니다. 이렇게 하면 시스템이 선택에 따라 기록을 하나 이상의 클러스터로 그룹화합니다.
순도 필드	시스템에서 클러스터에서 가장 자주 발생하는 클래스를 식별하는 데 도움이 될 수 있는 테이블의 필드를 선택합니다. 이 예제 시나리오에서는 범주 및 할당 그룹을 선택합니다. 이름.
필터	클러스터에 포함할 입력 필드 기록에 적용할 필터 조건을 추가합니다. 주: 클러스터링을 위한 기록 수는 300,000개로 제한됩니다.
처리 언어	솔루션 정의에서 교육하려는 데이터 세트의 지배적 언어를 선택합니다. 데이터 세트 언어가 이탈리아어인 경우 이탈리아어를 선택합니다. 또한 기본적으로 모든 데이터 세트에 영어 처리가 적용됩니다. 예를 들어, 이탈리아어를 선택하면 시스템이 데이터를 영어와 이탈리아어로 처리합니다. 주: 처리 중이라는 용어는 솔루션 교육의 일부로 사용되는 언어별 단계를 나타냅니다. 예를 들면 단어 토큰화, 스톱 워드 제거, 어간 추출 등입니다.
스톱 워드	처리 언어를 선택하면 시스템이 자동으로 동일한 언어를 사용하는 스톱 워드 목록을 추가합니다. 예를 들어, 처리 언어가 이탈리아어인 경우 기본 이탈리아어 스톱 워드 목록이 나타납니다. 기본 영어 스톱 워드 목록도 선택에 함께 표시됩니다. 사용자 지정 스톱 워드 목록을 만드는 경우 스톱 워드 필드에서 선택하고 솔루션에 추가할 수 있습니다.
업데이트 빈도	시스템이 새 기록과 업데이트된 기록으로 클러스터를 업데이트하는 빈도를 선택합니다. 주: 시스템은 클러스터링 솔루션에 설정한 그룹화 기준 필터 조건(있는 경우)에 따라 레코드를 끌어옵니다. 예를 들어 15분 간격을 선택하면 시스템은 해당 시간 범위 내에 도착한 기록을 식별합니다. 시스템은 기존 클러스터에 할당을 시도하거나 가능한 경우 새 클러스터를 생성합니다. 이 예에서는 20개의 새 기록이 도착합니다. 이러한 기록 중 16개가 기존 클러스터에 포함되고 4개가 기존 클러스터에 포함되지 않는 경우 시스템은 할당되지 않은 4개의 기록에 대해 새 클러스터를 형성합니다. 클러스터를 전혀 업데이트하지 않도록 선택할 수도 있습니다.
교육 빈도	시스템에서 이전의 모든 클러스터 결과를 취소하고 처음부터 클러스터를 다시 만들 빈도를 선택합니다. 옵션은 매일, 3일마다, 7일마다 또는 매월 있습니다. 클러스터를 한 번 훈련하도록 선택할 수도 있습니다. 주: ML 스케줄러는 인스턴스가 커밋할 수 있는 교육의 수를 24시간 동안 인스턴스당 50개의 새로운 ML 교육 요청으로 제한합니다. 이 제한에서 예약된 재교육 요청은 제외됩니다. 또한 새 교육 요청이 24시간 내에 50개를 초과하는 경우에도 클러스터링 및 유사성 업데이트는 이 제한에서 제외됩니다.
클러스터당 최소 기록 수	클러스터에 포함할 최소 기록 수를 입력합니다. 입력하는 값은 2보다 크거나 같아야 합니다.

솔루션 정의에 대한 적절한 컨텍스트 메뉴 옵션 또는 버튼을 클릭합니다.

옵션	설명
저장 또는 저장 및 교육	솔루션 정의 기록을 저장하여 나중에 반환하거나 교육을 위해 저장하고 제출할 수 있습니다.
제출 또는 제출 및 교육	솔루션 정의 기록을 만들고 제출하거나 제출하고 교육합니다.

학습을 위해 솔루션을 제출한 경우 Training Activation(교육 활성화) 창에서 OK(확인 )를 클릭하여 확인합니다.

결과

시스템에서 솔루션을 교육하고 교육이 완료되면 실시간으로 알려줍니다.

트리맵 그림이 클러스터링 솔루션 정의 양식의 클러스터 시각화 탭에 나타납니다. 이 그림은 시스템이 솔루션에 대해 형성한 군집을 왼쪽 위 구석에서 오른쪽 아래 구석까지 내림차순으로 보여줍니다. 트리맵 노드 레이블은 클러스터의 상위 단어로 생성되는 클러스터 개념으로, 각 클러스터에서 발견된 가장 눈에 띄는 콘텐츠를 볼 수 있도록 도와줍니다.

주:

클러스터 개념은 처리된 입력 데이터의 상위 단어를 사용하고 동일한 언어를 사용합니다. 언어에 따라 클러스터 개념에 단어가 어근 형태로 포함되고 잘린 모양으로 표시될 수 있습니다.

각 노드는 해당 노드의 클러스터 품질에 따라 빨간색에서 녹색으로 색이 지정됩니다. 그룹 선택 필터는 클러스터링 정의 양식에서 그룹화 기준 사용 및 그룹화 기준 필드를 선택한 경우에만 나타납니다. 클러스터를 가리키면 Groupby 값, 클러스터 수 및 Groupby의 레코드를 볼 수 있습니다.

클러스터링 솔루션 정의 양식의 클러스터 시각화 탭. 시스템이 솔루션에 대해 형성한 클러스터를 내림차순으로 표시합니다. — 그림 1. 클러스터 시각화 예시

클러스터를 열려면 클러스터를 클릭하거나 모든 그룹 표시 필터에서 선택할 수 있습니다.

클러스터 그룹화 내에서 클러스터 크기 및 클러스터 품질에 대해 각각 두 개의 슬라이드 막대를 사용하여 결과를 추가로 필터링할 수 있습니다. 클러스터링 계층이 있는 경우에만 표시되는 뒤로 버튼을 클릭하여 뒤로 이동할 수도 있습니다. 이 수준에서 클러스터를 가리키면 순도 필드 백분위수 값이 클러스터 개념, 품질 및 크기 값과 함께 나타납니다.

클러스터 그룹입니다. 클러스터 크기 및 클러스터 품질을 필터링할 수 있습니다. 이 수준에서 클러스터를 가리키면 순도 필드 값이 나타납니다. — 그림 2. 클러스터 그룹 예

클러스터 노드를 클릭하면 해당 ML 클러스터 세부 정보가 목록 보기 형식으로 표시됩니다.

ML 클러스터 상세 정보 테이블에는 클러스터링 솔루션, 그룹별 노드, ML 솔루션 이름 및 순위 백분율에 대한 기록 ID가 포함되어 있으며 목록 뷰 형식으로 표시됩니다. — 그림 3. 클러스터 상세 페이지

다음에 수행할 작업

솔루션의 Solution Statistics(솔루션 통계) 탭에서 솔루션 출력을 검토합니다. 클러스터링 솔루션 결과가 만족스럽지 않은 경우 솔루션에 설정한 값을 재구성하고 결과가 만족스러울 때까지 다시 학습합니다.
클러스터 요약 탭에서 클러스터 ID, 품질 크기 및 Groupby 값의 목록 보기를 검토합니다.
그림 4. 클러스터 요약 예
Cluster Updates(클러스터 업데이트) 탭에서 솔루션 정의에서 구성한 각 클러스터 업데이트 간격에 대한 클러스터의 변경 내용 요약을 검토합니다.
그림 5. 클러스터 업데이트 예