유사한 기록을 클러스터로 그룹화하여 기록을 일괄적으로 처리하거나 패턴을 파악할 수 있습니다.
시작하기 전에
필요한 역할: ml_admin 또는 admin
중요사항:
릴리스에서는 Xanadu 클러스터링 및 유사성 모델이 워크플로우 솔루션을 사용합니다. 이들은 미리 학습되어 있으므로 새 솔루션에 단어 말뭉치가 필요하지 않습니다. 업그레이드 후 단어 말뭉치가 포함된 기존 솔루션을 다시 교육하면 워크플로우 솔루션이 되고 단어 뭉치 필드가 양식에서 제거됩니다.
이 태스크 정보
이 예시 절차에서는 최근에 발생한 유사한 인시던트를 그룹화하여 중요 인시던트를 식별하는 솔루션을 만듭니다.
하나 이상의 클러스터로 그룹화할 기록 유형이 포함된 테이블을 선택합니다. 예를 들어, 이 사용 사례에서는 중요 인시던트 분석을 위해 함께 그룹화할 인시던트 기록이 포함된 인시던트 [incident] 테이블을 선택합니다.
테이블 값을 할당하면 현재 조건과 일치하는 기록 수를 보여주는 링크가 양식에 나타납니다.
필드
시스템에서 클러스터에 포함할 기록을 식별하는 데 도움이 되는 입력 필드 유형을 하나 이상 선택합니다. 이 사용 사례에서는 짧은 설명을 사용합니다.
주:
참조 유형 필드를 선택할 때 필드의 속성 이름으로 닷워킹해야 합니다. 예를 들어 short_description 대신 short_description.name을 입력합니다.
그룹 기준 사용
클러스터를 생성하기 전에 입력 기록을 필드별로 그룹화하려는 경우에만 이 확인란을 선택합니다.
주:
이 확인란을 선택하면 그룹화 기준 목록이 활성화됩니다. 이 확인란을 선택하지 않으면 모든 테이블 기록이 클러스터로 그룹화됩니다.
그룹화 기준
이 목록에서 값을 선택하는 것은 선택 사항입니다. 이렇게 하면 선택 사항에 따라 시스템이 기록을 하나 이상의 클러스터로 그룹화합니다.
순도 필드
시스템에서 클러스터에서 가장 자주 발생하는 클래스를 식별하는 데 도움이 될 수 있는 테이블을 선택하십시오. 이 예제 시나리오에서는 범주 및 할당 그룹을 선택합니다. 이름.
필터
클러스터에 포함하려는 입력 필드 기록에 적용할 필터 조건을 추가합니다. 클러스터링을 위한 기록 수는 300,000개로 제한됩니다.
주:
필터에서 스크립트 포함을 참조할 수 없습니다. 대안으로 데이터베이스 뷰를 사용합니다.
처리 언어
솔루션 정의에서 교육하려는 데이터 세트의 지배적 언어를 선택합니다. 데이터 세트 언어가 이탈리아어인 경우 이탈리아어를 선택합니다. 또한 기본적으로 모든 데이터 세트에 영어 처리가 적용됩니다. 예를 들어, 이탈리아어를 선택하면 시스템이 데이터를 영어와 이탈리아어로 처리합니다.
주:
처리 중이라는 용어는 솔루션 교육의 일부로 사용되는 언어별 단계를 나타냅니다. 예를 들면 단어 토큰화, 스톱 워드 제거, 어간 추출 등입니다.
스톱 워드
처리 언어를 선택하면 시스템이 자동으로 해당 언어로 스톱 워드 목록을 추가합니다. 예를 들어, 처리 언어가 이탈리아어인 경우 기본 이탈리아어 스톱 워드 목록이 나타납니다. 기본 영어 스톱 워드 목록도 포함되어 있습니다. 사용자 지정 중지 단어 목록을 만드는 경우 중지 단어 필드에서 해당 목록을 선택하여 솔루션에 추가할 수 있습니다.
업데이트 빈도
시스템이 새 기록과 업데이트된 기록으로 클러스터를 업데이트하는 빈도를 선택합니다.
주:
시스템은 클러스터링 솔루션에서 설정한 그룹화 기준 필터 조건(있는 경우)에 따라 레코드를 가져옵니다.
예를 들어 매 15분을 선택하면 시스템은 해당 시간 범위 내에 도착한 기록을 식별합니다. 시스템은 기존 클러스터에 할당을 시도하거나 가능한 경우 새 클러스터를 만듭니다.
이 예에서는 20개의 새 레코드가 도착합니다. 이러한 기록 중 16개가 기존 클러스터에 포함되고 4개는 기존 클러스터에 포함되지 않는 경우 시스템은 할당되지 않은 기록 4개에 대해 새 클러스터를 형성합니다.
클러스터를 전혀 업데이트하지 않도록 선택할 수도 있습니다.
교육 빈도
시스템에서 이전의 클러스터 결과를 모두 취소하고 처음부터 클러스터를 다시 생성하는 빈도를 선택합니다. 옵션은 매일, 3일마다, 7일마다 또는 매월까지 다양합니다. 클러스터를 한 번만 훈련하도록 선택할 수도 있습니다.
주:
ML 스케줄러는 인스턴스가 커밋할 수 있는 교육 수를 24시간 내에 인스턴스당 50개의 새로운 ML 교육 요청으로 제한합니다. 이 제한에서 예약된 재교육 요청은 제외됩니다. 또한 클러스터링 및 유사성 업데이트도 새 교육 요청이 24시간 내에 50개를 초과하는 경우에도 이 제한에서 제외됩니다.
클러스터당 최소 기록 수
클러스터에 포함할 최소 레코드 수를 입력합니다. 입력하는 값은 2 이상이어야 합니다.
솔루션 정의에 적합한 컨텍스트 메뉴 옵션 또는 단추를 선택합니다.
옵션
설명
저장 또는 저장 및 교육
솔루션 정의 기록을 저장하여 나중에 반환하거나 교육을 위해 저장하고 제출할 수 있습니다.
제출 또는 제출 및 교육
솔루션 정의 기록을 만들고 제출하거나 제출하고 교육합니다.
교육용 솔루션을 제출한 경우 교육 활성화 창에서 확인을 클릭하여 확인합니다.
결과
시스템이 솔루션을 교육하고 교육이 완료되면 실시간으로 알려줍니다.
트리맵 그림이 클러스터링 솔루션 정의 양식의 클러스터 시각화 탭에 나타납니다. 이 플롯은 시스템이 솔루션에 대해 형성한 군집을 왼쪽 위 구석에서 오른쪽 아래 구석까지 내림차순으로 보여줍니다. 트리맵 노드 레이블은 클러스터의 상위 단어에 의해 생성되는 클러스터 개념이며 각 클러스터에서 찾은 가장 눈에 띄는 콘텐츠를 볼 수 있도록 도와줍니다.
주:
클러스터 개념은 처리된 입력 데이터의 상위 단어를 데이터 언어로 표시합니다. 언어에 따라 클러스터 개념은 단어를 어근 형식으로 표시하여 잘린 상태로 나타날 수 있습니다.
각 노드는 해당 노드의 클러스터 품질에 따라 빨간색에서 녹색으로 색이 지정됩니다. 그룹 선택 필터는 클러스터링 정의 양식에서 그룹 기준 사용 및 그룹화 기준 필드를 선택한 경우에만 나타납니다. 클러스터를 가리키면 Groupby 값, 클러스터 수 및 Groupby의 레코드를 볼 수 있습니다. 그림 1. 클러스터 시각화 예시
클러스터를 열려면 클러스터를 클릭하거나 모든 그룹 표시 필터에서 선택할 수 있습니다.
클러스터 그룹 내에서 클러스터 크기 및 클러스터 품질에 대해 각각 두 개의 슬라이드 막대를 사용하여 결과를 추가로 필터링할 수 있습니다. 클러스터링 계층이 있을 때만 표시되는 뒤로 버튼을 클릭하여 뒤로 이동할 수도 있습니다. 이 수준에서 클러스터를 가리키면 순도 필드 백분위수 값이 클러스터 개념, 품질 및 크기 값과 함께 나타납니다.그림 2. 클러스터 그룹 예
클러스터 노드를 클릭하면 ML 클러스터 상세 정보가 목록 보기 형식으로 표시됩니다.그림 3. 클러스터 상세 페이지
다음에 수행할 작업
솔루션의 Solution Statistics(솔루션 통계) 탭에서 솔루션 출력을 검토합니다. 클러스터링 솔루션 결과가 만족스럽지 않은 경우 솔루션으로 설정한 값을 재구성하고 결과가 만족스러울 때까지 다시 학습합니다.
클러스터 요약 탭에서 클러스터 ID, 품질 크기 및 Groupby 값의 목록 보기를 검토합니다. 그림 4. 클러스터 요약 예
Cluster Updates(클러스터 업데이트) 탭에서, 솔루션 정의에서 구성한 각 클러스터 업데이트 간격에 대한 클러스터에 대한 변경 내용 요약을 검토합니다.그림 5. 클러스터 업데이트 예