단어 말뭉치 만들기

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 읽기3분
  • 텍스트 유사성을 기반으로 인스턴스 기록을 비교하기 위해 시스템이 사용하는 어휘로서 기능을 하는 단어와 구의 컬렉션을 빌드합니다. 말뭉치라는 단어는 기계 학습 시스템에서 이해하려는 사전으로 생각할 수 있습니다.

    시작하기 전에

    필요한 역할: ml_admin 또는 admin

    이 태스크 정보

    중요사항:
    릴리스에서는 Xanadu 클러스터링 및 유사성 모델이 워크플로우 솔루션을 사용합니다. 이들은 미리 학습되어 있으므로 새 솔루션에 단어 말뭉치가 필요하지 않습니다. 업그레이드 후 단어 말뭉치가 포함된 기존 솔루션을 다시 교육하면 워크플로우 솔루션이 되고 단어 뭉치 필드가 양식에서 제거됩니다.

    레거시 컨텍스트에 대해 제공되는 정보는 다음과 같습니다.

    단어 말뭉치의 주요 목적은 모델 학습을 위한 텍스트 데이터를 유추하는 것입니다 NLU . 솔루션에서 단어 뭉치를 사용하는 경우 솔루션의 솔루션 정의 단계에서 학습할 수 있도록 해당 단어 뭉치를 지정해야 합니다. 학습된 단어 말뭉치는 여러 솔루션과 기능 간에 다시 사용할 수 있습니다.

    단어 말뭉치를 사용하면 한 테이블 또는 여러 테이블에서 유사한 기록 텍스트를 비교할 수 있습니다. 단어 말뭉치는 데이터 분석, 재사용 또는 검토를 위해 유사한 레코드를 함께 그룹화하는 클러스터링과 같은 다른 시나리오에서도 유용할 수 있습니다. 말뭉치에 추가하는 항목은 회사 및 업계에 따라 달라야 하므로 다른 유사성 또는 클러스터링 솔루션에서 재사용하고 다양한 사용 사례에 적용할 수 있습니다.

    이 예시 절차에서는 인시던트 기록에 대한 작업을 수행하며 해당 인시던트 케이스에 대한 해결책을 제공할 수 있는 관련 KB(지식베이스) 문서를 찾으려고 합니다. 여기서의 목표는 활성 인시던트를 게시된 KB 문서와 비교하는 새로운 유사성 솔루션에 적용할 수 있는 단어 말뭉치를 만드는 것입니다.

    프로시저

    1. 다음으로 이동 모두 > 예측 인텔리전스 > Word 말뭉치.
    2. 단어 말뭉치 양식에서 새로 만들기를 클릭합니다.
    3. 다음 지침에 따라 이러한 필드를 구성합니다.
      필드 설명
      이름 말뭉치의 내용을 참조하는 고유한 제목입니다. 예를 들어 이 사용 사례에서는 활성 인시던트 및 게시된 KB와 같은 이름을 입력할 수 있는데, 이름은 솔루션을 만드는 데 도움이 되도록 말뭉치에서 마이닝할 테이블을 나타내기 때문입니다.
      활성 한 번에 여러 단어 말뭉치를 만들고 나중에 세부 구성요소를 구성하려는 경우 이 확인란을 선택합니다. 그렇지 않으면 이후 단계에서 선택할 수 있으므로 비워 둡니다.
    4. 제출을 클릭합니다.
    5. 단어 말뭉치 목록 뷰에서 새 단어 말뭉치를 찾은 다음 이름 값을 클릭하여 기록을 엽니다.
    6. 단어 말뭉치 콘텐츠 섹션에서 새로 만들기를 클릭합니다.
    7. 단어 말뭉치 컨텐츠 양식에서 다음 지침에 따라 이러한 필드를 구성하여 단어 말뭉치의 컨텐츠 구성요소를 정의합니다.
      필드 설명
      이름 말뭉치에 추가하려는 데이터를 참조하는 제목을 입력합니다(예: 지난 6개월 동안 종결된 인시던트).
      테이블 단어 말뭉치에 포함할 데이터가 들어 있는 테이블을 선택합니다. 이 사용 사례의 경우 인시던트 [incident]를 선택합니다.
      주:
      유사성 및 클러스터링 솔루션에서 사용되는 단어 말뭉치 생성을 위한 테이블당 기록 수는 300,000개로 제한됩니다.
      필터 [Closed] [is not empty] 및 [Created in last 6 months] 필터 조건 값을 선택합니다.
      필드 목록 이 사용 사례의 경우 간단한 설명, 설명해결 메모를 선택합니다.
      도메인 시스템에 말뭉치의 사용자 그룹이 자동으로 표시됩니다. 예를 들어 이 사용 사례에서는 전역 사용자 그룹을 표시합니다. 다른 사용자 그룹도 선택할 수 있습니다.
    8. 제출을 클릭합니다.
    9. 단어 말뭉치 세부 정보 섹션에서 새로 만들기를 클릭합니다.
    10. 아래 지침에 따라 이러한 필드를 구성하여 단어 말뭉치에 대한 두 번째 컨텐츠 구성요소를 정의합니다.
      필드 설명
      이름 첫 번째 컨텐츠 구성요소와 비교할 데이터를 참조하는 제목을 입력합니다(예: 게시된 KB 문서).
      테이블 첫 번째 컨텐츠 구성요소와 비교할 데이터가 포함된 테이블을 선택합니다. 이 사용 사례의 경우 지식 [kb_knowledge]을 선택합니다.
      주:
      유사성 및 클러스터링 솔루션에서 사용되는 단어 말뭉치를 만들기 위한 테이블당 기록 수는 테이블당 300,000개로 제한됩니다.
      필터 다음 필터 조건 값 [Workflow] [is] [Published]를 선택합니다.
      필드 목록 짧은 설명문서 본문을 선택합니다.
    11. 제출을 클릭합니다.

      두 단어 말뭉치 컨텐츠 구성요소가 단어 말뭉치 양식에 나타납니다.

      이 이미지는 단어 말뭉치에 대해 만든 두 개의 컨텐츠 구성요소를 보여줍니다.
    12. 업데이트를 클릭합니다.

    결과

    생성한 완성된 단어 말뭉치가 단어 말뭉치 양식에 나타납니다.

    업데이트를 클릭하면 시스템에서 구성요소 추가의 유효성을 검사하여 말뭉치 생성 프로세스를 완료합니다.