Lemma 및 유니코드 정규화

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 소요 시간: 2분
  • AI 검색 인덱싱 도중과 검색 쿼리 시에 굴절된 단어와 유니코드 글리프를 정규화합니다. 정규화는 검색 상기를 개선하고 사용자가 검색 쿼리 용어의 변형 형식을 사용하여 콘텐츠를 찾을 수 있도록 합니다.

    정규화 기능은 자동으로 활성화되며 구성할 수 없습니다.

    Lemma 정규화

    많은 언어에는 복수 명사 또는 동사 시제와 같은 굴절된 형태의 용어가 포함되어 있습니다. AI 검색 인덱싱된 컨텐츠와 검색 쿼리에서 발견되는 굴절된 용어를 정규화합니다. 정규화를 사용하면 복수 명사의 단수 또는 활용 동사의 기본 형식과 같은 루트 형식을 기반으로 일치시킬 수 있습니다. 이 루트 형식을 기본형이라고 하며, 이 프로세스를 기본형 정규화라고 합니다.

    예를 들어 원본 레코드에 활용 동사 sellingAI 검색이 포함된 경우 selling과 함께 기본형 형식 sell을 포함하도록 인덱싱된 용어를 확장합니다. 사용자가 과거 시제 활용 형태 sold 를AI 검색 검색하면 기본형 sellsold를 포함하도록 검색 쿼리 용어가 확장됩니다. 인덱싱된 용어와 검색 쿼리 용어에 일치하는 양식이 포함되어 있기 때문에 사용자의 검색은 결과로 판매 기록을 반환합니다.

    AI 검색 에 대한 ) 포르투갈어(브라질), 네덜란드어, 영어, 프랑스어, 프랑스어(캐나다), 독일어, 이탈리아어, 일본어, 포르투갈어, 중국어(간체), 스페인어, 스웨덴어, 중국어(번체)언어별 기본형 정규화를 지원합니다.

    디컴파운딩

    AI 검색 대한 , 한국어, 스웨덴어표제어를 정규화하는 것 외에도 복합 단어와 개별 구성 단어를 색인화합니다. 예를 들어 복합 단어 HumanressourcenAI 검색이 포함된 독일어 레코드를 인덱싱하는 경우 복합 단어 외에 구성 요소 용어 Humanressourcen을 인덱싱합니다.

    유니코드 정규화

    AI 검색 인덱싱된 용어 및 검색 쿼리 용어에 대해 유니코드 정규화를 수행합니다. 이 정규화를 통해 알파벳 유니코드 글리프는 가장 가까운 해당 문자를 사용하여 검색할 수 있습니다.

    예를 들어 resuméAI 검색라는 용어가 포함된 레코드를 인덱싱할 때 악센트 부호가 없는 양식 이력서도 포함하도록 용어를 확장합니다. 이 기록은 사용자가 이력서 또는 이력서를 검색할 때 검색 결과로 나타납니다.

    유니코드 정규화에는 NFKD(호환성 분해) 및 NFKC(호환성 구성) 단계가 포함됩니다. 이러한 정규화 양식에 대한 자세한 내용은 유니코드 표준 부록 #15를 https://www.unicode.org/reports/tr15/참조하십시오.

    다른 검색 기능과의 상호 작용

    다음 표에서는 정규화와 다른 검색 기능 간의 상호 작용에 대해 설명합니다.

    기능 표제어 및 유니코드 정규화와의 상호 작용
    Genius 결과

    기본형 또는 유니코드 정규화에 의해 추가된 검색 쿼리 용어는 용어 트리거 조건이 있는 Genius 결과 구성을 트리거할 수 없습니다.

    결과 개선 규칙

    기본형 또는 유니코드 정규화에 의해 추가된 검색 쿼리 용어는 규칙의 쿼리 트리거와 일치하는 경우 결과 개선 규칙을 트리거할 수 있습니다.

    스톱 워드

    검색 쿼리 용어가 스톱 워드로 정의된 경우 용어를 AI 검색 정규화하지 않고 제거합니다.

    동의어

    검색 쿼리 용어가 동의어로 정의된 경우 정규 AI 검색 화하지 않습니다.

    오타 처리

    AI 검색 은 자동 수정된 검색 쿼리 용어에 대해 기본형(lemma) 및 유니코드 정규화(unicode normalization)를 수행합니다.