Lemma 및 유니코드 정규화
AI 검색 인덱싱 중과 검색 쿼리 시간에 굴절된 단어와 유니코드 글리프를 정규화합니다. 정규화는 검색 재현율을 개선하고 사용자가 검색 쿼리 용어의 변형 양식이 있는 컨텐츠를 찾을 수 있도록 합니다.
정규화 기능은 자동으로 활성화되며 구성할 수 없습니다.
Lemma 정규화
많은 언어에는 복수 명사 또는 동사 시제와 같은 굴절된 형태의 용어가 포함되어 있습니다. AI 검색 인덱싱된 컨텐츠 및 검색 쿼리에서 발견되는 굴절된 용어를 정규화합니다. 정규화를 사용하면 복수 명사의 단수 또는 활용 동사의 기본 형식과 같은 어근 형식을 기준으로 일치시킬 수 있습니다. 이 루트 형식을 기본형이라고 하며, 이 프로세스를 기본형 정규화라고 합니다.
예를 들어 원본 레코드에 활용형 동사 sellingAI 검색이 포함된 경우 은 selling과 함께 기본형 형식 sell을 포함하도록 인덱싱된 용어를 확장합니다. 사용자가 과거 시제 활용 형태 soldAI 검색 를 검색하면 정리 형태 sell 및 sold sold를 포함하도록 검색 쿼리 용어를 확장합니다. 인덱싱된 용어와 검색 쿼리 용어에 일치하는 양식이 포함되어 있기 때문에 사용자의 검색은 판매 기록을 결과로 반환합니다.
AI 검색 에 대한 영어, 프랑스어(캐나다), 프랑스어, 독일어, 일본어, 중국어 간체, 스페인어 및 중국어 번체언어별 표제어 정규화를 지원합니다.
독일 탈복합화
에 대한 독일어AI 검색 표제어를 정규화하는 것 외에도 복합 단어와 개별 구성 요소 단어를 색인화합니다. 예를 들어 복합 단어 HumanressourcenAI 검색이 포함된 레코드를 인덱싱할 때 복합 단어 외에 구성 요소 용어 Human 및 ressourcen을 인덱싱합니다.
유니코드 정규화
AI 검색 인덱싱된 용어 및 검색 쿼리 용어에 대해 유니코드 정규화를 수행합니다. 이 정규화로 인해 알파벳 유니코드 글리프는 가장 가까운 해당 문자를 사용하여 검색할 수 있습니다.
예를 들어 resuméAI 검색라는 용어가 포함된 레코드를 인덱싱할 때 에서는 악센트 부호가 없는 양식 이력서도 포함하도록 용어를 확장합니다. 이 기록은 사용자가 이력서 또는 이력서를 검색할 때 검색 결과로 나타납니다.
유니코드 정규화에는 NFKD(호환성 분해) 및 NFKC(호환성 구성) 단계가 포함됩니다. 이러한 정규화 양식에 대한 자세한 내용은 Unicode Standard Annex #15, https://www.unicode.org/reports/tr15/를 참조하십시오.
다른 검색 기능과의 상호 작용
다음 표에서는 정규화와 다른 검색 기능 간의 상호 작용에 대해 설명합니다.
| 기능 | 기본형(lemma) 및 유니코드 정규화(Unicode normalization)와의 상호 작용 |
|---|---|
| Genius 결과 | 기본형 또는 유니코드 정규화에 의해 추가된 검색 쿼리 용어는 용어 트리거 조건이 있는 Genius Result 구성을 트리거할 수 없습니다. |
| 결과 개선 규칙 | 기본형(lemma) 또는 유니코드 정규화(unicode normalization)에 의해 추가된 검색 쿼리 용어는 규칙의 쿼리 트리거와 일치하는 경우 결과 개선 규칙을 트리거할 수 있습니다. |
| 스톱 워드 | 검색 쿼리 용어가 스톱 워드 AI 검색 로 정의된 경우 해당 용어를 정규화하지 않고 제거합니다. |
| 동의어 | 검색 쿼리 용어가 동의어로 AI 검색 정의된 경우 이를 정규화하지 않습니다. |
| 오타 처리 | AI 검색 자동 수정된 검색 쿼리 용어에 대해 기본형과 유니코드 정규화를 수행합니다. |