Lemma 및 유니코드 정규화

워싱턴 DC Now Platform 관리

Release

washingtondc

ft:locale

ko-KR

ft:publication_title

워싱턴 DC Now Platform 관리

ft:clusterId

platadm

bundleId

platadm

workflow

Platform

Lemma 및 유니코드 정규화

릴리스 버전: Washingtondc

업데이트 날짜 2024년 02월 01일

읽기2분

AI 검색 인덱싱 중과 검색 쿼리 시간에 굴절된 단어와 유니코드 글리프를 정규화합니다. 정규화는 검색 재현율을 개선하고 사용자가 검색 쿼리 용어의 변형 양식이 있는 컨텐츠를 찾을 수 있도록 합니다.

정규화 기능은 자동으로 활성화되며 구성할 수 없습니다.

Lemma 정규화

많은 언어에는 복수 명사 또는 동사 시제와 같은 굴절된 형태의 용어가 포함되어 있습니다. AI 검색 인덱싱된 컨텐츠 및 검색 쿼리에서 발견되는 굴절된 용어를 정규화합니다. 정규화를 사용하면 복수 명사의 단수 또는 활용 동사의 기본 형식과 같은 어근 형식을 기준으로 일치시킬 수 있습니다. 이 루트 형식을 기본형이라고 하며, 이 프로세스를 기본형 정규화라고 합니다.

예를 들어 원본 레코드에 활용형 동사 sellingAI 검색이 포함된 경우 은 selling과 함께 기본형 형식 sell을 포함하도록 인덱싱된 용어를 확장합니다. 사용자가 과거 시제 활용 형태 soldAI 검색 를 검색하면 정리 형태 sell 및 sold sold를 포함하도록 검색 쿼리 용어를 확장합니다. 인덱싱된 용어와 검색 쿼리 용어에 일치하는 양식이 포함되어 있기 때문에 사용자의 검색은 판매 기록을 결과로 반환합니다.

AI 검색 에 대한 영어, 프랑스어(캐나다), 프랑스어, 독일어, 일본어, 중국어 간체, 스페인어 및 중국어 번체언어별 표제어 정규화를 지원합니다.

독일 탈복합화

에 대한 독일어AI 검색 표제어를 정규화하는 것 외에도 복합 단어와 개별 구성 요소 단어를 색인화합니다. 예를 들어 복합 단어 HumanressourcenAI 검색이 포함된 레코드를 인덱싱할 때 복합 단어 외에 구성 요소 용어 Human 및 ressourcen을 인덱싱합니다.

유니코드 정규화

AI 검색 인덱싱된 용어 및 검색 쿼리 용어에 대해 유니코드 정규화를 수행합니다. 이 정규화로 인해 알파벳 유니코드 글리프는 가장 가까운 해당 문자를 사용하여 검색할 수 있습니다.

예를 들어 resuméAI 검색라는 용어가 포함된 레코드를 인덱싱할 때 에서는 악센트 부호가 없는 양식 이력서도 포함하도록 용어를 확장합니다. 이 기록은 사용자가 이력서 또는 이력서를 검색할 때 검색 결과로 나타납니다.

유니코드 정규화에는 NFKD(호환성 분해) 및 NFKC(호환성 구성) 단계가 포함됩니다. 이러한 정규화 양식에 대한 자세한 내용은 Unicode Standard Annex #15, https://www.unicode.org/reports/tr15/를 참조하십시오.

다른 검색 기능과의 상호 작용

다음 표에서는 정규화와 다른 검색 기능 간의 상호 작용에 대해 설명합니다.


기능	기본형(lemma) 및 유니코드 정규화(Unicode normalization)와의 상호 작용
Genius 결과	기본형 또는 유니코드 정규화에 의해 추가된 검색 쿼리 용어는 용어 트리거 조건이 있는 Genius Result 구성을 트리거할 수 없습니다.
결과 개선 규칙	기본형(lemma) 또는 유니코드 정규화(unicode normalization)에 의해 추가된 검색 쿼리 용어는 규칙의 쿼리 트리거와 일치하는 경우 결과 개선 규칙을 트리거할 수 있습니다.
스톱 워드	검색 쿼리 용어가 스톱 워드 AI 검색 로 정의된 경우 해당 용어를 정규화하지 않고 제거합니다.
동의어	검색 쿼리 용어가 동의어로 AI 검색 정의된 경우 이를 정규화하지 않습니다.
오타 처리	AI 검색 자동 수정된 검색 쿼리 용어에 대해 기본형과 유니코드 정규화를 수행합니다.