見出し語と Unicode 正規化

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:3分
  • AI 検索 はインデックス作成中および検索クエリ時に、語形変化した単語と Unicode グリフを正規化します。正規化により検索の再呼び出しが改善され、ユーザーは検索クエリ用語の活用形式でコンテンツを検索できるようになります。

    正規化機能は自動的に有効になり、構成することはできません。

    見出し語正規化

    多くの言語には、複数形の用語や動詞のテンスなど、活用形の用語が含まれています。AI 検索 は、インデックス付きコンテンツおよび検索クエリで見つかった活用された用語を正規化します。正規化では、名詞複数形の単数形や活用動詞の基本形など、語根形式に基づいて照合を行うことができます。この語根形式は見出し語と呼ばれ、このプロセスは見出し語正規化と呼ばれます。

    たとえば、ソースレコードに結合された動詞の selling が含まれている場合、AI 検索 はインデックス作成された用語を展開して、selling に加えて見出し語形式の sellを含めます。ユーザーが過去形活用形式 sold を検索するときは、AI 検索 は検索クエリ用語を展開して、sold に加えて見出し語形式 sell を含めます。インデックス作成された用語と検索クエリ用語に一致する形式が含まれているため、ユーザーの検索では結果として selling のレコードが返されます。

    AI 検索 は、、ブラジルポルトガル語、オランダ語、英語、フランス語、カナダフランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、簡体字中国語、スペイン語、スウェーデン語、繁体字中国語 の言語固有の見出し語正規化をサポートしています。

    単語分解

    、ドイツ語、韓国語、スウェーデン語 の見出し語を正規化することに加えて、AI 検索 は複合単語とその個々の構成単語にインデックスを付けます。たとえば、複合単語 Humanressourcen を含むドイツ語レコードにインデックスを付ける場合、AI 検索 はこの複合単語に加えて構成単語である Human および ressourcen にインデックスを付けます。

    Unicode 正規化

    AI 検索 は Unicode 正規化をインデックス付き用語と検索クエリ用語で実行します。この正規化により、アルファベットの Unicode グリフは、最も近い同等の文字を使用して検索できます。

    たとえば、resumé という用語を含むレコードのインデックスを作成する場合、AI 検索 はこの用語を展開して、アクセント記号のない形式 resume も含めます。このレコードは、ユーザーが resume または resumé のいずれかを検索すると、検索結果として表示されます。

    Unicode 正規化には、NFKD (互換性分解) ステージと NFKC (互換性構成) ステージがあります。これらの正規化形式の詳細については、『Unicode 標準付属書 #15』(https://www.unicode.org/reports/tr15/) を参照してください。

    他の検索機能とのインタラクション

    次の表は、正規化と他の検索機能の間のインタラクションを示しています。

    機能 見出し語と Unicode 正規化のインタラクション
    Genius 結果

    補題または Unicode 正規化によって追加された検索クエリ用語は、用語トリガー条件を使用して Genius 結果構成をトリガーすることはできません。

    結果改善ルール

    補題または Unicode 正規化によって追加された検索クエリ用語は、ルールのクエリトリガーと一致する場合に、結果改善ルールをトリガーできます。

    ストップワード

    検索クエリ用語がストップワードとして定義されている場合、AI 検索 は用語を正規化せずに削除します。

    同義語

    検索クエリ用語が同義語として定義されている場合、AI 検索 はその用語を正規化しません。

    タイポ処理

    AI 検索 は、自動修正済み検索クエリ用語で補題と Unicode 正規化を実行します。