Lemma- und Unicode-Normalisierung

  • Freigeben Version: Xanadu
  • Aktualisiert 1. August 2024
  • 2 Minuten Lesedauer
  • KI-Suche normalisiert flektierte Wörter und Unicode-Glyphen während der Indizierung und während der Suchabfrage. Die Normalisierung verbessert den Sucherinnerung und ermöglicht es Anwendern, Inhalte mit Variantenformen ihrer Suchbegriffe zu finden.

    Normalisierungsfunktionen werden automatisch aktiviert und können nicht konfiguriert werden.

    Lemma-Normalisierung

    Viele Sprachen enthalten flektierte Formen von Begriffen, z. B. Pluralnomen oder Verbformen. KI-Suche normalisiert flektierte Begriffe, die in indizierten Inhalten und Suchabfragen gefunden wurden. Die Normalisierung ermöglicht den Abgleich basierend auf einer Stammform, z. B. dem Singular für ein Pluralnomen oder der Basisform für ein konjugiertes Verb. Dieses Stammformular wird Lemmagenannt, und dieser Prozess wird Lemma-Normalisierunggenannt.

    Wenn beispielsweise ein Quelldatensatz das konjugierte Verb „ Verkauf“ enthält, erweitert KI-Suche den indizierten Begriff um das Lemmaformular Verkauf zusätzlich zu Verkauf. Wenn ein Benutzer nach der konjugierten Vergangenheitsform „ verkauft“ sucht, erweitert KI-Suche den Suchbegriff um die Lemmaformulare „ verkaufen “ und „ verkaufen“. Da der indizierte Begriff und der Suchabfragebegriff übereinstimmende Formulare enthalten, gibt die Suche des Benutzers den Verkaufsdatensatz als Ergebnis zurück.

    KI-Suche unterstützt die sprachspezifische Lemma-Normalisierung für (Brasilien), Niederländisch, Englisch, Französisch, Französisch - Kanada, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch, Vereinfachtes Chinesisch, Spanisch, Schwedisch, und traditionelles Chinesisch.

    Dekomposition

    Zusätzlich zur Normalisierung von Lemmata für , Koreanisch und SchwedischKI-Suche indiziert [] zusammengesetzte Wörter und ihre einzelnen Komponentenwörter. Wenn beispielsweise ein Deutsch-Datensatz indiziert wird, der das zusammengesetzte Wort „Humanressourcen“ enthält, indiziert KI-Suche zusätzlich zu dem zusammengesetzten Begriff die Komponentenbegriffe „ Human “ und „ ressourcen “.

    Unicode-Normalisierung

    KI-Suche führt die Unicode-Normalisierung für indizierte Begriffe und Suchabfragebegriffe durch. Durch diese Normalisierung können alphabetische Unicode-Glyphen anhand ihrer nächsten entsprechenden Zeichen durchsucht werden.

    Wenn beispielsweise ein Datensatz indiziert wird, der den Begriff resumé enthält, erweitert KI-Suche den Begriff so, dass auch die nicht akzentuierte Form „ resume“ enthalten ist. Dieser Datensatz wird als Suchergebnis angezeigt, wenn Anwender nach „ resume “ oder „resumé“ suchen.

    Die Unicode-Normalisierung umfasst die Phasen NFKD (Compatibility Decomposition) und NFKC (Compatibility Composition). Weitere Informationen zu diesen Normalisierungsformularen finden Sie im Unicode-Standardanhang Nr. 15, https://www.unicode.org/reports/tr15/.

    Interaktion mit anderen Suchfunktionen

    In der folgenden Tabelle werden Interaktionen zwischen Normalisierung und anderen Suchfunktionen beschrieben.

    Funktion Interaktion mit Lemma und Unicode-Normalisierung
    Genius-Ergebnisse

    Durch Lemma- oder Unicode-Normalisierung hinzugefügte Suchbegriffsabfragebegriffe können keine Genius-Ergebniskonfigurationen mit Begriffsauslöserbedingungen auslösen.

    Regeln zur Ergebnisverbesserung

    Ein durch Lemma- oder Unicode-Normalisierung hinzugefügter Suchabfragebegriff kann eine Ergebnisverbesserungsregel auslösen, wenn er mit dem Abfrageauslöser der Regel übereinstimmt.

    Stoppwörter

    Wenn ein Suchbegriff als Stoppwort definiert ist, entfernt KI-Suche diesen Begriff, ohne ihn zu normalisieren.

    Synonyme

    Wenn ein Suchbegriff als Synonym definiert ist, normalisiert KI-Suche ihn nicht.

    Tippfehlerbehandlung

    KI-Suche führt die Lemma- und Unicode-Normalisierung für automatisch korrigierte Suchbegriffe durch.