Lemma- und Unicode-Normalisierung

Freigeben Version: Yokohama

Aktualisiert 30. Januar 2025

2 Minuten Lesedauer

KI-Suche Normalisiert eingewickelte Wörter und Unicode-Glyphen während der Indizierung und zur Zeit der Suchabfrage. Die Normalisierung verbessert den Rückruf der Suche und ermöglicht Anwendern, Inhalte mit Variantenformen ihrer Suchabfragebegriffe zu finden.

Normalisierungsfunktionen sind automatisch aktiviert und nicht konfigurierbar.

Lemma-Normalisierung

Viele Sprachen enthalten flektierte Formen von Begriffen, z. B. Pluralnomen oder Verb-Anordnungen. KI-SucheNormalisiert eingegrenzte Begriffe, die in indizierten Inhalten und Suchabfragen gefunden wurden. Die Normalisierung ermöglicht den Abgleich basierend auf einem Stammformular, z. B. dem Singular für ein Pluralnomen oder dem Basisformular für ein konjugiertes Verb. Dieses Stammformular wird als bezeichnet Lemma , Und dieser Prozess wird als bezeichnet Lemma-Normalisierung .

Beispiel: Wenn ein Quelldatensatz das konjugierte Verb enthält Verkauf , KI-SucheErweitert den indizierten Begriff um das Lemmaformular Verkaufen Zusätzlich zu Verkauf . Wenn ein Anwender nach dem konjugierten Formular in der Vergangenheit sucht Verkauft , KI-SucheErweitert den Suchabfragebegriff um das Lemmaformular Verkaufen Sowie Verkauft . Da der indizierte Begriff und der Suchabfragebegriff übereinstimmende Formulare enthalten, gibt die Suche des Anwenders zurück Verkauf Datensatz als Ergebnis.

KI-SucheUnterstützt die sprachspezifische Lemmanormalisierung für Brasilianisches Portugiesisch, Niederländisch, Englisch, Französisch, Französisch - Kanada, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch, vereinfachtes Chinesisch, Spanisch, Schwedisch und traditionelles Chinesisch .

Entstauung

Zusätzlich zur Normalisierung von Lemmas für Deutsch, Koreanisch und Schwedisch , KI-SucheIndiziert zusammengesetzte Wörter und ihre einzelnen Komponentenwörter. Beispiel: Beim Indizieren eines deutschen Datensatzes, der das zusammengesetzte Wort enthält Humanressourcen , KI-SucheIndiziert die Komponentenbegriffe Menschlich Und Ressourcen Zusätzlich zur zusammengesetzten Bedingung.

Unicode-Normalisierung

KI-Suche Führt eine Unicode-Normalisierung für indizierte Begriffe und Suchabfragebegriffe durch. Diese Normalisierung macht alphabetische Unicode-Glyphen mit ihren nächsten entsprechenden Zeichen durchsuchbar.

Beispiel: Beim Indizieren eines Datensatzes, der den Begriff enthält Fortsetzen , KI-SucheErweitert den Begriff, um auch das Formular ohne Akzent einzuschließen Fortsetzen . Dieser Datensatz wird als Suchergebnis angezeigt, wenn Anwender nach einer der beiden suchen Fortsetzen Oder Fortsetzen .

Die Unicode-Normalisierung umfasst die Phasen NFKD (Kompatibilitätsaufgliederung) und NFKC (Kompatibilitätszusammensetzung). Weitere Informationen zu diesen Normalisierungsformularen finden Sie im Unicode-Standard-Anhang 15, https://www.unicode.org/reports/tr15/.

Interaktion mit anderen Suchfunktionen

Die folgende Tabelle beschreibt Interaktionen zwischen Normalisierung und anderen Suchfunktionen.


Funktion	Interaktion mit Lemma und Unicode-Normalisierung
Genius-Ergebnisse	Suchabfragebegriffe, die von der Lemma- oder Unicode-Normalisierung hinzugefügt wurden, können keine Genius-Ergebniskonfigurationen mit Bedingungsauslöserbedingungen auslösen.
Regeln zur Ergebnisverbesserung	Ein Suchabfragebegriff, der durch die Lemma- oder Unicode-Normalisierung hinzugefügt wird, kann eine Ergebnisverbesserungsregel auslösen, wenn er mit dem Abfrageauslöser der Regel übereinstimmt.
Stoppwörter	Wenn ein Suchabfragebegriff als Stoppwort definiert ist, KI-SucheEntfernt diesen Begriff, ohne ihn zu normalisieren.
Synonyme	Wenn ein Suchabfragebegriff als Synonym definiert ist, KI-SucheNormalisiert es nicht.
Tippfehlerbehandlung	KI-Suche Führt eine Lemma- und Unicode-Normalisierung für automatisch korrigierte Suchabfragebegriffe durch.