Lemma- und Unicode-Normalisierung

Verwaltung der Xanadu Now Platform

Release

xanadu

ft:locale

de-DE

ft:publication_title

Verwaltung der Xanadu Now Platform

ft:clusterId

platadm

bundleId

platadm

workflow

Platform

Lemma- und Unicode-Normalisierung

Freigeben Version: Xanadu

Aktualisiert 1. August 2024

2 Minuten Lesedauer

KI-Suche normalisiert flektierte Wörter und Unicode-Glyphen während der Indizierung und während der Suchabfrage. Die Normalisierung verbessert den Sucherinnerung und ermöglicht es Anwendern, Inhalte mit Variantenformen ihrer Suchbegriffe zu finden.

Normalisierungsfunktionen werden automatisch aktiviert und können nicht konfiguriert werden.

Lemma-Normalisierung

Viele Sprachen enthalten flektierte Formen von Begriffen, z. B. Pluralnomen oder Verbformen. KI-Suche normalisiert flektierte Begriffe, die in indizierten Inhalten und Suchabfragen gefunden wurden. Die Normalisierung ermöglicht den Abgleich basierend auf einer Stammform, z. B. dem Singular für ein Pluralnomen oder der Basisform für ein konjugiertes Verb. Dieses Stammformular wird Lemmagenannt, und dieser Prozess wird Lemma-Normalisierunggenannt.

Wenn beispielsweise ein Quelldatensatz das konjugierte Verb „ Verkauf“ enthält, erweitert KI-Suche den indizierten Begriff um das Lemmaformular Verkauf zusätzlich zu Verkauf. Wenn ein Benutzer nach der konjugierten Vergangenheitsform „ verkauft“ sucht, erweitert KI-Suche den Suchbegriff um die Lemmaformulare „ verkaufen “ und „ verkaufen“. Da der indizierte Begriff und der Suchabfragebegriff übereinstimmende Formulare enthalten, gibt die Suche des Benutzers den Verkaufsdatensatz als Ergebnis zurück.

KI-Suche unterstützt die sprachspezifische Lemma-Normalisierung für (Brasilien), Niederländisch, Englisch, Französisch, Französisch - Kanada, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch, Vereinfachtes Chinesisch, Spanisch, Schwedisch, und traditionelles Chinesisch.

Dekomposition

Zusätzlich zur Normalisierung von Lemmata für , Koreanisch und SchwedischKI-Suche indiziert [] zusammengesetzte Wörter und ihre einzelnen Komponentenwörter. Wenn beispielsweise ein Deutsch-Datensatz indiziert wird, der das zusammengesetzte Wort „Humanressourcen“ enthält, indiziert KI-Suche zusätzlich zu dem zusammengesetzten Begriff die Komponentenbegriffe „ Human “ und „ ressourcen “.

Unicode-Normalisierung

KI-Suche führt die Unicode-Normalisierung für indizierte Begriffe und Suchabfragebegriffe durch. Durch diese Normalisierung können alphabetische Unicode-Glyphen anhand ihrer nächsten entsprechenden Zeichen durchsucht werden.

Wenn beispielsweise ein Datensatz indiziert wird, der den Begriff resumé enthält, erweitert KI-Suche den Begriff so, dass auch die nicht akzentuierte Form „ resume“ enthalten ist. Dieser Datensatz wird als Suchergebnis angezeigt, wenn Anwender nach „ resume “ oder „resumé“ suchen.

Die Unicode-Normalisierung umfasst die Phasen NFKD (Compatibility Decomposition) und NFKC (Compatibility Composition). Weitere Informationen zu diesen Normalisierungsformularen finden Sie im Unicode-Standardanhang Nr. 15, https://www.unicode.org/reports/tr15/.

Interaktion mit anderen Suchfunktionen

In der folgenden Tabelle werden Interaktionen zwischen Normalisierung und anderen Suchfunktionen beschrieben.


Funktion	Interaktion mit Lemma und Unicode-Normalisierung
Genius-Ergebnisse	Durch Lemma- oder Unicode-Normalisierung hinzugefügte Suchbegriffsabfragebegriffe können keine Genius-Ergebniskonfigurationen mit Begriffsauslöserbedingungen auslösen.
Regeln zur Ergebnisverbesserung	Ein durch Lemma- oder Unicode-Normalisierung hinzugefügter Suchabfragebegriff kann eine Ergebnisverbesserungsregel auslösen, wenn er mit dem Abfrageauslöser der Regel übereinstimmt.
Stoppwörter	Wenn ein Suchbegriff als Stoppwort definiert ist, entfernt KI-Suche diesen Begriff, ohne ihn zu normalisieren.
Synonyme	Wenn ein Suchbegriff als Synonym definiert ist, normalisiert KI-Suche ihn nicht.
Tippfehlerbehandlung	KI-Suche führt die Lemma- und Unicode-Normalisierung für automatisch korrigierte Suchbegriffe durch.