Lemma- und Unicode-Normalisierung

  • Freigeben Version: Zurich
  • Aktualisiert 31. Juli 2025
  • 2 Minuten Lesedauer
  • KI-Suche Normalisiert eingewickelte Wörter und Unicode-Glyphen während der Indizierung und zur Suchabfragezeit. Die Normalisierung verbessert den Rückruf der Suche und ermöglicht es Anwendern, Inhalte mit Variantenformen ihrer Suchabfragebegriffe zu finden.

    Normalisierungsfunktionen sind automatisch aktiviert und nicht konfigurierbar.

    Lemma-Normalisierung

    Viele Sprachen enthalten flektierte Formen von Begriffen, z. B. Pluralnomen oder Verb-Anstriche. KI-Suche Normalisiert eingewickelte Begriffe, die in indizierten Inhalten und Suchabfragen gefunden wurden. Die Normalisierung ermöglicht den Abgleich basierend auf einem Stammformular, z. B. dem Singular für ein Pluralnomen oder dem Basisformular für ein konjugiertes Verb. Dieses Stammformular wird als bezeichnet Lemma , Und dieser Prozess wird als bezeichnet Lemma-Normalisierung .

    Beispiel: Wenn ein Quelldatensatz das konjugierte Verb enthält Verkauf , KI-Suche Erweitert den indizierten Begriff um das Lemmaformular Verkaufen Zusätzlich zu Verkauf . Wenn ein Anwender nach dem konjugierten Formular in der Vergangenheit sucht Verkauft , KI-Suche Erweitert den Suchabfragebegriff, um das Lemmataformular einzubeziehen Verkaufen Sowie Verkauft . Da der indizierte Begriff und der Suchabfragebegriff übereinstimmende Formulare enthalten, gibt die Suche des Anwenders zurück Verkauf Datensatz als Ergebnis.

    KI-Suche Unterstützt die sprachspezifische Lemmanormalisierung für Brasilianisches Portugiesisch, Niederländisch, Englisch, Finnisch, Französisch, Französisch: Kanada, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch, vereinfachtes Chinesisch, Spanisch, Schwedisch und traditionelles Chinesisch .
    Hinweis:
    Beim Analysieren FinnischQuelldatensatz-Text und Suchbegriffe, KI-Suche Verwendet algorithmisches Stemmming, um Lemmas zu identifizieren.

    Entlastung

    Zusätzlich zur Normalisierung von Lemmata für Deutsch, Koreanisch und Schwedisch , KI-Suche Indiziert zusammengesetzte Wörter und ihre einzelnen Komponentenwörter. Zum Beispiel beim Indizieren eines deutschen Datensatzes, der das zusammengesetzte Wort enthält Humanressourcen , KI-Suche Indiziert die Komponentenbegriffe Menschlich Und Ressourcen Zusätzlich zur zusammengesetzten Bedingung.

    Unicode-Normalisierung

    KI-Suche Führt eine Unicode-Normalisierung für indizierte Begriffe und Suchabfragebegriffe durch. Diese Normalisierung macht alphabetische Unicode-Glyphen mit ihren nächsten entsprechenden Zeichen durchsuchbar.

    Zum Beispiel beim Indizieren eines Datensatzes, der den Begriff enthält Fortsetzen , KI-Suche Erweitert den Begriff um das Formular ohne Akzent Fortsetzen . Dieser Datensatz wird als Suchergebnis angezeigt, wenn Anwender nach einer der beiden suchen Fortsetzen Oder Fortsetzen .

    Die Unicode-Normalisierung umfasst die Phasen NFKD (Kompatibilitätsaufgliederung) und NFKC (Kompatibilitätszusammensetzung). Weitere Informationen zu diesen Normalisierungsformularen finden Sie im Unicode-Standard-Anhang Nr. 15, https://www.unicode.org/reports/tr15/.

    Interaktion mit anderen Suchfunktionen

    In der folgenden Tabelle werden Interaktionen zwischen Normalisierung und anderen Suchfunktionen beschrieben.

    Funktion Interaktion mit Lemma und Unicode-Normalisierung
    Genius-Ergebnisse

    Suchabfragebegriffe, die von der Lemma- oder Unicode-Normalisierung hinzugefügt wurden, können keine Genius-Ergebniskonfigurationen mit Bedingungsauslöserbedingungen auslösen.

    Regeln zur Ergebnisverbesserung

    Ein Suchabfragebegriff, der durch eine Lemma- oder Unicode-Normalisierung hinzugefügt wird, kann eine Ergebnisverbesserungsregel auslösen, wenn er dem Abfrageauslöser der Regel entspricht.

    Stoppwörter

    Wenn ein Suchabfragebegriff als Stoppwort definiert ist, KI-Suche Entfernt diesen Begriff, ohne ihn zu normalisieren.

    Synonyme

    Wenn ein Suchabfragebegriff als Synonym definiert ist, KI-Suche Normalisiert es nicht.

    Tippfehlerbehandlung

    KI-Suche Führt eine Lemma- und Unicode-Normalisierung für automatisch korrigierte Suchabfragebegriffe durch.