Auswertungsmetriken und Berechnungen

  • Freigeben Version: Zurich
  • Aktualisiert 3. September 2025
  • 3 Minuten Lesedauer
  • Metriken, anhand derer Konversationen ausgewertet werden, und Berechnung angepasster Punktzahlen.

    Metriken

    Die Liste Metrik auswählen zeigt alle Metriken an, anhand derer jede Konversation für den ausgewählten Datumsbereich ausgewertet wird. Sie können den Auswertungstrend basierend auf jeder Metrik filtern. Die folgenden Metriken sind verfügbar:
    Metrik Beschreibung
    Abschluss Anfordern Misst die Fähigkeit des Virtual Agent, Anwenderanforderungen abzuschließen, indem die Absicht des Anwenders genau identifiziert und alle erforderlichen Informationen erfasst werden (Slot-Ausfüllung).
    Absichtsgenauigkeit Zeigt die Fähigkeit des Virtual Agent, Anwenderanforderungen zu verstehen, was zu relevanten Antworten führt.
    Slot-Ausfüllung Zeigt die Fähigkeit des Virtual Agent, Anwenderantworten zu interpretieren und strukturierte Antworten auf die erforderlichen Fragen zu extrahieren.
    Glätte (Vermeidung von Stillstandszeiten) Überprüft, ob der Virtual Agent dynamisch reagiert und die Konversation ohne Wiederholung erfolgreich weiterleitet.
    Kontextaufbewahrung Zeigt an, ob der Virtual Agent die während der Konversation bereitgestellten Informationen, einschließlich Anforderungsauswertung und Slot-Ausfüllung, erfolgreich speichert und verwendet.
    Wahrhaftigkeit (Halluzination Prevention) Zeigt an, ob der Virtual Agent echte Antworten generiert hat, die auf einer Konversation basieren, mit Ausnahme von Fehlern bei der Herstellung oder dem Arbeitsspeicher und beim Verständnis.
    Prägnanz (Redundanzvermeidung) Überprüft die Fähigkeit des Virtual Agent, überflüssige oder ausführliche und generische Antworten zu vermeiden, die nicht zur Kernabsicht der Konversation beitragen.
    Kohärenz Überprüft auf klaren logischen Flow, Struktur und Organisation der Antworten des Virtual Agent.
    Anwenderzufriedenheit Gewichteter Durchschnitt aller anderen Metriken, für die die Konversation ausgewertet wurde.
    Hinweis:
    Alle Metriken werden auf einer Skala von 3 oder 5 bewertet und schließlich auf 5 skaliert.

    Berechnungen

    Berechnung von Abweichungen und angepasster Punktzahl:

    Um die Punktzahlen der automatischen Bewertung im Zeitverlauf an menschlichem Urteilsvermögen auszurichten, wird eine Abweichung berechnet und verwendet, um eine angepasste Punktzahl auf Metrikebene zu erstellen.
    • Obere Abweichung

      Bedingung: Wenn die Anzahl der visuell markierten Punktzahlen, die höher sind als die automatisch ausgewerteten Punktzahlen in den letzten 6 Monaten, mehr als 30 beträgt.

      Berechnung: Die Top 90 % dieser Fälle werden ermittelt, und die Differenz (Delta) zwischen der menschlichen Punktzahl und der automatisch ausgewerteten Punktzahl wird gemittelt. Dieses Delta ist die obere Abweichung.

    • Untere Abweichung

      Bedingung: Wenn die Anzahl der visuell markierten Punktzahlen, die niedriger sind als die automatisch ausgewerteten Punktzahlen in den letzten 6 Monaten, mehr als 30 beträgt.

      Berechnung: Die Top 90 % dieser Fälle werden ermittelt, und die Differenz (Delta) zwischen der menschlichen Punktzahl und der automatisch ausgewerteten Punktzahl wird gemittelt. Dieses Delta ist die untere Abweichung.

    • Angepasste Punktzahl
      Die endgültige angepasste Punktzahl wird basierend auf der Verfügbarkeit der Abweichungen berechnet.
      • Wenn für eine bestimmte Metrik mindestens 30 eindeutige Auswertungen von oberen und unteren Abweichungen gekennzeichnet sind, wird die Fehlerspanne als SUMME (Durchschn. Kennzeichnungspunktzahl – LLM-Punktzahl)/eindeutige Auswertungen berechnet. Dieser Fehlerbereich wird der Punktzahl der automatischen Bewertung hinzugefügt, um eine angepasste Punktzahl zu erhalten.
      • Wenn keine Abweichung verfügbar ist, wird die angepasste Punktzahl = Punktzahl der automatischen Bewertung festgelegt
    Berechnung der Anwenderzufriedenheitspunktzahl der automatischen Auswertung, der Zufriedenheitspunktzahl der menschlichen Anwender und der oberen und unteren Abweichung auf Auswerteebene:
    • Punktzahl der Anwenderzufriedenheit bei automatischer Auswertung: Rufen Sie für eine bestimmte Bewertung alle Punktzahlen für jede vom LLM generierte Metrik ab, und berechnen Sie DIE SUMME (Metrikpunktzahl * Metrikgewichtung)/SUMME (Metrikgewichtungen).
    • Zufriedenheitspunktzahl für menschliche Anwender: Wenn für eine bestimmte Bewertung mindestens eine Metrik gekennzeichnet ist, wird die Zufriedenheitspunktzahl für menschliche Anwender berechnet. Wenn gekennzeichnet, wird die Bezeichnungspunktzahl verwendet, oder die LLM-Punktzahl wird verwendet. Berechnet als SUMME (Metrikpunktzahl * Metrikgewichtung)/SUMME (Metrikgewichtungen).
    • Lücke: Die Lücke wird berechnet als (Zufriedenheitspunktzahl für menschliche Anwender – Zufriedenheitspunktzahl für automatische Auswertungen).
    • Obere Abweichung: Wenn der Abstand positiv ist und mehr als 30 Datensätze vorhanden sind, wird die Fehlerspanne bei oberen 90 % durch SUMME (positiver Abstand)/eindeutige Auswertungen berechnet. Dieser Fehlerbereich wird der Zufriedenheitspunktzahl der automatischen Auswertung hinzugefügt.
    • Untere Abweichung: Wenn der Abstand negativ ist und mehr als 30 Datensätze vorhanden sind, wird die Fehlerspanne bei oberen 90 % durch SUMME (negativer Abstand)/eindeutige Auswertungen berechnet. Dieser Fehlerbereich wird der Zufriedenheitspunktzahl der automatischen Auswertung hinzugefügt.
    • Die angepasste Anwenderzufriedenheitspunktzahl wird als SUMME (Abstand)/eindeutige Auswertungen berechnet.
    Hinweis:
    • Der Auswerter stellt eine aggregierte Punktzahl pro Chat bereit, auch wenn mehrere verschiedene Anforderungen von Anwendern vorhanden sind.
    • Performance Analytics-Indikatoren werden verwendet, um die durchschnittliche Punktzahl im Zeitverlauf zu berechnen. Wenn Sie Batch-Aufträge für Verlaufsdaten ausführen, werden diese Auswertungen anhand der Definition von Performance Analytics-Indikatoren am Bewertungsdatum in zusammengefassten Punktzahlen gezählt und nicht am tatsächlichen Chatdatum für Punktzahlen gezählt.