Auswertungsmetriken und Berechnungen
Metriken, anhand derer Konversationen ausgewertet werden, und Berechnung angepasster Punktzahlen.
Metriken
| Metrik | Beschreibung |
|---|---|
| Abschluss Anfordern | Misst die Fähigkeit des Virtual Agent, Anwenderanforderungen abzuschließen, indem die Absicht des Anwenders genau identifiziert und alle erforderlichen Informationen erfasst werden (Slot-Ausfüllung). |
| Absichtsgenauigkeit | Zeigt die Fähigkeit des Virtual Agent, Anwenderanforderungen zu verstehen, was zu relevanten Antworten führt. |
| Slot-Ausfüllung | Zeigt die Fähigkeit des Virtual Agent, Anwenderantworten zu interpretieren und strukturierte Antworten auf die erforderlichen Fragen zu extrahieren. |
| Glätte (Vermeidung von Stillstandszeiten) | Überprüft, ob der Virtual Agent dynamisch reagiert und die Konversation ohne Wiederholung erfolgreich weiterleitet. |
| Kontextaufbewahrung | Zeigt an, ob der Virtual Agent die während der Konversation bereitgestellten Informationen, einschließlich Anforderungsauswertung und Slot-Ausfüllung, erfolgreich speichert und verwendet. |
| Wahrhaftigkeit (Halluzination Prevention) | Zeigt an, ob der Virtual Agent echte Antworten generiert hat, die auf einer Konversation basieren, mit Ausnahme von Fehlern bei der Herstellung oder dem Arbeitsspeicher und beim Verständnis. |
| Prägnanz (Redundanzvermeidung) | Überprüft die Fähigkeit des Virtual Agent, überflüssige oder ausführliche und generische Antworten zu vermeiden, die nicht zur Kernabsicht der Konversation beitragen. |
| Kohärenz | Überprüft auf klaren logischen Flow, Struktur und Organisation der Antworten des Virtual Agent. |
| Anwenderzufriedenheit | Gewichteter Durchschnitt aller anderen Metriken, für die die Konversation ausgewertet wurde. |
Berechnungen
Berechnung von Abweichungen und angepasster Punktzahl:
- Obere Abweichung
Bedingung: Wenn die Anzahl der visuell markierten Punktzahlen, die höher sind als die automatisch ausgewerteten Punktzahlen in den letzten 6 Monaten, mehr als 30 beträgt.
Berechnung: Die Top 90 % dieser Fälle werden ermittelt, und die Differenz (Delta) zwischen der menschlichen Punktzahl und der automatisch ausgewerteten Punktzahl wird gemittelt. Dieses Delta ist die obere Abweichung.
- Untere Abweichung
Bedingung: Wenn die Anzahl der visuell markierten Punktzahlen, die niedriger sind als die automatisch ausgewerteten Punktzahlen in den letzten 6 Monaten, mehr als 30 beträgt.
Berechnung: Die Top 90 % dieser Fälle werden ermittelt, und die Differenz (Delta) zwischen der menschlichen Punktzahl und der automatisch ausgewerteten Punktzahl wird gemittelt. Dieses Delta ist die untere Abweichung.
- Angepasste PunktzahlDie endgültige angepasste Punktzahl wird basierend auf der Verfügbarkeit der Abweichungen berechnet.
- Wenn für eine bestimmte Metrik mindestens 30 eindeutige Auswertungen von oberen und unteren Abweichungen gekennzeichnet sind, wird die Fehlerspanne als SUMME (Durchschn. Kennzeichnungspunktzahl – LLM-Punktzahl)/eindeutige Auswertungen berechnet. Dieser Fehlerbereich wird der Punktzahl der automatischen Bewertung hinzugefügt, um eine angepasste Punktzahl zu erhalten.
- Wenn keine Abweichung verfügbar ist, wird die angepasste Punktzahl = Punktzahl der automatischen Bewertung festgelegt
- Punktzahl der Anwenderzufriedenheit bei automatischer Auswertung: Rufen Sie für eine bestimmte Bewertung alle Punktzahlen für jede vom LLM generierte Metrik ab, und berechnen Sie DIE SUMME (Metrikpunktzahl * Metrikgewichtung)/SUMME (Metrikgewichtungen).
- Zufriedenheitspunktzahl für menschliche Anwender: Wenn für eine bestimmte Bewertung mindestens eine Metrik gekennzeichnet ist, wird die Zufriedenheitspunktzahl für menschliche Anwender berechnet. Wenn gekennzeichnet, wird die Bezeichnungspunktzahl verwendet, oder die LLM-Punktzahl wird verwendet. Berechnet als SUMME (Metrikpunktzahl * Metrikgewichtung)/SUMME (Metrikgewichtungen).
- Lücke: Die Lücke wird berechnet als (Zufriedenheitspunktzahl für menschliche Anwender – Zufriedenheitspunktzahl für automatische Auswertungen).
- Obere Abweichung: Wenn der Abstand positiv ist und mehr als 30 Datensätze vorhanden sind, wird die Fehlerspanne bei oberen 90 % durch SUMME (positiver Abstand)/eindeutige Auswertungen berechnet. Dieser Fehlerbereich wird der Zufriedenheitspunktzahl der automatischen Auswertung hinzugefügt.
- Untere Abweichung: Wenn der Abstand negativ ist und mehr als 30 Datensätze vorhanden sind, wird die Fehlerspanne bei oberen 90 % durch SUMME (negativer Abstand)/eindeutige Auswertungen berechnet. Dieser Fehlerbereich wird der Zufriedenheitspunktzahl der automatischen Auswertung hinzugefügt.
- Die angepasste Anwenderzufriedenheitspunktzahl wird als SUMME (Abstand)/eindeutige Auswertungen berechnet.
- Der Auswerter stellt eine aggregierte Punktzahl pro Chat bereit, auch wenn mehrere verschiedene Anforderungen von Anwendern vorhanden sind.
- Performance Analytics-Indikatoren werden verwendet, um die durchschnittliche Punktzahl im Zeitverlauf zu berechnen. Wenn Sie Batch-Aufträge für Verlaufsdaten ausführen, werden diese Auswertungen anhand der Definition von Performance Analytics-Indikatoren am Bewertungsdatum in zusammengefassten Punktzahlen gezählt und nicht am tatsächlichen Chatdatum für Punktzahlen gezählt.