Ergebnisse der Ausführung der Agentischen Auswertung
Erfahren Sie auf der Seite mit Ergebnissen der agentischen Bewertung mehr über die Ausführung von Analysen und die Bedeutung verschiedener Auswertungspunktzahlen.
Übersicht über Agentische Auswertungen
Agentenauswertungen messen, wie gut KI-Agenten und Agenten-Workflows ihre Ziele erreichen. Ein Now LLM-Servicemodell beurteilt den KI-Agenten oder Agenten-Workflow basierend auf den Ausführungsprotokollen. Auf der Ergebnisseite einer Auswertungsausführung werden mehrere Metriken und Punktzahlen angezeigt, die die Vollständigkeit der Aufgabe und die Verwendung des Tools messen.
Wenn Sie eine allgemeine Bewertung des Aufgabenabschlusses ausführen, werden auf der Ergebnisseite empfohlene Aktionen für den KI-Agenten oder Agenten-Workflow angezeigt. Empfohlene Aktionen enthalten Vorschläge für die Bereitstellung oder Verbesserung, um sicherzustellen, dass die von Ihnen bereitgestellten Agenten-Workflows Ihren Standards entsprechen.
Nachdem Sie Ihre Evaluierungsergebnisse überprüft haben, können Sie Ihre Evaluierung archivieren oder kopieren, um eine weitere Evaluierung mit denselben Parametern und Datensätzen auszuführen.
Sie können die Auswertungsergebnisse als Bericht exportieren. Der Bericht ist als CSV-Datei formatiert, die die einzelnen sys_IDs der Ausführungsdatensätze und die Metrikpunktzahlen für jeden enthält.
Weitere Informationen zur Nutzung von KI-Agents und anderen Analytics finden Sie unter KI-Agent Analytics-Dashboard In KI-Agenten-Studio.
Übersicht über Auswertungsergebnisse
Für jede von Ihnen ausgeführte Auswertungsmethode wird auf der Ergebnisseite eine Gesamtpunktzahl für den agentischen Workflow mit einem Prozentsatz der erfolgreichen Datensatzauswertungen und der Bezeichnung ausgezeichnet, gut, Mittel oder schlecht angezeigt. Sie können die Metrikschwellenwerte für jede Bezeichnung ändern, indem Sie auswählen Passen Sie Metrikschwellenwerte an .
Zusätzlich zu den Ergebnissen der allgemeinen Aufgabenvollständigkeit können Sie eine Zusammenfassung der Ergebnisse der anderen Metriken überprüfen.
|
Bezeichnung |
Beschreibung |
Empfohlene Aktion |
Standardschwellenwert |
|---|---|---|---|
|
Ausgezeichnet |
Aufgaben wurden einheitlich auf einem hohen Standard ausgeführt. Der Agenten-Workflow oder KI-Agent funktioniert gut. |
Fahren Sie mit Vertrauen fort |
90%–100% |
|
Gut |
Die meisten Aufgaben wurden erfolgreich ausgeführt, aber einige Leistungsinkonsistenzen weisen auf Bereiche mit Verbesserungspotenzial hin. |
Mit Vorsicht bereitstellen |
70%–89% |
|
Mittel |
Eine beträchtliche Anzahl von Aufgaben wurde nicht vollständig abgeschlossen. Die Leistung liegt unter dem gewünschten Niveau. |
Untersuchen Sie die Ursachen für einen schlechten Aufgabenabschluss |
50%–69% |
|
Mangelhaft |
Der agentische Workflow führt Aufgaben durchweg nicht ordnungsgemäß ab. Schwerwiegende Probleme sind vorhanden. |
Nicht bereitstellen |
0 %–49 % |
Metrikpunktzahlen für einzelne Datensätze
Auswertungen werden für die Protokolltabellen von agentischen Workflow-Ausführungen ausgeführt. Jeder Datensatz wird für jeden ausgeführten Auswertungsplan einzeln bewertet. Einzelne Datensatzauswertungen werden gemäß den folgenden Metriken bewertet.
|
Anzahl |
Punktzahl |
Beschreibung |
|---|---|---|
|
3 |
Erfolgreich |
Die Hauptaufgabe wurde vollständig abgeschlossen. Alle Teilaufgaben wurden gelöst, und die Schritte folgten einer logischen Sequenz ohne kritische Fehler. |
|
2 |
Teilweise erfolgreich |
Die Aufgabe wurde teilweise abgeschlossen. Einige Teilaufgaben bleiben ungelöst, oder Ineffizienzen haben sich auf den Prozess ausgewirkt. |
|
1 |
Nicht erfolgreich |
Die Aufgabe wurde nicht abgeschlossen. Kritische Teilaufgaben wurden verworfen oder ungelöst, oder die Ausführung ist vollständig fehlgeschlagen. |
|
Nummer |
Punktzahl |
Beschreibung |
|---|---|---|
|
1 |
Wahr |
Das richtige Tool wurde für die Aktion im Plan ausgewählt. |
|
0 |
Falsch |
Das richtige Tool wurde nicht ausgewählt. |
|
Anzahl |
Punktzahl |
Beschreibung |
|---|---|---|
|
1 |
Wahr |
Vollständigkeit des Eingabeschlusses, Richtigkeit des Eingabewerts und Richtigkeit des Eingabeformats sind alle erfolgreich.
|
|
0 |
Falsch |
Mindestens eine Vollständigkeit des Eingabeschlusses, der Vollständigkeit des Eingabewerts oder der Vollständigkeit des Eingabeformats war nicht erfolgreich.
|