Referenz für Agenten-Evaluierungen
Finden Sie technisches Referenzmaterial für Rollen, Metriken und Ausgabeformate von Agenten-Evaluierungen.
Verfügbare Metriken
|
Metrik |
Was gemessen wird |
Grundwahrheit erforderlich |
|---|---|---|
|
Aufgabenvollständigkeit |
Gibt an, ob das Agenten-KI-Asset die Anforderungen des Anwenders vollständig erfüllt. |
Optional |
|
Antwortgenauigkeit |
Gibt an, ob die Antwort des Agenten-KI-Assets sachlich korrekt ist |
Empfohlen |
|
Grundständigkeit |
Gibt an, ob die Antwort des Agenten-KI-Assets im spezifischen Kontext der Aufgabe begründet ist |
Nein |
|
Kohärenz |
Gibt an, ob die Antwort des Agenten-KI-Assets logisch strukturiert und klar ist |
Nein |
|
Genauigkeit der Toolnutzung |
Gibt an, ob das Agenten-KI-Asset das richtige Tool zur Ausführung seiner Aufgaben ausgewählt und verwendet hat |
Optional |
|
Zieleinhaltung |
Gibt an, ob das Agenten-KI-Asset innerhalb des definierten Umfangs und der Anweisungen blieb |
Nein |
Problemtypen
Probleme werden nach Verhalten aufgeschlüsselt. Für jede Metrik sind eigene Probleme separat identifiziert.
|
Kategorie |
Verhalten von agentenbasierten KI-Assets |
|---|---|
|
Unvollständige Antwort |
Antwort konnte die vollständige Anforderung des Anwenders nicht beantworten |
|
Sachfehler |
Antwort enthielt Inhalte, die sachlich nicht korrekt sind |
|
Halluzination |
Antwort enthielt Inhalt, der nicht im spezifischen Kontext der Anforderung begründet ist |
|
Inkohärente Ausgabe |
Antwort war unorganisiert oder schwer zu verstehen |
|
Falsche Toolverwendung |
Falsches Tool ausgewählt oder falsche Parameter an ein Tool übergeben |
|
Umfangsverstoß |
Hat auf eine Anforderung außerhalb des definierten Betriebsbereichs geantwortet |
Datenanforderungen
|
Anforderung |
Beschreibung |
|---|---|
|
Mindestanzahl von Testfällen |
Pro Ausführung ist eine Mindestanzahl von Testfällen erforderlich. Die spezifischen Metriken, die Sie für die Ausführung verwenden, können ihre eigenen Mindestanzahl an Testfällen haben. Stellen Sie sicher, dass Ihr Datensatz die Anforderungen für alle Metriken erfüllt. |
|
Unterstützte Formate |
CSV und strukturierte JSON werden unterstützt. |
|
Grundwahrheitsfeld |
Wenn Sie eine Grundwahrheit verwenden, muss sie als separates Feld im Datensatz angegeben werden. Das Feld „Grundwahrheit“ muss an jedem Testfall einzeln ausgerichtet sein. |
|
Datenrepräsentativität |
Datensätze sollten alle Aufgaben widerspiegeln, die der KI-Agent oder Agenten-Workflow verarbeitet. Schließen Sie Edge-Fälle und fehleranfällige Szenarien ein, um sicherzustellen, dass Sie anhand gängiger realer Szenarien testen. |