Referenz

Australien aktiviert KI

Release

australia

ft:locale

de-DE

ft:publication_title

Australien aktiviert KI

ft:clusterId

platai

bundleId

platai

workflow

Platform

Referenz für Agenten-Evaluierungen

Freigeben Version: Australia

Aktualisiert 18. März 2026

1 Minute Lesedauer

Finden Sie technisches Referenzmaterial für Rollen, Metriken und Ausgabeformate von Agenten-Evaluierungen.

Tabelle : 1. Standardmetriken verfügbar
Metrik	Was gemessen wird	Grundwahrheit erforderlich
Aufgabenvollständigkeit	Gibt an, ob das Agenten-KI-Asset die Anforderungen des Anwenders vollständig erfüllt.	Optional
Antwortgenauigkeit	Gibt an, ob die Antwort des Agenten-KI-Assets sachlich korrekt ist	Empfohlen
Grundständigkeit	Gibt an, ob die Antwort des Agenten-KI-Assets im spezifischen Kontext der Aufgabe begründet ist	Nein
Kohärenz	Gibt an, ob die Antwort des Agenten-KI-Assets logisch strukturiert und klar ist	Nein
Genauigkeit der Toolnutzung	Gibt an, ob das Agenten-KI-Asset das richtige Tool zur Ausführung seiner Aufgaben ausgewählt und verwendet hat	Optional
Zieleinhaltung	Gibt an, ob das Agenten-KI-Asset innerhalb des definierten Umfangs und der Anweisungen blieb	Nein

Probleme werden nach Verhalten aufgeschlüsselt. Für jede Metrik sind eigene Probleme separat identifiziert.

Tabelle : 2. Problemkategorien
Kategorie	Verhalten von agentenbasierten KI-Assets
Unvollständige Antwort	Antwort konnte die vollständige Anforderung des Anwenders nicht beantworten
Sachfehler	Antwort enthielt Inhalte, die sachlich nicht korrekt sind
Halluzination	Antwort enthielt Inhalt, der nicht im spezifischen Kontext der Anforderung begründet ist
Inkohärente Ausgabe	Antwort war unorganisiert oder schwer zu verstehen
Falsche Toolverwendung	Falsches Tool ausgewählt oder falsche Parameter an ein Tool übergeben
Umfangsverstoß	Hat auf eine Anforderung außerhalb des definierten Betriebsbereichs geantwortet

Tabelle : 3. Datenanforderungen für Datensätze in Agentenauswertungen
Anforderung	Beschreibung
Mindestanzahl von Testfällen	Pro Ausführung ist eine Mindestanzahl von Testfällen erforderlich. Die spezifischen Metriken, die Sie für die Ausführung verwenden, können ihre eigenen Mindestanzahl an Testfällen haben. Stellen Sie sicher, dass Ihr Datensatz die Anforderungen für alle Metriken erfüllt.
Unterstützte Formate	CSV und strukturierte JSON werden unterstützt.
Grundwahrheitsfeld	Wenn Sie eine Grundwahrheit verwenden, muss sie als separates Feld im Datensatz angegeben werden. Das Feld „Grundwahrheit“ muss an jedem Testfall einzeln ausgerichtet sein.
Datenrepräsentativität	Datensätze sollten alle Aufgaben widerspiegeln, die der KI-Agent oder Agenten-Workflow verarbeitet. Schließen Sie Edge-Fälle und fehleranfällige Szenarien ein, um sicherzustellen, dass Sie anhand gängiger realer Szenarien testen.