Referenz für Agenten-Evaluierungen

  • Freigeben Version: Australia
  • Aktualisiert 18. März 2026
  • 1 Minute Lesedauer
  • Finden Sie technisches Referenzmaterial für Rollen, Metriken und Ausgabeformate von Agenten-Evaluierungen.

    Verfügbare Metriken

    Tabelle : 1. Standardmetriken verfügbar

    Metrik

    Was gemessen wird

    Grundwahrheit erforderlich

    Aufgabenvollständigkeit

    Gibt an, ob das Agenten-KI-Asset die Anforderungen des Anwenders vollständig erfüllt.

    Optional

    Antwortgenauigkeit

    Gibt an, ob die Antwort des Agenten-KI-Assets sachlich korrekt ist

    Empfohlen

    Grundständigkeit

    Gibt an, ob die Antwort des Agenten-KI-Assets im spezifischen Kontext der Aufgabe begründet ist

    Nein

    Kohärenz

    Gibt an, ob die Antwort des Agenten-KI-Assets logisch strukturiert und klar ist

    Nein

    Genauigkeit der Toolnutzung

    Gibt an, ob das Agenten-KI-Asset das richtige Tool zur Ausführung seiner Aufgaben ausgewählt und verwendet hat

    Optional

    Zieleinhaltung

    Gibt an, ob das Agenten-KI-Asset innerhalb des definierten Umfangs und der Anweisungen blieb

    Nein

    Problemtypen

    Probleme werden nach Verhalten aufgeschlüsselt. Für jede Metrik sind eigene Probleme separat identifiziert.

    Tabelle : 2. Problemkategorien

    Kategorie

    Verhalten von agentenbasierten KI-Assets

    Unvollständige Antwort

    Antwort konnte die vollständige Anforderung des Anwenders nicht beantworten

    Sachfehler

    Antwort enthielt Inhalte, die sachlich nicht korrekt sind

    Halluzination

    Antwort enthielt Inhalt, der nicht im spezifischen Kontext der Anforderung begründet ist

    Inkohärente Ausgabe

    Antwort war unorganisiert oder schwer zu verstehen

    Falsche Toolverwendung

    Falsches Tool ausgewählt oder falsche Parameter an ein Tool übergeben

    Umfangsverstoß

    Hat auf eine Anforderung außerhalb des definierten Betriebsbereichs geantwortet

    Datenanforderungen

    Tabelle : 3. Datenanforderungen für Datensätze in Agentenauswertungen

    Anforderung

    Beschreibung

    Mindestanzahl von Testfällen

      Pro Ausführung ist eine Mindestanzahl von Testfällen erforderlich. Die spezifischen Metriken, die Sie für die Ausführung verwenden, können ihre eigenen Mindestanzahl an Testfällen haben. Stellen Sie sicher, dass Ihr Datensatz die Anforderungen für alle Metriken erfüllt.

    Unterstützte Formate

    CSV und strukturierte JSON werden unterstützt.

    Grundwahrheitsfeld

    Wenn Sie eine Grundwahrheit verwenden, muss sie als separates Feld im Datensatz angegeben werden. Das Feld „Grundwahrheit“ muss an jedem Testfall einzeln ausgerichtet sein.

    Datenrepräsentativität

    Datensätze sollten alle Aufgaben widerspiegeln, die der KI-Agent oder Agenten-Workflow verarbeitet. Schließen Sie Edge-Fälle und fehleranfällige Szenarien ein, um sicherzustellen, dass Sie anhand gängiger realer Szenarien testen.