Allgemeine Richtlinien für die Bewertung von Agenten-KI-Assets

  • Freigeben Version: Australia
  • Aktualisiert 31. Juli 2025
  • 5 Minuten Lesedauer
  • Erfahren Sie mehr über Agenten-Evaluierungsausführungen und verschiedene Empfehlungen für die Bewertung Ihrer Agenten-KI-Assets anhand von Datensätzen, um den Abschluss, die Leistung und die Toolausführung zu überprüfen.

    Übersicht über agentische Auswertungsausführungen

    Agentenauswertungen helfen Ihnen, sicherzustellen, dass Ihre Agenten-KI-Assets in verschiedenen Szenarien und Datensätzen wie erwartet funktionieren. Regelmäßige Bewertungen helfen bei der Entwicklung Ihrer Agenten-KI-Assets, die Qualität zu erhalten und Bereiche mit Verbesserungsbedarf zu identifizieren.

    Der Evaluierungsprozess verwendet automatisierte Tests, um zu messen, wie gut Ihre Agenten-KI-Assets abschneiden. Metriken für die Evaluierung umfassen das Abschließen von Aufgaben, die korrekte Ausführung von Tools und die Einhaltung von Leistungsstandards. Sie können auch eigene anwenderdefinierte Metriken erstellen, um Antworten und Aufgaben von Agenten-KI-Assets auf andere Weise auszuwerten.

    Wann agentische Auswertungen ausgeführt werden sollen

    Führen Sie Agenten-Evaluierungen an wichtigen Punkten Ihres Entwicklungs- und Wartungszyklus durch, um die Leistung zu überprüfen und Probleme frühzeitig zu erkennen.

    Ausführen, nachdem Sie die Standardausführung manuell getestet haben
    Bevor Sie eine automatisierte Evaluierung ausführen, testen Sie die Ausführung von manuell KI-Agent Oder Agenten-Workflow . Manuelle Tests helfen Ihnen, offensichtliche Probleme zu identifizieren und sicherzustellen, dass die grundlegenden Funktionen funktionieren, bevor Sie Zeit in die automatisierte Evaluierung investieren.
    Führen Sie Agenten-Auswertungen aus, wenn Sie bedeutende Änderungen vornehmen
    Führen Sie nach Aktualisierungen des Agenten-Workflows eine Agenten-Evaluierungsausführung aus, um die Wirksamkeit der neuen Version nachzuverfolgen. Dies umfasst Änderungen an Prompts und Toolkonfigurationen, die sich auf die Leistung auswirken können.
    Führen Sie vor der Bereitstellung in der Produktion Evaluierungen aus
    Bewerten Sie Ihre Agenten-KI-Assets in einer Testumgebung, bevor Sie sie in der Produktion bereitstellen. Dies hilft, sicherzustellen, dass Changes ordnungsgemäß funktionieren, und das erwartete Leistungsniveau beizubehalten.
    Führen Sie regelmäßige Auswertungen für die laufende Überwachung aus
    Planen Sie regelmäßige Evaluierungsausführungen, um die laufende Leistung Ihrer Agenten-KI-Assets zu überwachen. Dies hilft, Leistungsverschlechterungen im Laufe der Zeit zu erkennen und eine konsistente Qualität sicherzustellen.
    Führen Sie Evaluierungen nach Änderungen der Datenquelle aus
    Wenn sich die zugrunde liegenden Datenquellen oder Schemata ändern, führen Sie Evaluierungen aus, um sicherzustellen, dass Ihre Agenten-KI-Assets mit der neuen Datenstruktur weiterhin ordnungsgemäß funktionieren.

    Auswahl einer Auswertungsmethode

    Wählen Sie Evaluierungsmethoden basierend auf den Aspekten Ihrer Leistung Ihres Agenten-KI-Assets aus, die Sie messen möchten. Verschiedene Methoden bieten Einblicke in verschiedene Aspekte der Funktionalität.

    Überprüfen Sie die Optionen der Evaluierungsmethode
    Das geführte Setup für die agentenbasierte Evaluierung bietet Informationen zu jeder Evaluierungsmethode, einschließlich der Messung und Funktionsweise. Sie können auch die allgemeinen Fragen in der Sidebar überprüfen, um Antworten zu den verfügbaren Metriken zu erhalten. Nehmen Sie sich Zeit, um die einzelnen Methoden zu verstehen, bevor Sie auswählen, welche Methoden verwendet werden sollen.
    Verwenden Sie mehrere Evaluierungsmethoden gleichzeitig
    Die Auswahl mehrerer Evaluierungsmethoden kann ein besseres Gesamtbild der Leistung des agentenbasierten KI-Assets bieten. Verschiedene Methoden messen verschiedene Aspekte, z. B. Aufgabenabschlussraten, Antwortgenauigkeit und Erfolg der Toolausführung.
    Berücksichtigen Sie Aufgabenabschlussmetriken für die Workflow-Validierung
    Metriken für Aufgabenabschlüsse helfen Ihnen, zu verifizieren, dass Ihre Agenten-Workflows die beabsichtigten Aufgaben erfolgreich abschließen, und die End-to-End-Workflow-Funktionalität zu validieren.
    Wenden Sie Toolausführungsmetriken für die technische Validierung an
    Toolausführungsmetriken stellen sicher, dass Ihre Agenten-KI-Assets die Tools und APIs, für die sie konfiguriert sind, korrekt verwenden. Diese Methode trägt dazu bei, sicherzustellen, dass Integrationen wie erwartet funktionieren.

    Erstellen eines Datensatzes

    Erstellen Sie zielgerichtete Datensätze, die die Szenarien und Daten darstellen, die Ihre agentenbasierten KI-Assets in der Produktion abrufen. Gut konzipierte Datensätze liefern aussagekräftigere Auswertungsergebnisse.

    Verwenden Sie Filter, um auf die richtigen Daten abzustimmen
    Fügen Sie den Ausführungsprotokollen Filter hinzu, um genau zu steuern, womit Sie Ihren agentischen Workflow messen. Sie können auswählen Siehe Vorschau Um eine Liste von Datensätzen anzuzeigen. Sie können auch die Kontrollkästchen verwenden, um einzelne Datensätze auszuwählen, an denen gemessen werden soll.
    Generieren Sie neue Ausführungsdaten für Ihre Evaluierungsausführung
    Wenn Sie das geführte Setup für die agentenbasierte Evaluierung durchlaufen, können Sie neue Ausführungsprotokolle für mehrere Datensätze erstellen, bevor die Auswertung beginnt. Verwenden Sie diese Option, um die Zeit zu reduzieren und sicherzustellen, dass Sie über neue Daten für die Auswertung verfügen.
    Schließen Sie verschiedene Szenarien in Ihren Datensatz ein
    Erstellen Sie Datensätze, die verschiedene Szenarien enthalten, die Ihre Agenten-KI-Assets möglicherweise sehen, einschließlich Edge-Fällen und Fehlerbedingungen. Umfassende Datensätze helfen bei der Identifizierung potenzieller Probleme, bevor sie Anwender betreffen.
    Gewährleisten Sie die Qualität und Relevanz der Datenbasis
    Überprüfen und aktualisieren Sie Ihre Bewertungsdatensätze regelmäßig, um sicherzustellen, dass sie für aktuelle Anwendungsfälle relevant bleiben. Entfernen Sie veraltete Szenarien, und fügen Sie neue hinzu, die sich ändernde Anforderungen oder Datenmuster widerspiegeln.
    Berücksichtigen Sie das Datenvolumen für aussagekräftige Ergebnisse
    Schließen Sie ausreichend Datenvolumen in Ihre Datensätze ein, um statistisch aussagekräftige Ergebnisse zu generieren. Kleine Datensätze zeigen möglicherweise keine Leistungsmuster oder Probleme auf, die bei größeren Datensätzen erkennbar werden.

    Auswertungsergebnisse werden interpretiert

    Das Verständnis der Bewertungsergebnisse hilft Ihnen, fundierte Entscheidungen über die Verbesserung Ihrer Agenten-KI-Assets und die Identifizierung von Bereichen zu treffen, die Aufmerksamkeit erfordern.

    Analysieren Sie Trends für mehrere Evaluierungsausführungen
    Vergleichen Sie Ergebnisse aus mehreren Evaluierungsausführungen, um Leistungstrends zu identifizieren. Suchen Sie nach Mustern, die darauf hindeuten, dass sich die Leistung im Laufe der Zeit verbessert oder abnimmt.
    Konzentrieren Sie sich auf Metriken, die den Geschäftszielen entsprechen
    Priorisieren Sie die Bewertungsmetriken, die Ihren Geschäftszielen und Anwenderanforderungen am besten entsprechen. Nicht alle Metriken haben die gleiche Gewichtung für Ihren spezifischen Anwendungsfall.
    Unerwartete Ergebnisse untersuchen
    Wenn sich die Auswertungsergebnisse erheblich von den Erwartungen unterscheiden, untersuchen Sie die identifizierten Probleme und ihre Nachverfolgungen. Dies kann Probleme mit der Konfiguration, Datenqualität oder dem Evaluierungssetup für Agenten-KI-Assets aufzeigen.

    Allgemeine Richtlinien für eine effektive Bewertung

    Befolgen Sie diese allgemeinen Richtlinien, um den Wert Ihrer agentenbasierten Evaluierungsbemühungen zu maximieren und zuverlässige Ergebnisse sicherzustellen.

    Richten Sie Baseline-Leistungsmetriken ein
    Erstellen Sie Baseline-Messungen, wenn Sie Ihre Agenten-KI-Assets zum ersten Mal bereitstellen. Diese Baselines bieten Referenzpunkte für den Vergleich künftiger Auswertergebnisse und die Nachverfolgung von Verbesserungen.
    Überwachen Sie die Evaluierungsleistung im Zeitverlauf
    Verfolgen Sie die Leistung Ihrer Evaluierungsprozesse selbst im Laufe der Zeit. Dies umfasst Auswertungslaufzeiten, Ressourcennutzung und die Zuverlässigkeit der Evaluierungsinfrastruktur.
    Validieren Sie regelmäßig Evaluierungsmethoden
    Überprüfen und validieren Sie Ihre Evaluierungsmethoden regelmäßig, um sicherzustellen, dass sie weiterhin aussagekräftige Einblicke liefern. Aktualisieren Sie Methoden, wenn sich Ihre Agenten-KI-Assets weiterentwickeln und sich die Anforderungen ändern.