Résultats de l’exécution de l’évaluation agentique

  • Rversion finale: Zurich
  • Mis à jour 31 juil. 2025
  • 3 minutes de lecture
  • Découvrez les exécutions d’évaluation agentique et la signification des différents scores d’évaluation à partir de la page des résultats de l’évaluation agentique.

    Vue d’ensemble des évaluations agentiques

    Les évaluations agentiques mesurent dans quelle mesure les workflows agentiques atteignent leurs objectifs. Un modèle de service Now LLM juge le workflow agentique en fonction des journaux d’exécution de ce workflow agentique. La page des résultats d’une exécution d’évaluation affiche plusieurs mesures et scores mesurant l’achèvement des tâches et l’utilisation des outils.

    Si vous exécutez une évaluation globale de l’achèvement de la tâche, la page des résultats affiche les actions recommandées pour le workflow. Les actions recommandées vous donnent des suggestions de déploiement ou d’amélioration pour vous assurer que les workflows agentiques que vous déployez fonctionnent à la hauteur de vos normes.

    Pour plus d’informations sur l’utilisation de l’agent IA et d’autres analyses, vous pouvez consulter le tableau de bord d’analyse de l’agent IA dans le Studio d'agents IA.

    Vue d’ensemble des résultats de l’évaluation

    Pour chaque méthode d’évaluation que vous exécutez, la page des résultats affiche un score global pour le workflow agentique avec un pourcentage d’évaluations d’enregistrements réussies et une étiquette Excellent, Bon, Modéré ou Médiocre. Vous pouvez modifier les seuils de mesure pour chaque étiquette en sélectionnant Personnaliser les seuils de mesure.

    Tableau 1. Résultats de l’exécution de l’évaluation de l’exhaustivité de la tâche globale

    Étiquette

    Description

    Action recommandée

    Seuil par défaut

    Excellent

    Les tâches ont toujours été exécutées à un niveau élevé. Le workflow agentique fonctionne bien.

    Procédez en toute confiance

    90%–100%

    Bien

    La plupart des tâches ont été exécutées avec succès, mais certaines incohérences dans les performances suggèrent des domaines à améliorer.

    Déployer avec prudence

    70%–89%

    Modéré

    Un nombre important de tâches n’étaient pas entièrement terminées. Les performances sont inférieures au niveau souhaité.

    Enquêter sur les causes premières d’une mauvaise exécution des tâches

    50%–69%

    Médiocre

    Le workflow agentique échoue systématiquement à accomplir les tâches de manière adéquate. Des problèmes majeurs sont présents.

    Ne pas déployer

    0%–49%

    Scores de mesures d’enregistrements individuels

    Les évaluations sont exécutées par rapport aux tables de journal des exécutions de workflow agentique. Chaque enregistrement est noté individuellement pour chaque plan d’évaluation que vous exécutez. Les évaluations des dossiers individuels sont notées en fonction des mesures suivantes.

    Tableau 2. Scores de mesure de l’enregistrement d’exhaustivité de la tâche globaleLa mesure d’achèvement global de la tâche évalue si un agent IA termine avec succès la tâche qui lui a été affectée. Il évalue les journaux d’exécution de l’agent, en s’assurant que toutes les étapes requises ont été prises et que la tâche a été accomplie de manière logique et efficace.

    Numéro

    Score

    Description

    3

    Réussi

    La tâche principale était entièrement terminée. Toutes les sous-tâches ont été résolues et les étapes ont suivi une séquence logique sans erreurs critiques.

    2

    Partiellement réussi

    La tâche était partiellement terminée. Certaines sous-tâches restent non résolues ou des inefficacités ont affecté le processus.

    1

    En échec

    La tâche n’a pas été terminée. Des sous-tâches critiques ont été abandonnées ou non résolues ou l’exécution a échoué entièrement.

    Tableau 3. Scores de mesures d’enregistrement des performances de l’outilLa mesure d’évaluation des performances de l’outil évalue la capacité d’un agent IA à sélectionner l’outil le plus approprié pour chaque étape lors de l’exécution d’une tâche.

    Numéro

    Score

    Description

    1

    Vrai

    Le bon outil a été choisi pour l’action dans le plan.

    0

    Faux

    Le bon outil n’a pas été choisi.

    Tableau 4. Enregistrements d’appels d’outils scores de mesuresLa mesure d’évaluation de l’appel d’outil évalue si un agent IA construit correctement les appels d’outils en validant l’exactitude, l’exhaustivité et le formatage des entrées qu’il fournit.

    Numéro

    Score

    Description

    1

    Vrai

    L’exhaustivité de la clé d’entrée, l’exhaustivité de la valeur d’entrée et l’exhaustivité du format d’entrée ont été réussies.

    0

    Faux

    Un ou plusieurs des éléments Exhaustivité de la clé d’entrée, Exhaustivité des valeurs d’entrée ou Exhaustivité du format d’entrée n’ont pas réussi.