Résultats de l’exécution de l’évaluation agentique

Zurich Activer l’IA

Release

zurich

ft:locale

fr-FR

ft:publication_title

Zurich Activer l’IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Résultats de l’exécution de l’évaluation agentique

Rversion finale: Zurich

Mis à jour 31 juil. 2025

3 minutes de lecture

Découvrez les exécutions d’évaluation agentique et la signification des différents scores d’évaluation à partir de la page des résultats de l’évaluation agentique.

Vue d’ensemble des évaluations agentiques

Les évaluations agentiques mesurent dans quelle mesure les workflows agentiques atteignent leurs objectifs. Un modèle de service Now LLM juge le workflow agentique en fonction des journaux d’exécution de ce workflow agentique. La page des résultats d’une exécution d’évaluation affiche plusieurs mesures et scores mesurant l’achèvement des tâches et l’utilisation des outils.

Si vous exécutez une évaluation globale de l’achèvement de la tâche, la page des résultats affiche les actions recommandées pour le workflow. Les actions recommandées vous donnent des suggestions de déploiement ou d’amélioration pour vous assurer que les workflows agentiques que vous déployez fonctionnent à la hauteur de vos normes.

Pour plus d’informations sur l’utilisation de l’agent IA et d’autres analyses, vous pouvez consulter le tableau de bord d’analyse de l’agent IA dans le Studio d'agents IA.

Vue d’ensemble des résultats de l’évaluation

Pour chaque méthode d’évaluation que vous exécutez, la page des résultats affiche un score global pour le workflow agentique avec un pourcentage d’évaluations d’enregistrements réussies et une étiquette Excellent, Bon, Modéré ou Médiocre. Vous pouvez modifier les seuils de mesure pour chaque étiquette en sélectionnant Personnaliser les seuils de mesure.

Tableau 1. Résultats de l’exécution de l’évaluation de l’exhaustivité de la tâche globale
Étiquette	Description	Action recommandée	Seuil par défaut
Excellent	Les tâches ont toujours été exécutées à un niveau élevé. Le workflow agentique fonctionne bien.	Procédez en toute confiance	90%–100%
Bien	La plupart des tâches ont été exécutées avec succès, mais certaines incohérences dans les performances suggèrent des domaines à améliorer.	Déployer avec prudence	70%–89%
Modéré	Un nombre important de tâches n’étaient pas entièrement terminées. Les performances sont inférieures au niveau souhaité.	Enquêter sur les causes premières d’une mauvaise exécution des tâches	50%–69%
Médiocre	Le workflow agentique échoue systématiquement à accomplir les tâches de manière adéquate. Des problèmes majeurs sont présents.	Ne pas déployer	0%–49%

Scores de mesures d’enregistrements individuels

Les évaluations sont exécutées par rapport aux tables de journal des exécutions de workflow agentique. Chaque enregistrement est noté individuellement pour chaque plan d’évaluation que vous exécutez. Les évaluations des dossiers individuels sont notées en fonction des mesures suivantes.

Tableau 2. Scores de mesure de l’enregistrement d’exhaustivité de la tâche globaleLa mesure d’achèvement global de la tâche évalue si un agent IA termine avec succès la tâche qui lui a été affectée. Il évalue les journaux d’exécution de l’agent, en s’assurant que toutes les étapes requises ont été prises et que la tâche a été accomplie de manière logique et efficace.
Numéro	Score	Description
3	Réussi	La tâche principale était entièrement terminée. Toutes les sous-tâches ont été résolues et les étapes ont suivi une séquence logique sans erreurs critiques.
2	Partiellement réussi	La tâche était partiellement terminée. Certaines sous-tâches restent non résolues ou des inefficacités ont affecté le processus.
1	En échec	La tâche n’a pas été terminée. Des sous-tâches critiques ont été abandonnées ou non résolues ou l’exécution a échoué entièrement.

Tableau 3. Scores de mesures d’enregistrement des performances de l’outilLa mesure d’évaluation des performances de l’outil évalue la capacité d’un agent IA à sélectionner l’outil le plus approprié pour chaque étape lors de l’exécution d’une tâche.
Numéro	Score	Description
1	Vrai	Le bon outil a été choisi pour l’action dans le plan.
0	Faux	Le bon outil n’a pas été choisi.

Tableau 4. Enregistrements d’appels d’outils scores de mesuresLa mesure d’évaluation de l’appel d’outil évalue si un agent IA construit correctement les appels d’outils en validant l’exactitude, l’exhaustivité et le formatage des entrées qu’il fournit.
Numéro	Score	Description
1	Vrai	L’exhaustivité de la clé d’entrée, l’exhaustivité de la valeur d’entrée et l’exhaustivité du format d’entrée ont été réussies.
0	Faux	Un ou plusieurs des éléments Exhaustivité de la clé d’entrée, Exhaustivité des valeurs d’entrée ou Exhaustivité du format d’entrée n’ont pas réussi.