Résultats de l’exécution de l’évaluation agentique
Découvrez les exécutions d’évaluation agentique et la signification des différents scores d’évaluation à partir de la page des résultats de l’évaluation agentique.
Vue d’ensemble des évaluations agentiques
Les évaluations agentiques mesurent dans quelle mesure les workflows agentiques atteignent leurs objectifs. Un modèle de service Now LLM juge le workflow agentique en fonction des journaux d’exécution de ce workflow agentique. La page des résultats d’une exécution d’évaluation affiche plusieurs mesures et scores mesurant l’achèvement des tâches et l’utilisation des outils.
Si vous exécutez une évaluation globale de l’achèvement de la tâche, la page des résultats affiche les actions recommandées pour le workflow. Les actions recommandées vous donnent des suggestions de déploiement ou d’amélioration pour vous assurer que les workflows agentiques que vous déployez fonctionnent à la hauteur de vos normes.
Pour plus d’informations sur l’utilisation de l’agent IA et d’autres analyses, vous pouvez consulter le tableau de bord d’analyse de l’agent IA dans le Studio d'agents IA.
Vue d’ensemble des résultats de l’évaluation
Pour chaque méthode d’évaluation que vous exécutez, la page des résultats affiche un score global pour le workflow agentique avec un pourcentage d’évaluations d’enregistrements réussies et une étiquette Excellent, Bon, Modéré ou Médiocre. Vous pouvez modifier les seuils de mesure pour chaque étiquette en sélectionnant Personnaliser les seuils de mesure.
|
Étiquette |
Description |
Action recommandée |
Seuil par défaut |
|---|---|---|---|
|
Excellent |
Les tâches ont toujours été exécutées à un niveau élevé. Le workflow agentique fonctionne bien. |
Procédez en toute confiance |
90%–100% |
|
Bien |
La plupart des tâches ont été exécutées avec succès, mais certaines incohérences dans les performances suggèrent des domaines à améliorer. |
Déployer avec prudence |
70%–89% |
|
Modéré |
Un nombre important de tâches n’étaient pas entièrement terminées. Les performances sont inférieures au niveau souhaité. |
Enquêter sur les causes premières d’une mauvaise exécution des tâches |
50%–69% |
|
Médiocre |
Le workflow agentique échoue systématiquement à accomplir les tâches de manière adéquate. Des problèmes majeurs sont présents. |
Ne pas déployer |
0%–49% |
Scores de mesures d’enregistrements individuels
Les évaluations sont exécutées par rapport aux tables de journal des exécutions de workflow agentique. Chaque enregistrement est noté individuellement pour chaque plan d’évaluation que vous exécutez. Les évaluations des dossiers individuels sont notées en fonction des mesures suivantes.
|
Numéro |
Score |
Description |
|---|---|---|
|
3 |
Réussi |
La tâche principale était entièrement terminée. Toutes les sous-tâches ont été résolues et les étapes ont suivi une séquence logique sans erreurs critiques. |
|
2 |
Partiellement réussi |
La tâche était partiellement terminée. Certaines sous-tâches restent non résolues ou des inefficacités ont affecté le processus. |
|
1 |
En échec |
La tâche n’a pas été terminée. Des sous-tâches critiques ont été abandonnées ou non résolues ou l’exécution a échoué entièrement. |
|
Numéro |
Score |
Description |
|---|---|---|
|
1 |
Vrai |
Le bon outil a été choisi pour l’action dans le plan. |
|
0 |
Faux |
Le bon outil n’a pas été choisi. |
|
Numéro |
Score |
Description |
|---|---|---|
|
1 |
Vrai |
L’exhaustivité de la clé d’entrée, l’exhaustivité de la valeur d’entrée et l’exhaustivité du format d’entrée ont été réussies. |
|
0 |
Faux |
Un ou plusieurs des éléments Exhaustivité de la clé d’entrée, Exhaustivité des valeurs d’entrée ou Exhaustivité du format d’entrée n’ont pas réussi. |