Foire aux questions sur les évaluations agentiques
Trouvez des réponses aux questions courantes sur la configuration et l’exécution des évaluations.
- Dois-je garder quelque chose à portée de main avant une évaluation automatisée ?
- Avant de commencer, assurez-vous de :
- Testez votre agent ou votre workflow dans l’aire de jeux. Détectez les problèmes évidents à un stade précoce : les évaluations automatisées sont idéales pour une validation plus approfondie.
- Assurez-vous que votre table contient toutes les entrées requises si vous générez des scénarios de test ou si vous utilisez des scénarios provenant d’exécutions précédentes de l’agent ou du workflow pendant la configuration.
- Préparez suffisamment de scénarios. Nous recommandons au moins 100. Votre évaluation dépend des situations que vous faites subir à votre agent.
- Définissez ce que signifie le succès. Définissez clairement ce que doit être le résultat approprié pour votre agent.
- Comment configurer ma première évaluation automatisée ?
- Pour configurer une évaluation, suivez le flux guidé :
- Sélectionnez votre agent ou workflow et sa version.
- Choisissez vos mesures : intégrées ou personnalisées.
- Utilisez un ensemble de données existant ou décidez comment vous souhaitez en créer un.
- Quand dois-je créer une mesure personnalisée ?
- Créez une mesure personnalisée lorsque vous disposez de critères d’évaluation uniques et que vous souhaitez mesurer les comportements spécifiques au workflow ou à l’agent qui ne sont pas couverts par ServiceNow les mesures intégrées de . Par exemple, vous pouvez :
- Vérifiez si une phrase particulière apparaît dans la réponse de l’agent.
- Mesurez la longueur de la réponse pour évaluer la verbosité ou la brièveté.
- Comment créer un ensemble de données pour les évaluations agentiques ?
- Il existe deux façons de créer un ensemble de données pour les évaluations agentiques, mais d’abord, clarifions ce qu’est un ensemble de données. Votre ensemble de données doit inclure les journaux des exécutions qui capturent ce qui se passe lorsque votre agent IA ou votre workflow traite des enregistrements tels que des incidents, des tickets ou des tâches. Vous pouvez créer un ensemble de données en procédant comme suit :
- À l'aide des journaux des exécutions précédentes de l'agent ou du workflow, ou
- Génération de nouveaux journaux en exécutant l'agent ou le workflow après la configuration.
- Que se passe-t-il après une évaluation automatisée ?
- Examinez les résultats de votre évaluation pour :
- Identifier les lacunes de configuration dans votre agent ou votre workflow
- Évaluer la préparation au déploiement
- Analyser les performances de l'outil pour détecter les problèmes liés aux entrées ou aux descriptions
- Explorer les exécutions individuelles et les scores de mesure
- Comment créer une mesure personnalisée ?
- Créez une mesure personnalisée en quelques étapes :
- Nommez et décrivez votre mesure.
- Définissez son périmètre d’évaluation : workflow agentique, agents ou les deux.
- Spécifiez ce qu’il mesure, comment il fonctionne et son format de sortie.
- Ajoutez des entrées de mesures et écrivez votre mesure basée sur un script.
- Enregistrez et publiez pour le rendre disponible à l’utilisation.
- Comment interpréter les résultats de l'évaluation ?
- En fonction des mesures que vous sélectionnez, chaque exécution affiche un score pour chaque mesure. Consultez le « Guide des mesures » pour comprendre la signification des scores. Vous pouvez également personnaliser les seuils de mesure pour qu’ils soient conformes aux définitions de réussite et d’échec de votre organisation.
- Comment puis-je suivre l'évolution de mes évaluations ?
- Les évaluations peuvent prendre un certain temps, mais vous n’avez pas besoin de rester sur la page. À partir de la page d’accueil, vous pouvez suivre toutes les évaluations et même voir si une action est requise.
- Comment l'outil d'analyse est-il utilisé lors de la création de mesures personnalisées ?
- Lors de la création d’une mesure personnalisée pour les évaluations agentiques, la fourniture d’une entrée de mesure est facultative : nous incluons le « sys_id d’enregistrement de plan d’exécution » par défaut. Nous fournissons également un outil d’analyse qui extrait les données structurées de vos journaux d’exécution, de sorte que vous n’aurez pas besoin d’analyser manuellement le XML ou le JSON. Vous pouvez accéder aux sorties de l’outil d’analyse avec la sortie de l’outil.