Onglet Évaluation dans Tour de contrôle IA
L’onglet Évaluation contient le tableau de bord Évaluation, qui est conçu pour mesurer, automatiser et améliorer la qualité des interactions avec Agent virtuel. Ce tableau de bord aborde plusieurs défis clés afin d’améliorer l’expérience de l’utilisateur final et l’utilité globale d’Agent virtuel.
Tableau de bord d’évaluation
Prérequis
Rôle requis : sn_ai_governance.ai_steward
Vous devez Activation des évaluations.
- Conversations RH : les conversations liées aux ressources humaines sont filtrées, ce qui signifie qu’elles ne sont pas évaluées.
- Articles (KB) inaccessibles ou vides Base de connaissances : conversation impliquant un résultat Genius qui pointe vers un article de la base de connaissances qui n’est pas accessible via le script ou qui est vide. Par exemple, certains articles RH Knowledge restreints.
- Transfert immédiat d’agent actif : une conversation qui commence immédiatement par le transfert à un agent actif, sans interaction préalable avec l’agent virtuel.
- Conversations courtes : conversations comptant moins de 180 mots avant l’appel d’un agent actif. Le nombre de mots est configurable via le autoEvalConstants script Include. L’hypothèse est que les conversations en dessous de ce seuil ne contenaient pas d’interaction significative avec le Agent virtuel.
- Déclencheurs personnalisés : tous les déclencheurs d’exclusion personnalisés.
Vue d’ensemble du tableau de bord d’évaluation
- Établir un processus de mesure fiable en permettant le suivi systématique de l’expérience de l’utilisateur final avec le Agent virtuel, fournissant des informations plus approfondies sur les interactions.
- Automatisation de l’évaluation de la qualité de la conversation en automatisant le processus d’évaluation de la qualité de la conversation sur différentes interactions utilisateur. Cette automatisation permet de créer une mesure fiable et évolutive pour le suivi des performances.
- Amélioration continue en prenant en charge le perfectionnement itératif des performances de l’agent virtuel, améliorant ainsi l’expérience utilisateur globale.
- Surveillance évolutive en veillant à ce que le processus d’évaluation et de suivi de la qualité d’Agent virtuel soit à la fois efficace et évolutif, favorisant une identification rapide des problèmes et des améliorations au fil du temps.
- L’intégration des commentaires de l’utilisateur par le biais d’un ensemble de questions facultatives vous permet de fournir des commentaires directs sur leur expérience, ce qui est utilisé pour améliorer la qualité des interactions futures.
- Informations du gestionnaire du Centre de services en permettant aux gestionnaires du Centre de services de suivre et d’examiner les scores d’auto-évaluation au fil du temps. Les responsables peuvent également ajouter manuellement des commentaires à des fins d’analyse comparative, fournissant ainsi des informations précieuses sur la qualité de la conversation et les possibilités d’amélioration.
- Processus d’évaluation durable en améliorant continuellement les performances de Virtual Agent grâce à une approche combinée d’évaluation automatisée et de commentaires manuels permettant un système évolutif et durable qui évolue au fil du temps.
Onglet Vue d'ensemble
L’onglet Vue d’ensemble du tableau de bord d’évaluation fournit une vue complète de tous les indicateurs et données d’évaluation.
-
Score d’évaluation automatique moyen pour la mesure sélectionnée : affiche le score d’auto-évaluation moyen de la mesure sélectionnée et sa tendance dans le temps.
Pour en savoir plus sur chaque mesure, reportez-vous à la section Mesures et calculs d’évaluation.
-
Score moyen du commentaire humain pour la mesure sélectionnée : affiche le score moyen étiqueté par l’homme pour la mesure sélectionnée.Remarque :Le score n’est disponible que s’il existe suffisamment d’enregistrements de messagerie instantanée qui sont évalués manuellement. Pour en savoir plus sur l’évaluation manuelle des conversations, consultez Commentaires humains pour les évaluations.
-
Tendance du score d’évaluation : suit le score hebdomadaire de la mesure sélectionnée.
Si vous activez l’option Afficher l’écart et les scores ajustés , la comparaison entre les scores évalués automatiquement et définis par l’utilisateur s’affiche en superposant les écarts supérieurs et inférieurs et le score ajusté final sur le graphique de tendance.
Remarque :L’écart et les scores ajustés ne sont calculés que si vous avez au moins 50 étiquettes humaines.Pour plus d’informations sur la façon dont les calculs sont effectués, reportez-vous à la section Mesures et calculs d’évaluation.
-
Évaluations : affiche le nombre total de conversations qui ont été évaluées chaque semaine.
- Section des commentaires humains : contient des informations détaillées sur chaque évaluation. À partir d’ici, vous pouvez évaluer manuellement les conversations. Pour plus d'informations, consultez Commentaires humains pour les évaluations.
Évaluations
Chaque conversation est évaluée en fonction de huit mesures différentes. Pour chacune de ces mesures, il existe une compétence distincte. Vous pouvez afficher ces compétences dans sous Kit de compétences Now AssistCompétences personnalisées.
Pour en savoir plus sur chaque mesure, reportez-vous à la section Mesures et calculs d’évaluation.
Rôle requis : sn_skill_builder.admin
- Classifieur de rubriques de messagerie instantanée
- Évaluation de la messagerie instantanée Coherence
- Clarté Évaluation de messagerie instantanée
- Rétention du contexte
- Remplissage inadéquat des créneaux Évaluation de messagerie instantanée
- Précision de l’intention Évaluation de la messagerie instantanée
- Conversation fluide Évaluation de messagerie instantanée
- Hallucination de véracité Évaluation de messagerie instantanée
Le fournisseur par défaut pour ces compétences est Azure OpenAI. Vous pouvez changer le fournisseur en Google Gemini ou AWS Claude.
Pour plus d'informations sur Kit de compétences Now Assist, consultez ../../now-assist-skill-kit/concept/now-assist-skill-kit-landing.html.
Processus d’évaluation
Flux : exécuter l’évaluation.
- 10 % des conversations quotidiennes sont échantillonnées, en vérifiant si la conversation est suffisamment bonne pour être évaluée ou non. L’évaluation se fait en construisant les transcriptions de ces conversations, puis en les envoyant au grand modèle de langage (LLM) défini.
- Pour les conversations qui sont suffisamment bonnes pour être évaluées, les transcriptions ainsi que les invites pour les différentes échelles sont envoyées au LLM qui évalue ensuite les conversations.
- Après l’évaluation, la conversation passe par un post-traitement, où les scores et le motif des scores fournis par le LLM sont analysés et stockés dans les tables d’évaluation et de mesures d’évaluation.
Pour en savoir plus sur le déroulement de l’évaluation, reportez-vous à la section Flux d’évaluation.