Mesures et calculs d’évaluation
Mesures par rapport auxquelles les conversations sont évaluées et calcul des scores ajustés.
Métriques
| Mesure | Description |
|---|---|
| Achèvement de la demande | Mesure la capacité de l’agent virtuel à répondre aux demandes de l’utilisateur en identifiant précisément l’intention de l’utilisateur et en recueillant toutes les informations requises (remplissage des emplacements). |
| Précision de l’intention | Montre la capacité de Virtual Agent à comprendre les demandes des utilisateurs, ce qui se traduit par des réponses pertinentes. |
| Remplissage d’emplacement | Montre la capacité de Virtual Agent à interpréter les réponses des utilisateurs et à extraire des réponses structurées aux questions requises. |
| Conversation fluide (évitement de l’impasse) | Vérifie si l’agent virtuel répond de manière dynamique, ce qui permet de faire avancer la conversation sans répétition. |
| Rétention du contexte | Indique si l’agent virtuel parvient à conserver et à utiliser les informations fournies pendant la conversation, y compris l’interprétation des demandes et le remplissage des emplacements. |
| Véracité (prévention des hallucinations) | Indique si l’agent virtuel a généré des réponses authentiques fondées sur la conversation, à l’exclusion des erreurs de fabrication ou de mémoire et de compréhension. |
| Concision (évitement des redondances) | Vérifie la capacité de Virtual Agent à éviter les réponses superflues ou détaillées et génériques, qui ne contribuent pas à l’intention principale de la conversation. |
| Cohérence | Vérifie que le flux logique, la structure et l’organisation des réponses de Virtual Agent sont clairs. |
| Satisfaction utilisateur | Moyenne pondérée de toutes les autres mesures sur lesquelles la conversation a été évaluée. |
Calculs
Calcul des écarts et du score ajusté :
- Écart supérieur
Condition : si le nombre de scores étiquetés par l’homme qui sont supérieurs aux scores auto-évalués au cours des 6 derniers mois est supérieur à 30.
Calcul : Les 90 % de ces cas sont pris en compte et la différence (delta) entre le score humain et le score auto-évalué est moyennée. Ce delta est l’écart supérieur.
- Écart inférieur
Condition : si le nombre de scores étiquetés par l’homme qui sont inférieurs aux scores auto-évalués au cours des 6 derniers mois est supérieur à 30.
Calcul : Les 90 % de ces cas sont pris en compte et la différence (delta) entre le score humain et le score auto-évalué est moyennée. Ce delta est l’écart inférieur.
- Score ajustéLe score ajusté final est calculé en fonction de la disponibilité des écarts.
- Si au moins 30 évaluations distinctes des écarts supérieurs et inférieurs sont étiquetées pour une mesure donnée, la bande d’erreur est calculée comme SOMME (score d’étiquetage moyen : score LLM)/évaluations distinctes. Cette bande d’erreur est ajoutée au score d’évaluation automatique pour obtenir le score ajusté.
- Si aucun des deux écarts n’est disponible, alors Score ajusté = Score d’évaluation automatique
- Score de satisfaction utilisateur d’évaluation automatique : pour une évaluation donnée, obtenez tous les scores de chaque mesure générés par LLM et calculez SUM (score de mesure * poids de mesure)/SUM (poids de mesure).
- Score de satisfaction de l’utilisateur humain : pour une évaluation donnée, si au moins une mesure est étiquetée, elle est prise en compte pour calculer le score de satisfaction de l’utilisateur humain. S’il est étiqueté, le score d’étiquetage est utilisé, ou bien le score LLM est utilisé. Calculé comme suit : SOMME (score de mesure * poids de mesure)/SOMME (poids de mesures).
- Écart : l’écart est calculé comme suit : score de satisfaction de l’utilisateur humain : score de satisfaction de l’évaluation automatique).
- Écart supérieur : si l’écart est positif et qu’il y a plus de 30 enregistrements, la bande d’erreur est calculée à 90 % supérieurs par SUM (écart positif) / évaluations distinctes. Cette bande d’erreur est ajoutée au score de satisfaction utilisateur d’évaluation automatique.
- Écart inférieur : si l’écart est négatif et qu’il y a plus de 30 enregistrements, la bande d’erreur est calculée à 90 % supérieurs par SUM (écart négatif) / évaluations distinctes. Cette bande d’erreur est ajoutée au score de satisfaction utilisateur d’évaluation automatique.
- Le score de satisfaction de l’utilisateur ajusté est calculé comme SOMME (écart) / évaluations distinctes.
- L’évaluateur fournit un score agrégé par messagerie instantanée, même si plusieurs demandes différentes sont effectuées par l’utilisateur.
- Les indicateurs d’Analyse des performances sont utilisés pour calculer le score moyen au fil du temps. Si vous exécutez des tâches par lots sur des données historiques, ces évaluations sont comptées à la date de l’évaluation dans les scores agrégés et non pas à la date réelle de la messagerie instantanée, selon la définition des indicateurs d’Analyse des performances.