Mesures et calculs d’évaluation

Australie : activer l’IA

Release

australia

ft:locale

fr-FR

ft:publication_title

Australie : activer l’IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Mesures et calculs d’évaluation

Rversion finale: Australia

Mis à jour 12 mars 2026

4 minutes de lecture

Mesures par rapport auxquelles les conversations sont évaluées et calcul des scores ajustés.

Métriques

La liste Sélectionner une mesure affiche toutes les mesures par rapport auxquelles chaque conversation est évaluée pour la plage de dates sélectionnée. Vous pouvez filtrer la tendance d’évaluation en fonction de chaque mesure. Les mesures suivantes sont disponibles :


Mesure	Description
Achèvement de la demande	Mesure la capacité de l’agent virtuel à répondre aux demandes de l’utilisateur en identifiant précisément l’intention de l’utilisateur et en recueillant toutes les informations requises (remplissage des emplacements).
Précision de l’intention	Montre la capacité de Virtual Agent à comprendre les demandes des utilisateurs, ce qui se traduit par des réponses pertinentes.
Remplissage d’emplacement	Montre la capacité de Virtual Agent à interpréter les réponses des utilisateurs et à extraire des réponses structurées aux questions requises.
Conversation fluide (évitement de l’impasse)	Vérifie si l’agent virtuel répond de manière dynamique, ce qui permet de faire avancer la conversation sans répétition.
Rétention du contexte	Indique si l’agent virtuel parvient à conserver et à utiliser les informations fournies pendant la conversation, y compris l’interprétation des demandes et le remplissage des emplacements.
Véracité (prévention des hallucinations)	Indique si l’agent virtuel a généré des réponses authentiques fondées sur la conversation, à l’exclusion des erreurs de fabrication ou de mémoire et de compréhension.
Concision (évitement des redondances)	Vérifie la capacité de Virtual Agent à éviter les réponses superflues ou détaillées et génériques, qui ne contribuent pas à l’intention principale de la conversation.
Cohérence	Vérifie que le flux logique, la structure et l’organisation des réponses de Virtual Agent sont clairs.
Satisfaction utilisateur	Moyenne pondérée de toutes les autres mesures sur lesquelles la conversation a été évaluée.

Remarque :

Toutes les mesures sont évaluées sur une échelle de 3 ou 5, et sont finalement mises à l’échelle jusqu’à 5.

Calculs

Calcul des écarts et du score ajusté :

Pour aligner les scores de l’auto-évaluation sur le jugement humain au fil du temps, un écart est calculé et utilisé pour produire un score ajusté au niveau des mesures.

Écart supérieur
Condition : si le nombre de scores étiquetés par l’homme qui sont supérieurs aux scores auto-évalués au cours des 6 derniers mois est supérieur à 30.
Calcul : Les 90 % de ces cas sont pris en compte et la différence (delta) entre le score humain et le score auto-évalué est moyennée. Ce delta est l’écart supérieur.
Écart inférieur
Condition : si le nombre de scores étiquetés par l’homme qui sont inférieurs aux scores auto-évalués au cours des 6 derniers mois est supérieur à 30.
Calcul : Les 90 % de ces cas sont pris en compte et la différence (delta) entre le score humain et le score auto-évalué est moyennée. Ce delta est l’écart inférieur.
Score ajusté
Le score ajusté final est calculé en fonction de la disponibilité des écarts.
- Si au moins 30 évaluations distinctes des écarts supérieurs et inférieurs sont étiquetées pour une mesure donnée, la bande d’erreur est calculée comme SOMME (score d’étiquetage moyen : score LLM)/évaluations distinctes. Cette bande d’erreur est ajoutée au score d’évaluation automatique pour obtenir le score ajusté.
- Si aucun des deux écarts n’est disponible, alors Score ajusté = Score d’évaluation automatique

Calcul du score de satisfaction utilisateur d’évaluation automatique, du score de satisfaction utilisateur humain et des écarts supérieur et inférieur au niveau de l’évaluation :

Score de satisfaction utilisateur d’évaluation automatique : pour une évaluation donnée, obtenez tous les scores de chaque mesure générés par LLM et calculez SUM (score de mesure * poids de mesure)/SUM (poids de mesure).
Score de satisfaction de l’utilisateur humain : pour une évaluation donnée, si au moins une mesure est étiquetée, elle est prise en compte pour calculer le score de satisfaction de l’utilisateur humain. S’il est étiqueté, le score d’étiquetage est utilisé, ou bien le score LLM est utilisé. Calculé comme suit : SOMME (score de mesure * poids de mesure)/SOMME (poids de mesures).
Écart : l’écart est calculé comme suit : score de satisfaction de l’utilisateur humain : score de satisfaction de l’évaluation automatique).
Écart supérieur : si l’écart est positif et qu’il y a plus de 30 enregistrements, la bande d’erreur est calculée à 90 % supérieurs par SUM (écart positif) / évaluations distinctes. Cette bande d’erreur est ajoutée au score de satisfaction utilisateur d’évaluation automatique.
Écart inférieur : si l’écart est négatif et qu’il y a plus de 30 enregistrements, la bande d’erreur est calculée à 90 % supérieurs par SUM (écart négatif) / évaluations distinctes. Cette bande d’erreur est ajoutée au score de satisfaction utilisateur d’évaluation automatique.
Le score de satisfaction de l’utilisateur ajusté est calculé comme SOMME (écart) / évaluations distinctes.

Remarque :

L’évaluateur fournit un score agrégé par messagerie instantanée, même si plusieurs demandes différentes sont effectuées par l’utilisateur.
Les indicateurs d’Analyse des performances sont utilisés pour calculer le score moyen au fil du temps. Si vous exécutez des tâches par lots sur des données historiques, ces évaluations sont comptées à la date de l’évaluation dans les scores agrégés et non pas à la date réelle de la messagerie instantanée, selon la définition des indicateurs d’Analyse des performances.