Résoudre les problèmes liés aux évaluations agentiques
Trouvez des solutions aux erreurs d’évaluation courantes, notamment les échecs d’exécution, les problèmes d’ingestion de données et les résultats inattendus.
Lorsque vous utilisez des évaluations agentiques, vous pouvez constater des résultats d’exécution inattendus ou des erreurs. Ce qui suit traite des situations que vous pourriez rencontrer et de certaines des raisons pour lesquelles ces situations se produisent.
Échec de l’exécution de l’évaluation
Il existe plusieurs raisons pour lesquelles une exécution d’évaluation peut ne pas s’exécuter correctement.
- Version de l’agent non disponible
- Vérifiez que la version de l’agent sélectionné existe toujours dans Studio d'agents IA. Il n’est pas nécessaire que ce soit la version actuellement active, mais les versions supprimées ou archivées ne peuvent pas être évaluées.
- Autorisations utilisateur
- Vérifiez que votre enregistrement utilisateur dispose des autorisations requises pour exécuter des exécutions d’évaluation en général et pour utiliser l’actif IA spécifique. Pour vérifier si un certain utilisateur a accès, vous pouvez effectuer un test d’accès. Consultez Tester l’accès de l’utilisateur à un agent IA et Tester l’accès de l’utilisateur à un workflow agentique.
- Erreurs de format de données
- Vérifiez que l’ensemble de données est conforme au format requis. Des enregistrements mal formés peuvent entraîner l’échec de l’évaluation. Consultez Exigences en matière de données pour les évaluations agentiques pour les types de données pris en charge.
- Incohérence entre les mesures et les données
- Vérifiez que toutes les mesures sélectionnées disposent des entrées de données requises. Les mesures qui nécessitent une vérité fondée échoueront si le champ Vérité fondée est manquant dans l’ensemble de données.
Sous-performance de l’actif IA agentique malgré aucun problème trouvé
Si l’évaluation n’a révélé aucun problème, mais que l’actif d’IA agentique spécifique ne fonctionne toujours pas selon des normes acceptables, tenez compte des points suivants :
- Couverture de l’ensemble de données
- L’ensemble de données d’évaluation peut ne pas inclure les types d’entrées ou de scénarios qui exposent les faiblesses de l’agent. Examinez l’ensemble de données pour détecter les lacunes de couverture et ajoutez des cas limites représentatifs pour aligner plus étroitement ce qui est évalué sur les scénarios du monde réel.
- Sélection de mesures
- Les mesures sélectionnées peuvent ne pas mesurer l’échec de l’actif IA agentique. Vérifiez si des mesures supplémentaires ou différentes permettraient de mieux capturer l’écart de performances. Vous pouvez créer des mesures personnalisées pour évaluer d’autres dimensions des réponses ou des actions de l’actif IA agentique, telles que la longueur de la réponse ou si une réponse répond à certaines exigences de formatage.
- Seuils de notation
- Le seuil de réussite d’une mesure peut être défini à un niveau qui ne reflète pas vos besoins. Passez en revue les paramètres de seuil dans la configuration des mesures pour redéfinir la réussite et l’échec.
Optimisation appliquée, mais la réévaluation ne s’est pas améliorée
Si les scores de réévaluation ne se sont pas améliorés après l’application des optimisations, essayez ce qui suit :
- Examinez les détails de suivi des problèmes ciblés. L’optimisation n’a peut-être fait que soulager les symptômes superficiels sans résoudre la cause première sous-jacente.
- Vérifiez si l’optimisation a introduit une régression dans une autre mesure. Les améliorations de score dans un domaine peuvent parfois en dégrader un autre, abaissant les scores finaux.
- Si l’optimisation a été appliquée à la liste d’étapes d’un actif IA agentique, vérifiez que la liste d’étapes mise à jour a été appliquée à la version que vous évaluez.
Erreurs de traitement des données
Si les données ne peuvent pas être traitées parce qu’elles ne répondent pas aux exigences en matière de données, l’évaluation ne peut pas s’exécuter correctement. La section suivante décrit les causes courantes d’erreurs de traitement des données :
- Format de fichier incorrect
- Les formats de fichier acceptés sont CSV et JSON structuré. Les autres formats de fichier ne peuvent pas être traités.
- Champs obligatoires manquants
- Les ensembles de données doivent inclure les champs requis par les mesures sélectionnées. Vérifiez les colonnes manquantes ou mal nommées. Si vous utilisez une vérité fondée, vous devez l’inclure dans l’ensemble de données.
- Problèmes d’encodage
- Les fichiers doivent être encodés en UTF-8. Les fichiers avec un codage non standard peuvent ne pas être traités.
- Taille du fichier
- Les fichiers ou ensembles de données très volumineux peuvent expirer pendant le traitement. Si cela se produit, réduisez la taille de l’ensemble de données ou contactez votre administrateur de la plateforme.