[評価] タブ

チューリッヒで AI を有効化

Release

zurich

ft:locale

ja-JP

ft:publication_title

チューリッヒで AI を有効化

ft:clusterId

platai

bundleId

platai

workflow

Platform

の [評価] タブ AI コントロールタワー

リリースバージョン: Zurich

更新日 2025年07月08日

所要時間：5分

[ 評価 ] タブには、仮想エージェントとのインタラクションの品質を測定、自動化、および改善するように設計された評価ダッシュボードが含まれています。このダッシュボードは、エンドユーザーエクスペリエンスと全体的な仮想エージェントユーティリティを強化するためのいくつかの重要な課題に対処します。

評価ダッシュボード

前提条件

必要なロール:sn_ai_governance.ai_steward

評価の有効化を実行する必要があります。

次のいずれかの条件が満たされた場合、会話は自動評価から除外されます。

HR 会話:ヒューマンリソース (HR) に関連する会話は除外されます。つまり、評価されません。
アクセスできない、または空のナレッジベース (KB) 記事:スクリプトでアクセスできない、または空の KB 記事を指す Genius 結果を含む会話。たとえば、特定の制限付き HR ナレッジ記事などです。
ライブエージェントの即時転送:仮想エージェントとの事前のやり取りなしに、ライブエージェントへの転送と同時にすぐに開始される会話。
短い会話:ライブエージェントが呼び出されるまでの会話が 180 語未満。単語数は、 autoEvalConstants スクリプトインクルードを使用して構成できます。このしきい値を下回る会話には、仮想エージェントとの意味のあるやり取りが含まれていなかったことが前提です。
カスタムトリガー:カスタム定義の除外トリガー。

評価ダッシュボードの概要

評価ダッシュボードは、次の点で役立ちます。

仮想エージェントを使用したエンドユーザーエクスペリエンスの体系的な追跡を可能にすることで信頼性の高い測定プロセスを確立し、インタラクションに関するより深いインサイトを提供します。
さまざまなユーザーインタラクションにわたって会話の品質を評価するプロセスを自動化することで、会話の品質評価を自動化します。この自動化により、パフォーマンス追跡のための信頼できるスケーラブルなメトリクスを作成できます。
仮想エージェントのパフォーマンスの反復的な改善をサポートし、全体的なユーザーエクスペリエンスを向上させることで、継続的な改善を行います。
仮想エージェントの品質を評価および追跡するプロセスが効率的かつスケーラブルであることを確認することでスケーラブルな監視を行い、問題の迅速な特定と経時的な改善を促進します。
一連のオプションの質問によるユーザーフィードバック統合により、ユーザーのエクスペリエンスに関するフィードバックを直接提供できます。これは今後のインタラクションの品質向上に使用されます。
サービスデスクマネージャーが自動評価スコアを経時的に追跡およびレビューできるようにすることによる、サービスデスクマネージャーのインサイト。マネージャーは、ベンチマーキングの目的でフィードバックを手動で追加し、会話の質と改善の機会に関する貴重なインサイトを提供することもできます。
自動評価と手動フィードバックを組み合わせたアプローチを通じて仮想エージェントのパフォーマンスを継続的に改善することで、時間とともに進化するスケーラブルで持続可能なシステムを可能にする、持続可能な評価プロセス。

[概要] タブ

評価ダッシュボードの [ 概要 ] タブには、すべてのメトリクスと評価データの包括的なビューが表示されます。

[評価] タブ。

次のウィジェットを使用して、さまざまなメトリクスを表示できます。

選択したメトリクスの平均自動評価スコア:選択したメトリクスの平均自動評価スコアとその経時的な傾向を表示します。

各メトリクスの詳細については、「評価メトリクスと計算」を参照してください。
選択したメトリクスの人間によるフィードバックの平均スコア:選択したメトリクスの人間によるラベル付けされた平均スコアを表示します。
注:
スコアは、手動で評価される十分なチャットレコードがある場合にのみ使用できます。会話を手動で評価する方法の詳細については、「評価のための人間によるフィードバック」を参照してください。
評価スコアの傾向:選択したメトリクスの週次スコアを追跡します。

[偏差と調整済みスコアを表示] トグルをオンにすると、傾向チャート上の上側、下側の偏差、および最終的な調整済みスコアにオーバーレイすることで、自動評価されたスコアとユーザー定義のスコアの比較が表示されます。

注:
偏差スコアと調整済みスコアは、人間によるラベルが 50 個以上ある場合にのみ計算されます。

計算方法の詳細については、「評価メトリクスと計算」を参照してください。
評価:毎週評価された会話の合計数が表示されます。
[人間のフィードバック] セクション:各評価に関する詳細情報が含まれています。ここから、会話を手動で評価できます。詳細については、「評価のための人間によるフィードバック」を参照してください。

評価

各会話は、8 つの異なるメトリクスで評価されます。これらのメトリクスにはそれぞれ個別のスキルがあります。これらのスキルは、 Now Assist スキルキットの [カスタムスキル] で確認できます。

各メトリクスの詳細については、「評価メトリクスと計算」を参照してください。

必要なロール:sn_skill_builder.admin

評価用のカスタムスキル。

次の Now Assist カスタムスキルが使用されます。

チャットトピック分類子
Coherence チャットの評価
簡潔さチャット評価
コンテキストの保持
不十分なスロット入力チャットの評価
インテント精度チャット評価
スムーズに流れる会話チャットの評価
真実性幻覚チャット評価

これらのスキルのデフォルトのプロバイダーは Azure OpenAI です。プロバイダーを Google Gemini または AWS Claude に変更できます。

Now Assist スキルキットの詳細については、「../../now-assist-skill-kit/concept/now-assist-skill-kit-landing.html」を参照してください。

評価のプロセス

フロー:評価を実行します。

日常会話の10%をサンプリングし、評価するほど良い会話かどうかをチェックします。評価は、これらの会話のトランスクリプトを作成し、設定された大規模言語モデル (LLM) に送信することによって行われます。
評価するのに十分な会話の場合、トランスクリプトはさまざまなスケールのプロンプトとともに LLM に送信され、LLM は会話を評価します。
評価後、会話は後処理を経て、LLM から提供されたスコアとスコアの理由が解析され、評価テーブルと評価メトリクステーブルに保存されます。

注:

会話評価の推定は、会話の作成日ではなく、評価日時点で考慮されます。たとえば、時刻 t に発生したチャットが時刻 t+10 に評価された場合、エバリュエーターからのスコアは t の週ではなく、t+10 の週について集計されます。

評価フローの詳細については、「評価フロー」を参照してください。