Now Assist ガーディアン

Now Assist ガーディアンの概要

生成AIは新しいテクノロジーです。人間の相互作用は予測不可能であり、大規模言語モデル (LLM) によって生成される出力は確率的であり、確率に基づいています。同じ入力を 2 回実行すると、2 つの異なる出力が生成される場合があります。このリスクを管理することは、インスタンスに生成 AI を実装する際の重要な考慮事項です。 Now Assist ガーディアンは、LLM に送信された要求とその応答をリアルタイムで評価して、そのリスクを軽減します。

ガードレール

Now Assist ガーディアンには 3 つのガードレールがあります。各ガードレールには、異なる適用範囲があります。


ガードレール	検出内容	スコープ
攻撃性検出	AI 入力および出力内の不快または有害なコンテンツ。	特定の Now Assist スキルとワークフロー。
プロンプトインジェクション検出	LLM の指示を上書きしたり、制限された情報を公開したりしようとします。	すべての生成 AI アプリケーションと機能。
機密トピックフィルター	職場の安全性や従業員の報酬など、AI 応答に適さない件名。	仮想エージェント会話スキルのみ ( HR サービスデリバリ (HRSD) とカスタマーサービス管理 (CSM) で利用可能)。

注:

各ガードレールの範囲は異なります。プロンプトインジェクション検出は、すべての生成 AI アプリケーションと機能に適用されます。攻撃性検出は、サポートされている Now Assist スキルとワークフローにのみ適用されます。機密トピックフィルターは、仮想エージェント会話にのみ適用され、 HR サービスデリバリ (HRSD)が必要です。

不快なコンテンツ: 生成 AI の確率的な性質により、LLM が不快なコンテンツを生成する可能性があります。要求の入力に不快なコンテンツが含まれている場合、応答にも不快なコンテンツが発生する可能性があります。不快なコンテンツの例としては、有害な言葉、中傷的な言葉、詐欺的な言葉などがあります。
不快なコンテンツが検出されると、 Now Assist ガーディアンはイベントをログに記録します。コンテンツをブロックするように構成することもできます。このガードレールは、特定の Now Assist スキルとワークフローに適用されます。
プロンプトインジェクション: プロンプトインジェクションは、誰かが LLM の通常の指示を無効にして制限された情報にアクセスしたり、意図しない動作を引き起こしたりしようとするセキュリティ攻撃の一種です。Now Assist ガーディアンは、ロールプレイング、言い換え、繰り返し、他の指示を無視する指示、説得など、さまざまなタイプのプロンプトインジェクションテクニックトレーニングされた LLM を使用して、プロンプトインジェクションの試行を検出します。
注:
モデルの確率的性質と進化する攻撃手法により、 Now Assist ガーディアンはすべてのプロンプトインジェクション試行を識別できない場合があります。
プロンプトインジェクション保護は、インスタンス上のすべての生成 AI アプリケーションと機能に適用されます。特定のスキルやワークフローに限定されません。
フィルタリングされた件名: 職場の安全、従業員の報酬、個人の幸福など、特定のテーマは生成 AI の応答に最適ではない場合があります。仮想エージェント会話でこの種の件名を検出するフィルターをアクティブ化し、AI 応答を生成する代わりにユーザーを機密性検出:仮想エージェントフォールバックトピックにリダイレクトできます。
注:
機密トピックフィルターは、仮想エージェント会話スキルにのみ適用されます。これらのフィルターは、 HR サービスデリバリ (HRSD) とカスタマーサービス管理 (CSM) でのみ使用できます。

ログ記録とブロック

Now Assist ガーディアン検出されたイベントの攻撃性とプロンプトインジェクションをログに記録します。次の場所からログにアクセスできます Now Assist アドミン > 設定 > Now Assist Guardian. ログデータには、要求に関する情報、不快なコンテンツを含む会話、およびユーザーフィードバックが含まれます。

ログ記録に加えて、不快なコンテンツをブロックしたり、インジェクションの試行を促したりするように Now Assist ガーディアンを構成できます。ブロックが有効になっていてコンテンツが検出されると、生成された応答の代わりに標準のエラーメッセージが表示されます。標準のエラーメッセージには、要求を完了できなかったことが表示され、AI が生成した内容が表示されません。ブロックを有効にする前に、一定期間ログを確認して、環境内でこれらの問題が発生する頻度を把握してください。

機密性がフィルタリングされたトピックのリダイレクト

フィルターが機密トピックを検出すると、 Now Assist ガーディアンは仮想エージェントの機密性検出:フォールバックトピックにリダイレクトします。このトピックは、ライブエージェントにリダイレクトしたり、 HR ケースの作成に役立ちます。

リダイレクトを上書きするには、[機密ではなく続行] を選択します。代替フローを開始せずに元のトピックに戻ります。

注:

たとえば、 HR ケースを作成するフローを開始するなどして、代替トピックを続行すると、仮想エージェントその会話内の機密トピックの検出は続行されません。