Now Assist ガーディアン

  • リリースバージョン: Australia
  • 更新日 2025年07月31日
  • 所要時間:11分
  • Now Assist ガーディアンServiceNow Small Language Model (SLM) に基づいて構築されており、生成 AI のインタラクションを監視して、不快なコンテンツ、プロンプトインジェクション攻撃、および機密トピックを検出します。

    Now Assist ガーディアン の概要

    生成AIは新しいテクノロジーです。人間の相互作用は予測不可能であり、大規模言語モデル (LLM) によって生成される出力は確率的であり、確率に基づいています。同じ入力を 2 回実行すると、2 つの異なる出力が生成される場合があります。このリスクを管理することは、インスタンスに生成 AI を実装する際の重要な考慮事項です。 Now Assist ガーディアン は、LLM に送信された要求とその応答をリアルタイムで評価して、そのリスクを軽減します。

    ガードレール

    Now Assist ガーディアン には 3 つのガードレールがあります。各ガードレールには、異なる適用範囲があります。
    ガードレール 検出内容 スコープ
    攻撃性検出 AI 入力および出力内の不快または有害なコンテンツ。 特定の Now Assist スキルとワークフロー。
    プロンプトインジェクション検出 LLM の指示を上書きしたり、制限された情報を公開したりしようとします。 すべての生成 AI アプリケーションと機能。
    機密トピックフィルター 職場の安全性や従業員の報酬など、AI 応答に適さない件名。 仮想エージェント 会話スキルのみ ( HR サービスデリバリ (HRSD)カスタマーサービス管理 (CSM) で利用可能)。
    注:
    各ガードレールの範囲は異なります。プロンプトインジェクション検出は、すべての生成 AI アプリケーションと機能に適用されます。攻撃性検出は、サポートされている Now Assist スキルとワークフローにのみ適用されます。機密トピックフィルターは、 仮想エージェント 会話にのみ適用され、 HR サービスデリバリ (HRSD)が必要です。
    不快なコンテンツ
    生成 AI の確率的な性質により、LLM が不快なコンテンツを生成する可能性があります。要求の入力に不快なコンテンツが含まれている場合、応答にも不快なコンテンツが発生する可能性があります。不快なコンテンツの例としては、有害な言葉、中傷的な言葉、詐欺的な言葉などがあります。

    不快なコンテンツが検出されると、 Now Assist ガーディアン はイベントをログに記録します。コンテンツをブロックするように構成することもできます。このガードレールは、特定の Now Assist スキルとワークフローに適用されます。

    プロンプトインジェクション
    プロンプトインジェクションは、誰かが LLM の通常の指示を無効にして制限された情報にアクセスしたり、意図しない動作を引き起こしたりしようとするセキュリティ攻撃の一種です。Now Assist ガーディアン は、ロールプレイング、言い換え、繰り返し、他の指示を無視する指示、説得など、さまざまなタイプのプロンプトインジェクションテクニックトレーニングされた LLM を使用して、プロンプトインジェクションの試行を検出します。
    注:
    モデルの確率的性質と進化する攻撃手法により、 Now Assist ガーディアン はすべてのプロンプトインジェクション試行を識別できない場合があります。
    プロンプトインジェクション保護は、インスタンス上のすべての生成 AI アプリケーションと機能に適用されます。特定のスキルやワークフローに限定されません。
    フィルタリングされた件名
    職場の安全、従業員の報酬、個人の幸福など、特定のテーマは生成 AI の応答に最適ではない場合があります。仮想エージェント会話でこの種の件名を検出するフィルターをアクティブ化し、AI 応答を生成する代わりにユーザーを機密性検出:仮想エージェントフォールバックトピックにリダイレクトできます。
    注:
    機密トピックフィルターは、 仮想エージェント 会話スキルにのみ適用されます。これらのフィルターは、 HR サービスデリバリ (HRSD)カスタマーサービス管理 (CSM) でのみ使用できます。

    ログ記録とブロック

    Now Assist ガーディアン 検出されたイベントの攻撃性とプロンプトインジェクションをログに記録します。次の場所からログにアクセスできます Now Assist アドミン > 設定 > Now Assist Guardian. ログデータには、要求に関する情報、不快なコンテンツを含む会話、およびユーザーフィードバックが含まれます。

    ログ記録に加えて、不快なコンテンツをブロックしたり、インジェクションの試行を促したりするように Now Assist ガーディアン を構成できます。ブロックが有効になっていてコンテンツが検出されると、生成された応答の代わりに標準のエラーメッセージが表示されます。標準のエラーメッセージには、要求を完了できなかったことが表示され、AI が生成した内容が表示されません。ブロックを有効にする前に、一定期間ログを確認して、環境内でこれらの問題が発生する頻度を把握してください。

    機密性がフィルタリングされたトピックのリダイレクト

    フィルターが機密トピックを検出すると、 Now Assist ガーディアン仮想エージェント の機密性検出:フォールバックトピックにリダイレクトします。このトピックは、ライブエージェントにリダイレクトしたり、 HR ケースの作成に役立ちます。

    リダイレクトを上書きするには 、[機密ではなく続行] を選択します。代替フローを開始せずに元のトピックに戻ります。
    注:
    たとえば、 HR ケースを作成するフローを開始するなどして、代替トピックを続行すると、 仮想エージェント その会話内の機密トピックの検出は続行されません。

    Now Assist ガーディアン 実行時

    要求が LLM に到達する前に個人識別可能情報 (PII) を Now Assist ガーディアン 削除するすべてのスキル。匿名化するデータのタイプを設定できます。詳細については、「 データプライバシー向け Now Assist の構成」を参照してください。

    会話スキルの場合、セマンティック検索はフィルターが検出されたかどうかを判断する要求を処理します。その場合、ユーザーはHRケースを作成するかライブエージェントと話すかを尋ねる仮想エージェントトピックにリダイレクトされます。

    感度フィルターガードレールを使用した実行時のNow Assist ガーディアンを示すインフォグラフィック

    要約や解決メモの生成などのカタログアイテムの生成とエージェントスキルでは、攻撃性とプロンプトインジェクションのガードレールが要求の入力と出力に対して実行されます。いずれかが検出されると、 Now Assist ガーディアン 要求がログに記録されます。このコンテンツをブロックすることを選択した場合は、標準のエラーメッセージが表示され、ユーザーには要求の結果が表示されません。

    攻撃性とセキュリティガードレールを使用した実行時のNow Assist ガーディアンを示すインフォグラフィック

    Now Assist ガーディアンログにキャプチャされる安全cカテゴリ

    不快なコンテンツやセキュリティリスクを引き起こすフラグが付けられる可能性のあるコンテンツには、次のような種類があります。さまざまなガードレールの Now Assist ガーディアン ログで、どのカテゴリが検出されているかを特定できます。

    カテゴリ

    カテゴリ ID

    説明

    有害コンテンツ

    O1

    禁止事項:ヘイトスピーチを助長したり、児童虐待やいじめなどの暴力を扇動したり、個人攻撃や嫌がらせを行ったりすること。

    可能: 教育目的で有害なコンテンツに関連する影響と社会的問題について話し合います。

    不公平な表現

    O2

    すべきではない:固定観念を永続させたり、差別や偏見を助長したりすること。

    可能なこと: 代表性の問題について話し合い、意識と包括性を促進します。

    アダルトコンテンツ

    O3

    禁止事項: ポルノ、エロティックなチャット、性行為など、未成年者にとって露骨な性的コンテンツやコンテンツを表示すること。

    可能: セクシュアリティと同意に関連するトピックについて教育的なディスカッションを提供します。

    公開情報への信頼の毀損

    O4

    すべきではない:誤解を招く医学的アドバイス、違法薬物、アドバイスなど、社会の信頼を損なう誤った情報や偽情報を広めること。

    できること: 誤った情報の傾向を批判的に分析し、メディア リテラシーについて教育します。

    誤解や誤った信念を広める

    O5

    してはいけない:未検証の誤解を招く情報、陰謀論、科学否定論、歴史修正主義、または過激化につながる可能性のあるコンテンツを広めること。

    できること: 批判的な分析を提供し、一般的な誤解や誤った信念の誤りを暴きます。

    リスクの高い金融慣行

    O6

    すべきではない:マルチレベルマーケティング、欺瞞的な融資慣行、ギャンブルなどの非倫理的な取引慣行を助長すること。

    可能: 関連するリスク、倫理的な融資、責任あるギャンブル、貿易コンプライアンス、公正なビジネス慣行について教育します。

    貿易とコンプライアンス

    O7

    労働問題に関与したり、非倫理的な取引行為に関与したり、不当な労働慣行に加担したり、不正な取引慣行を助長したりしてはいけないこと。

    可能: 労働問題、倫理的な取引慣行、貿易コンプライアンス、公正なビジネス行動に関する情報と洞察を提供します。

    危険情報の流布

    O8

    偽のニュースを広めたり、ソーシャルメディアで噂を広めたり、政府機密を開示したり、財務データや、国民のパニックや国家安全保障を助長するその他のコンテンツを漏洩したりしてはなりません。

    可能なこと: そのような情報の危険性について教育し、安全性を促進します。

    プライバシー侵害

    O9

    すべきではない:ドキシング、不正なデータ共有、または個人情報の推測や漏洩などの監視が含まれます。

    可能: プライバシー権とデジタルセキュリティの重要性について話し合います。

    セキュリティの脅威

    O10

    禁止事項:マルウェアを拡散したり、テロや、兵器の生成、サイバー攻撃、化学物質による危害などのその他のセキュリティ上の脅威を助長したりすること。

    可能な操作:セキュリティ脅威を特定して軽減するための情報と方法を提供します。

    中傷

    O11

    すべきではない:個人、グループ、または組織に損害を与える虚偽の記述を公開します。

    可能: 名誉毀損と言論の自由の法的および倫理的側面を探ります。

    詐欺または欺瞞行為

    O12

    してはいけない:学術的不正に関与したり、詐欺を犯したり、疑似医薬品を宣伝したり、偽のオンラインコンテンツを広めたりすること。コンテンツは個人を欺いたり詐欺したりしてはなりません。

    可能: 不正行為の認識と防止について教育します。

    影響操作

    O13

    してはいけないこと:監視やキャンペーンなどの政治的またはイデオロギー的な目的で世論を操作したり、社会の調和を乱したりすること。

    可能:影響力操作の性質と影響について分析し、教育します。

    違法行為

    O14

    すべきではない:犯罪やテロなどの違法行為に関与することを促進または提供します。

    できること: 違法行為の結果と防止について教育します。

    説得と操作

    O15

    すべきではない:自傷行為、心理的操作、または個人の幸福に対するあらゆる形態の危害を促進する説得または操作技術を含む。

    可能なこと: 操作の認識と抵抗について教育し、影響を受ける人々にサポートとリソースを提供します。

    個人財産の侵害

    O16

    個人の個人財産violating、悪意のある模倣、盗作、著作権侵害または 身元偽造に関与してはなりません。

    できること: 個人財産の尊重とそのような侵害の防止に関する意識と議論を促進します。

    不快な検出をサポートするスキル

    表 : 1. サポート担当者スキル ワークフロー
    ワークフロー アプリケーション サポートされているスキル
    テクノロジー Now Assist for Configuration Management Database (CMDB)
    テクノロジー Now Assist for ITOM
    テクノロジー Now Assist for IT Service Management (ITSM)
    テクノロジー Now Assist for Security Incident Response
    テクノロジー Now Assist for Strategic Portfolio Management (SPM)
    顧客 Now Assist for Customer Service Management (CSM)
    顧客 Now Assist for Field Service Management (FSM)
    顧客 Now Assist for Financial Services Operations (FSO)
    顧客 Now Assist for Public Sector Digital Services (PSDS)
    従業員 Now Assist for Health and Safety インシデントの要約
    従業員 Now Assist for HR Service Delivery (HRSD)
    従業員 Now Assist for Legal Service Delivery (LSD) 法務要求の要約
    従業員 Now Assist in Contract Management
    作成者 カタログアイテム生成
    ファイナンスとサプライチェーン Now Assist for Accounts Payable Operations (APO) レコードの要約
    ファイナンスとサプライチェーン Now Assist for Supplier Lifecycle Operations (SLO) サプライヤーケースの要約
    ファイナンスとサプライチェーン Now Assist for Sourcing and Procurement Operations (SPO) レコードの要約