Now Assist ガーディアン
Now Assist ガーディアン は ServiceNow Small Language Model (SLM) に基づいて構築されており、生成 AI のインタラクションを監視して、不快なコンテンツ、プロンプトインジェクション攻撃、および機密トピックを検出します。
Now Assist ガーディアン の概要
生成AIは新しいテクノロジーです。人間の相互作用は予測不可能であり、大規模言語モデル (LLM) によって生成される出力は確率的であり、確率に基づいています。同じ入力を 2 回実行すると、2 つの異なる出力が生成される場合があります。このリスクを管理することは、インスタンスに生成 AI を実装する際の重要な考慮事項です。 Now Assist ガーディアン は、LLM に送信された要求とその応答をリアルタイムで評価して、そのリスクを軽減します。
ガードレール
| ガードレール | 検出内容 | スコープ |
|---|---|---|
| 攻撃性検出 | AI 入力および出力内の不快または有害なコンテンツ。 | 特定の Now Assist スキルとワークフロー。 |
| プロンプトインジェクション検出 | LLM の指示を上書きしたり、制限された情報を公開したりしようとします。 | すべての生成 AI アプリケーションと機能。 |
| 機密トピックフィルター | 職場の安全性や従業員の報酬など、AI 応答に適さない件名。 | 仮想エージェント 会話スキルのみ ( HR サービスデリバリ (HRSD) と カスタマーサービス管理 (CSM) で利用可能)。 |
- 不快なコンテンツ
- 生成 AI の確率的な性質により、LLM が不快なコンテンツを生成する可能性があります。要求の入力に不快なコンテンツが含まれている場合、応答にも不快なコンテンツが発生する可能性があります。不快なコンテンツの例としては、有害な言葉、中傷的な言葉、詐欺的な言葉などがあります。
不快なコンテンツが検出されると、 Now Assist ガーディアン はイベントをログに記録します。コンテンツをブロックするように構成することもできます。このガードレールは、特定の Now Assist スキルとワークフローに適用されます。
- プロンプトインジェクション
- プロンプトインジェクションは、誰かが LLM の通常の指示を無効にして制限された情報にアクセスしたり、意図しない動作を引き起こしたりしようとするセキュリティ攻撃の一種です。Now Assist ガーディアン は、ロールプレイング、言い換え、繰り返し、他の指示を無視する指示、説得など、さまざまなタイプのプロンプトインジェクションテクニックトレーニングされた LLM を使用して、プロンプトインジェクションの試行を検出します。 注:プロンプトインジェクション保護は、インスタンス上のすべての生成 AI アプリケーションと機能に適用されます。特定のスキルやワークフローに限定されません。モデルの確率的性質と進化する攻撃手法により、 Now Assist ガーディアン はすべてのプロンプトインジェクション試行を識別できない場合があります。
- フィルタリングされた件名
- 職場の安全、従業員の報酬、個人の幸福など、特定のテーマは生成 AI の応答に最適ではない場合があります。仮想エージェント会話でこの種の件名を検出するフィルターをアクティブ化し、AI 応答を生成する代わりにユーザーを機密性検出:仮想エージェントフォールバックトピックにリダイレクトできます。注:機密トピックフィルターは、 仮想エージェント 会話スキルにのみ適用されます。これらのフィルターは、 HR サービスデリバリ (HRSD) と カスタマーサービス管理 (CSM) でのみ使用できます。
ログ記録とブロック
Now Assist ガーディアン 検出されたイベントの攻撃性とプロンプトインジェクションをログに記録します。次の場所からログにアクセスできます . ログデータには、要求に関する情報、不快なコンテンツを含む会話、およびユーザーフィードバックが含まれます。
ログ記録に加えて、不快なコンテンツをブロックしたり、インジェクションの試行を促したりするように Now Assist ガーディアン を構成できます。ブロックが有効になっていてコンテンツが検出されると、生成された応答の代わりに標準のエラーメッセージが表示されます。標準のエラーメッセージには、要求を完了できなかったことが表示され、AI が生成した内容が表示されません。ブロックを有効にする前に、一定期間ログを確認して、環境内でこれらの問題が発生する頻度を把握してください。
機密性がフィルタリングされたトピックのリダイレクト
フィルターが機密トピックを検出すると、 Now Assist ガーディアン は 仮想エージェント の機密性検出:フォールバックトピックにリダイレクトします。このトピックは、ライブエージェントにリダイレクトしたり、 HR ケースの作成に役立ちます。
Now Assist ガーディアン 実行時
要求が LLM に到達する前に個人識別可能情報 (PII) を Now Assist ガーディアン 削除するすべてのスキル。匿名化するデータのタイプを設定できます。詳細については、「 データプライバシー向け Now Assist の構成」を参照してください。
会話スキルの場合、セマンティック検索はフィルターが検出されたかどうかを判断する要求を処理します。その場合、ユーザーはHRケースを作成するかライブエージェントと話すかを尋ねる仮想エージェントトピックにリダイレクトされます。
要約や解決メモの生成などのカタログアイテムの生成とエージェントスキルでは、攻撃性とプロンプトインジェクションのガードレールが要求の入力と出力に対して実行されます。いずれかが検出されると、 Now Assist ガーディアン 要求がログに記録されます。このコンテンツをブロックすることを選択した場合は、標準のエラーメッセージが表示され、ユーザーには要求の結果が表示されません。
Now Assist ガーディアンログにキャプチャされる安全cカテゴリ
|
カテゴリ |
カテゴリ ID |
説明 |
|---|---|---|
|
有害コンテンツ |
O1 |
禁止事項:ヘイトスピーチを助長したり、児童虐待やいじめなどの暴力を扇動したり、個人攻撃や嫌がらせを行ったりすること。 可能: 教育目的で有害なコンテンツに関連する影響と社会的問題について話し合います。 |
|
不公平な表現 |
O2 |
すべきではない:固定観念を永続させたり、差別や偏見を助長したりすること。 可能なこと: 代表性の問題について話し合い、意識と包括性を促進します。 |
|
アダルトコンテンツ |
O3 |
禁止事項: ポルノ、エロティックなチャット、性行為など、未成年者にとって露骨な性的コンテンツやコンテンツを表示すること。 可能: セクシュアリティと同意に関連するトピックについて教育的なディスカッションを提供します。 |
|
公開情報への信頼の毀損 |
O4 |
すべきではない:誤解を招く医学的アドバイス、違法薬物、アドバイスなど、社会の信頼を損なう誤った情報や偽情報を広めること。 できること: 誤った情報の傾向を批判的に分析し、メディア リテラシーについて教育します。 |
|
誤解や誤った信念を広める |
O5 |
してはいけない:未検証の誤解を招く情報、陰謀論、科学否定論、歴史修正主義、または過激化につながる可能性のあるコンテンツを広めること。 できること: 批判的な分析を提供し、一般的な誤解や誤った信念の誤りを暴きます。 |
|
リスクの高い金融慣行 |
O6 |
すべきではない:マルチレベルマーケティング、欺瞞的な融資慣行、ギャンブルなどの非倫理的な取引慣行を助長すること。 可能: 関連するリスク、倫理的な融資、責任あるギャンブル、貿易コンプライアンス、公正なビジネス慣行について教育します。 |
|
貿易とコンプライアンス |
O7 |
労働問題に関与したり、非倫理的な取引行為に関与したり、不当な労働慣行に加担したり、不正な取引慣行を助長したりしてはいけないこと。 可能: 労働問題、倫理的な取引慣行、貿易コンプライアンス、公正なビジネス行動に関する情報と洞察を提供します。 |
|
危険情報の流布 |
O8 |
偽のニュースを広めたり、ソーシャルメディアで噂を広めたり、政府機密を開示したり、財務データや、国民のパニックや国家安全保障を助長するその他のコンテンツを漏洩したりしてはなりません。 可能なこと: そのような情報の危険性について教育し、安全性を促進します。 |
|
プライバシー侵害 |
O9 |
すべきではない:ドキシング、不正なデータ共有、または個人情報の推測や漏洩などの監視が含まれます。 可能: プライバシー権とデジタルセキュリティの重要性について話し合います。 |
|
セキュリティの脅威 |
O10 |
禁止事項:マルウェアを拡散したり、テロや、兵器の生成、サイバー攻撃、化学物質による危害などのその他のセキュリティ上の脅威を助長したりすること。 可能な操作:セキュリティ脅威を特定して軽減するための情報と方法を提供します。 |
|
中傷 |
O11 |
すべきではない:個人、グループ、または組織に損害を与える虚偽の記述を公開します。 可能: 名誉毀損と言論の自由の法的および倫理的側面を探ります。 |
|
詐欺または欺瞞行為 |
O12 |
してはいけない:学術的不正に関与したり、詐欺を犯したり、疑似医薬品を宣伝したり、偽のオンラインコンテンツを広めたりすること。コンテンツは個人を欺いたり詐欺したりしてはなりません。 可能: 不正行為の認識と防止について教育します。 |
|
影響操作 |
O13 |
してはいけないこと:監視やキャンペーンなどの政治的またはイデオロギー的な目的で世論を操作したり、社会の調和を乱したりすること。 可能:影響力操作の性質と影響について分析し、教育します。 |
|
違法行為 |
O14 |
すべきではない:犯罪やテロなどの違法行為に関与することを促進または提供します。 できること: 違法行為の結果と防止について教育します。 |
|
説得と操作 |
O15 |
すべきではない:自傷行為、心理的操作、または個人の幸福に対するあらゆる形態の危害を促進する説得または操作技術を含む。 可能なこと: 操作の認識と抵抗について教育し、影響を受ける人々にサポートとリソースを提供します。 |
|
個人財産の侵害 |
O16 |
個人の個人財産violating、悪意のある模倣、盗作、著作権侵害または 身元偽造に関与してはなりません。 できること: 個人財産の尊重とそのような侵害の防止に関する意識と議論を促進します。 |
不快な検出をサポートするスキル
| ワークフロー | アプリケーション | サポートされているスキル |
|---|---|---|
| テクノロジー | Now Assist for Configuration Management Database (CMDB) | |
| テクノロジー | Now Assist for ITOM | |
| テクノロジー | Now Assist for IT Service Management (ITSM) | |
| テクノロジー | Now Assist for Security Incident Response | |
| テクノロジー | Now Assist for Strategic Portfolio Management (SPM) | |
| 顧客 | Now Assist for Customer Service Management (CSM) | |
| 顧客 | Now Assist for Field Service Management (FSM) | |
| 顧客 | Now Assist for Financial Services Operations (FSO) | |
| 顧客 | Now Assist for Public Sector Digital Services (PSDS) | |
| 従業員 | Now Assist for Health and Safety | インシデントの要約 |
| 従業員 | Now Assist for HR Service Delivery (HRSD) | |
| 従業員 | Now Assist for Legal Service Delivery (LSD) | 法務要求の要約 |
| 従業員 | Now Assist in Contract Management | |
| 作成者 | カタログアイテム生成 | |
| ファイナンスとサプライチェーン | Now Assist for Accounts Payable Operations (APO) | レコードの要約 |
| ファイナンスとサプライチェーン | Now Assist for Supplier Lifecycle Operations (SLO) | サプライヤーケースの要約 |
| ファイナンスとサプライチェーン | Now Assist for Sourcing and Procurement Operations (SPO) | レコードの要約 |