生成 AI の不快感保護を有効にする

リリースバージョン: Australia

更新日 2025年07月31日

所要時間：3分

不快感検出をアクティブ化して、 Now Assist スキルとワークフローによって生成された不快なコンテンツをログに記録またはブロックします。

始める前に

必要なロール:sn_generative_ai.nsa_admin

このタスクについて

生成 AI の出力は確率的であり、同じ入力でも異なる出力が生成される可能性があります。AI で生成されたコンテンツの一部は、有害な言葉、性差別的な言葉、その他の有害な言葉など、不快なものである可能性があります。 Now Assist ガーディアンは、入力と出力の両方で不快なコンテンツを検出し、検出された場合はイベントをログに記録します。また、不快な内容をブロックして、生成された応答の代わりに標準のエラーメッセージをユーザーに表示するように構成することもできます。

注:

攻撃性検出は、特定の Now Assist スキルとワークフローにのみ適用されます。すべての Now Assist アプリケーションで使用できるわけではありません。攻撃性検出をサポートするスキルのリストの詳細については、「 Now Assist Guardian」を参照してください。

レビュー用にログをエクスポートできます。詳細については、「 Now Assist Guardian ログのエクスポート」を参照してください。

手順

移動先すべて > Now Assist アドミン > 設定.
サイドパネルで、 Now Assist Guardian > 攻撃性確認してください。
[ 利用可能 ] タブに移動して、選択できるワークフローを確認します。

既にアクティブになっている不快感ガードレールが [ アクティブ ] タブに表示されます。
攻撃性検出を有効にするワークフローで [アクティブ化] を選択します。
[ 不快なコンテンツが検出された場合のアクションを選択 (Choose an action when offensive content is detected)] セクションで、次のいずれかのオプションを選択します。
- 不快なコンテンツが検出されたときに、コンテンツをユーザーに表示したままイベントを記録するには、[ 出力をログに記録 (Log the output)] を選択します。不快なコンテンツは引き続きユーザーに表示されます。
- イベントを記録し、コンテンツがユーザーに表示されないようにするには、[ 応答をブロックして出力をログに記録する] を選択します。代わりに、標準のエラーメッセージがユーザーに表示されます。
[ 攻撃性をチェックするコンテンツの重大度レベルを選択 (Select content severity level to check for offensiveness )] セクションで、次のいずれかのオプションを選択します。
- 不快なコンテンツのほんの少しでもフラグを立てるには、[ 低] を選択します。
- クリアまたは中程度の不快なコンテンツにフラグを設定するには、[ 中] を選択します。
- 非常に不快なコンテンツのみにフラグを設定するには、[ 高] を選択します。
[保存してアクティブ化] を選択します。
[保存] を選択します。

タスクの結果

選択したワークフローのインスタンスで不快感検出ガードレールが有効になっています。不快なコンテンツが検出または生成されると、イベントがログに記録されます。

次のタスク

サポートされている Now Assist アプリケーションとワークフローごとに個別に不快感検出を有効にすることができます。攻撃性保護を有効にするワークフローごとにこのタスクを繰り返します。

アクティブなワークフローの検出の影響を変更するには、その他のオプション ( を選択しますアイコンアクティブなワークフローのリストで、[ 編集] を選択します。

ワークフローの攻撃性保護を非アクティブ化するには、アクティブなワークフローのリストでその他のオプション ( ) アイコンを選択し、[ 非アクティブ化] を選択します。