Amazon S3外部コンテンツコネクタのクロール設定の構成
包含フィルターと除外フィルターを定義して、コンテンツのクロールの実行時に外部コンテンツコネクタが取得するバケットとファイルタイプを指定します Amazon S3 。
始める前に
アドミニストレーターは、クロール設定を構成する Amazon S3 外部コンテンツコネクタを既に作成している必要があります。この手順の詳細については、「Amazon S3外部コンテンツコネクタの作成」を参照してください。
必要なロール:ais_admin
このタスクについて
- コンテンツのクロールを実行するときに考慮するバケットの包含フィルターまたは除外フィルター
- コンテンツのクロールの実行時に取得するファイル拡張子の包含フィルターまたは除外フィルター
デフォルトでは、外部コンテンツコネクタは、ソースシステムから最大 100 万 (1,000,000) つのドキュメントのインデックスを作成できます。コネクターがこの制限を超えると、ソースシステムのクロールを続行しますが、新しいドキュメントを無視して、ドキュメントの削除と更新のみをインデックス作成のために AI 検索 に送信します。コネクタは、インデックス作成の制限を超えてクロールする 10,000 ドキュメントごとにエラーメッセージをログに記録します。
コネクタのインデックス付きドキュメントの数が 800,000 を超えると、コネクタの UI に、インデックス作成の制限に近づいていることを示す警告メッセージが表示されます。コネクタがインデックス作成の制限に達すると、その UI にエラーメッセージが表示されます。
コネクタの 1 つがインデックス作成の制限に達した場合は、クロール設定とファイルの包含/除外フィルターを更新して、取得するドキュメントの数を減らすことができます。または、 1,000,000 件を超えるドキュメントのインデックスを作成する必要がある場合は、 カスタマーサービス & サポート ケースを https://support.servicenow.com/now 作成して、コネクタの制限の引き上げを要求できます。
手順
- [コネクタ] リストで、設定を変更する Amazon S3 外部コンテンツコネクタのレコードを選択します。
- コネクタエディターの 設定] タブで、[ [クロール設定] を選択します。
-
コンテンツクロールの実行時にクロールされるバケットのセットを指定するには、次のいずれかの コンテンツフィルタリング オプションを選択します。
- ソースシステムからすべてのバケットをクロールするには、[ すべてのコンテンツをクロール] を選択します。
-
ソースシステムから指定したバケットのセットのみをクロールするには、[ これらのバケットのみを含める] を選択し、[ 含める S3 バケット URL を追加 ] フィールドと [追加 ] ボタンを使用して、クロール時に含めるバケットの URL を入力します。
たとえば、「 https://s3.amazonaws.com/published 」と入力すると、 名前が公開済みのバケットから検索可能なコンテンツのみを含めることができます。
-
ソースシステムから指定したバケットのセットを除くすべてのバケットをクロールするには、[ これらのユーザーボックスのみを除外する] を選択し、[ 除外する S3 バケット URL を追加 ] フィールドと [追加 ] ボタンを使用して、クロール時にコネクタが除外するバケットの URL を入力します。
たとえば、「 https://s3.amazonaws.com/legacy_bucket 」と入力して、 legacy_bucket という名前のバケットから検索可能なコンテンツを除外できます。
タスクの結果
Amazon S3外部コンテンツコネクタは、変更したクロール設定で更新されます。
次のタスク
変更したクロール設定を使用して Amazon S3 ソースシステムからコンテンツを取得するには、 Amazon S3 外部コンテンツコネクタの 1 回限りのコンテンツクロールを作成して実行します。1 回限りのコンテンツクロールの作成と実行については、「 外部コンテンツコネクタのコンテンツクロールの作成」を参照してください。