Web クローラー外部コンテンツコネクタのクロール設定の構成

  • リリースバージョン: Zurich
  • 更新日 2025年07月30日
  • 所要時間:3分
  • WebCrawler 外部コンテンツコネクタが指定した Web ソースから取得するページとサブドメインを指定します。

    始める前に

    アドミニストレーターは、クロール設定を構成する Webcrawler 外部コンテンツコネクタを既に作成している必要があります。この手順の詳細については、「Webcrawler 外部コンテンツコネクタを作成」を参照してください。

    必要なロール:ais_admin

    このタスクについて

    このタスクはオプションです。デフォルトでは、Webcrawler 外部コンテンツコネクタは、指定されたソースシステムからすべてのページとサブドメインをクロールします。このタスクを実行する必要があるのは、コンテンツのクロールの実行時にクロールするサブドメインまたは取得するページの包含フィルターまたは除外フィルターを指定する場合のみです。

    重要:

    デフォルトでは、外部コンテンツコネクタは、ソースシステムから最大 100 万 (1,000,000) つのドキュメントのインデックスを作成できます。コネクターがこの制限を超えると、ソースシステムのクロールを続行しますが、新しいドキュメントを無視して、ドキュメントの削除と更新のみをインデックス作成のために AI 検索 に送信します。コネクタは、インデックス作成の制限を超えてクロールする 10,000 ドキュメントごとにエラーメッセージをログに記録します。

    コネクタのインデックス付きドキュメントの数が 800,000 を超えると、コネクタの UI に、インデックス作成の制限に近づいていることを示す警告メッセージが表示されます。コネクタがインデックス作成の制限に達すると、その UI にエラーメッセージが表示されます。

    コネクタの 1 つがインデックス作成の制限に達した場合は、クロール設定とファイルの包含/除外フィルターを更新して、取得するドキュメントの数を減らすことができます。または、 1,000,000 件を超えるドキュメントのインデックスを作成する必要がある場合は、 カスタマーサービス & サポート ケースを https://support.servicenow.com/now 作成して、コネクタの制限の引き上げを要求できます。

    手順

    1. 移動先 すべて > 外部コンテンツコネクタ > 外部コンテンツアドミンホーム.
    2. [コネクタ] リストで、設定を変更する Webcrawler 外部コンテンツコネクタのレコードを選択します。
    3. コネクタエディターの 設定] タブで、[ [クロール設定] を選択します。
    4. [接続設定] ページで、クロールする Web ソースを指定します。
      • 事前定義された Web ソースからページとサブドメインをクロールするには、[ 事前定義された Web ソース ] を選択し、表示されるリストから Web ソースを選択します。
      • リストに表示されていないウェブソースからページとサブドメインをクロールするには、[ カスタム ウェブソース] を選択します。
    5. [Next (次へ)] をクリックします。
    6. コンテンツクロールの実行時にクロールされるページとサブドメインのセットを指定するには、次のいずれかの コンテンツフィルタリング オプションを選択します。
      • ソース システムからすべてのページとサブドメインをクロールするには、[ すべてのコンテンツをクロール] を選択します。
      • ソース システムから指定した一連のページとサブドメインのみをクロールするには、[ これらの URL のみを含める] を選択し、[ URL の追加 ] フィールドと [追加 ] ボタンを使用して、クロールに含めるページとサブドメインの URL を入力します。

        たとえば、指定したサブドメインの検索可能なコンテンツのみを含めるには、「 https://support.apple.com/ipad 」と入力します。

      • ソース システムから指定したページとサブドメインのセットを除くすべてをクロールするには、[ これらの URL のみを除外する] を選択し、[ URL の追加 ] フィールドと [追加 ] ボタンを使用して、クロールから除外するページとサブドメインの URL を入力します。

        たとえば、指定したサブドメインから検索可能なコンテンツを除外するには、「 https://knowledgebase.paloaltonetworks.com/KCSArticleDetail 」と入力します。

    タスクの結果

    Webcrawler 外部コンテンツコネクタが、変更したクロール設定で更新されます。

    次のタスク

    変更したクロール設定を使用してパブリック Web ソースからコンテンツを取得するには、Webcrawler 外部コンテンツコネクタの 1 回限りのコンテンツクロールを作成して実行します。1 回限りのコンテンツクロールの作成と実行については、「 外部コンテンツコネクタのコンテンツクロールの作成」を参照してください。