GitLab外部コンテンツコネクタのクロール設定の構成

  • リリースバージョン: Zurich
  • 更新日 2025年07月30日
  • 所要時間:8分
  • GitLab外部コンテンツコネクタでクロールするグループ、プロジェクト、およびリポジトリを指定します。クロールで取得し、インデックス作成のために AI 検索 にフィードする問題、Wiki、マージ要求、タグ、ブランチ、コミットを選択します。

    始める前に

    アドミニストレーターは、クロール設定を構成する GitLab 外部コンテンツコネクタを既に作成している必要があります。この手順の詳細については、「GitLab外部コンテンツコネクタの作成」を参照してください。

    必要なロール:ais_admin

    このタスクについて

    このタスクはオプションです。既定では、 GitLab 外部コンテンツ コネクタは、代理操作するように構成されている GitLab.comユーザーが所有する最上位グループにあるすべてのサブグループ、プロジェクト、リポジトリからコンテンツをクロールし、サポートされているすべてのコンテンツ タイプ (問題、Wiki、マージ要求、タグ、ブランチ、コミット) をインデックス作成のために AI 検索 に送信します。このタスクを実行する必要があるのは、コネクタで次のデフォルト以外の設定のいずれかを使用する場合のみです。
    • コンテンツクロールを実行するときに考慮するサブグループの包含フィルターまたは除外フィルター
    • コンテンツクロールを実行するときに考慮するプロジェクト/リポジトリの包含フィルターまたは除外フィルター
    • コンテンツのクロールの実行時にソースシステムから取得するコンテンツのタイプの包含フィルターまたは除外フィルター
    • コンテンツのクロールを実行するときにソースシステムから取得する分岐の包含フィルターまたは除外フィルター
    重要:

    デフォルトでは、外部コンテンツコネクタは、ソースシステムから最大 100 万 (1,000,000) つのドキュメントのインデックスを作成できます。コネクターがこの制限を超えると、ソースシステムのクロールを続行しますが、新しいドキュメントを無視して、ドキュメントの削除と更新のみをインデックス作成のために AI 検索 に送信します。コネクタは、インデックス作成の制限を超えてクロールする 10,000 ドキュメントごとにエラーメッセージをログに記録します。

    コネクタのインデックス付きドキュメントの数が 800,000 を超えると、コネクタの UI に、インデックス作成の制限に近づいていることを示す警告メッセージが表示されます。コネクタがインデックス作成の制限に達すると、その UI にエラーメッセージが表示されます。

    コネクタの 1 つがインデックス作成の制限に達した場合は、クロール設定とファイルの包含/除外フィルターを更新して、取得するドキュメントの数を減らすことができます。または、 1,000,000 件を超えるドキュメントのインデックスを作成する必要がある場合は、 カスタマーサービス & サポート ケースを https://support.servicenow.com/now 作成して、コネクタの制限の引き上げを要求できます。

    手順

    1. 移動先 すべて > 外部コンテンツコネクタ > 外部コンテンツアドミンホーム.
    2. [コネクタ] リストで、設定を変更する GitLab 外部コンテンツコネクタのレコードを選択します。
    3. コネクタエディターの 設定] タブで、[ [クロール設定] を選択します。
    4. コンテンツクロールの実行時にクロールされるサブグループのセットを指定するには、次のいずれかの グループフィルタリング オプションを選択します。
      • コネクタの偽装された GitLab.com ユーザー アカウントが所有する最上位グループで見つかったすべてのサブグループをクロールするには、 [すべてのグループをクロールする] を選択します。
      • コネクタの偽装された GitLab.com ユーザー アカウントが所有する最上位グループで見つかった特定のサブグループのセットのみをクロールするには、 [これらのグループのみを含める] を選択し、 [ 含めるグループ URL を追加する ] フィールドと [追加 ] ボタンを使用して、クロールに含めるグループの URL を入力します。
        注:
        サブグループ包含 URL はプレフィックスとして指定でき、URL の末尾にあるワイルドカード文字 * は任意の文字列と一致します。

        たとえば、「 https://gitlab.com/example-dot-com/production 」と入力すると、 本番 サブグループとそれに含まれるすべてのサブグループの検索可能なコンテンツのみを含めることができます。

      • コネクタの偽装された GitLab.com ユーザー アカウントが所有する最上位グループで見つかった特定のグループのセットを除くすべてのグループをクロールするには、 [これらのグループのみを除外する] を選択し、 [ 除外するグループ URL を追加する ] フィールドと [追加 ] ボタンを使用して、クロールから除外するグループの URL を入力します。
        注:
        サブグループ除外 URL はプリフィックスとして指定でき、URL の末尾にワイルドカード文字 * を付けて任意の文字列に一致させます。

        たとえば、「 https://gitlab.com/example-dot-com/test-* 」と入力すると、名前が test- で始まるすべてのサブグループから検索可能なコンテンツを除外できます。

    5. コンテンツ クロールの実行時にクロールされるプロジェクトとリポジトリのセットを指定するには、次のいずれかの [プロジェクト/リポジトリ] フィルター オプションを選択します。
      • コネクタの偽装された GitLab.comユーザー アカウントが所有するすべてのプロジェクトとリポジトリをクロールするには、 [すべてのプロジェクト/リポジトリをクロールする] を選択します。
      • コネクタの偽装された GitLab.com ユーザー アカウントが所有する特定のプロジェクトとリポジトリのセットのみをクロールするには、 [これらのプロジェクト/リポジトリのみを含める] を選択し、 [ 含めるプロジェクト/リポジトリ URL を追加する ] フィールドと [追加 ] ボタンを使用して、クロールに含めるプロジェクトとリポジトリの URL を入力します。
        注:
        プロジェクトとリポジトリの包含 URL はプレフィックスとして指定でき、URL の末尾にあるワイルドカード文字 * は任意の文字列と一致します。

        たとえば、 https://gitlab.com/example-dot-com/prod-* と入力すると、名前が prod- で始まるプロジェクトの検索可能なコンテンツのみを含めることができます。

      • コネクタの偽装された GitLab.com ユーザー アカウントが所有するプロジェクトとリポジトリの指定したセットを除くすべてをクロールするには、 [これらのプロジェクト/リポジトリのみを除外する] を選択し、 [ 除外するプロジェクト/リポジトリ URL を追加する ] フィールドと [追加 ] ボタンを使用して、クロールから除外するプロジェクトとリポジトリの URL を入力します。
        注:
        プロジェクトおよびリポジトリの除外 URL はプレフィックスとして指定でき、URL の末尾にワイルドカード文字 * を付けて任意の文字列に一致させます。

        たとえば、confidential273 プロジェクトから検索可能なコンテンツを除外するには、「https://gitlab.com/example-dot-com/confidential273」と入力します。

    6. コンテンツクロールの実行時に取得するコンテンツのタイプの [ クロールコンテンツタイプ ] オプションを有効にします。
      GitLab外部コンテンツコネクタは、次のコンテンツタイプの検索可能なコンテンツのインデックス作成をサポートしています。
      コンテンツタイプ インデックス付き検索可能コンテンツ
      問題 問題の説明
      Wiki HTML に変換されたマークダウンコンテンツ (添付ファイルなし)
      結合要求 マージ要求の説明 (MarkDown) とディスカッション
      タグ タグメッセージ
      分岐 ヘッドコミットのコミットメッセージ
      コミット メッセージをコミット
      重要:
      GitLab外部コンテンツコネクタは、次のコンテンツタイプの検索可能コンテンツのインデックス作成をサポートしていません。
      • コミット、問題、Wiki ディスカッション
      • 差分をコミット
      • アーカイブされたグループまたはプロジェクトのコンテンツ
      • 削除保留ステータスのグループまたはプロジェクトのコンテンツ
      • 代理操作された GitLab.comユーザーが所有していないトップレベルグループのサブグループからのコンテンツ
      • 問題または結合要求に添付されたファイルのコンテンツ
      • プレーンテキスト以外の形式の Wiki 添付ファイルのコンテンツ (.txt)
      • 結合要求ディスカッションの内部または機密メモ
      • リポジトリファイル
    7. ステップ 6 に [分岐] コンテンツタイプを含めた場合は、[ 正規表現形式で含める分岐を追加 ] フィールドと [追加 ] ボタンを使用して、コンテンツクロールに含める分岐の名前に一致する Java 正規表現パターンを指定します。
      たとえば、名前が 2025 で始まる分岐を含めるには ^2025.*$ を指定し、すべての分岐をクロールするには ^.*$ を指定できます。Java 正規表現パターンの構文については、「java.regex.util.Pattern クラスの Javadoc」を参照してください。
      注:
      分岐名の式 ^main$^master$ はデフォルトで含まれています。これらの分岐はリストから削除できません。

    タスクの結果

    GitLab外部コンテンツコネクタは、変更したクロール設定で更新されます。

    次のタスク

    変更したクロール設定を使用して GitLab ソースシステムからコンテンツを取得するには、 GitLab 外部コンテンツコネクタの 1 回限りのコンテンツクロールを作成して実行します。1 回限りのコンテンツクロールの作成と実行については、「 外部コンテンツコネクタのコンテンツクロールの作成」を参照してください。