Defina as configurações de rastreamento para um conector de conteúdo externo do Webcrawler

  • Versão de lançamento: Australia
  • Atualizado 12 de mar. de 2026
  • 3 min. de leitura
  • Especifique as páginas e subdomínios que você deseja que o conector de conteúdo externo do Webcrawler recupere da fonte da web especificada.

    Antes de Iniciar

    R conector o administrador já deve ter criado o conector de conteúdo externo do Webcrawler para o qual você deseja definir as configurações de rastreamento. Para saber mais sobre este procedimento, consulte Criar um conector de conteúdo externo do Webcrawler.

    Função necessária: sn_ext_conn.xcc_admin

    Por Que e Quando Desempenhar Esta Tarefa

    Esta tarefa é opcional. Por padrão, o conector de conteúdo externo do Webcrawler rastreia todas as páginas e subdomínios do sistema de origem especificado. Você só precisa executar esta tarefa se quiser especificar filtros de inclusão ou exclusão para os subdomínios a serem rastreados ou páginas a serem recuperadas ao executar rastreamentos de conteúdo.

    O conteúdo só será recuperado do sistema de origem se passar por todos os filtros de configuração de rastreamento configurados. Se algum filtro de configuração de rastreamento excluir um item de conteúdo, o conector de conteúdo externo não o recuperará.

    Cada conetor do Webcrawler pode recuperar até 50 000 itens (URLs) do seu sistema de origem ao executar rastreamentos de conteúdo.
    Nota:
    Esta é uma exceção ao limite geral de rastreamento de conteúdo de dez milhões ( 10,000,000 ) itens.

    Procedimento

    1. Navegar até Tudo > Conectores de conteúdo externo > Página inicial do administrador de conteúdo externo.
    2. Na lista Conectores, selecione o registro do conector de conteúdo externo do Webcrawler cujas configurações você deseja modificar.
    3. Nos editores de conectores Configurações selecione Configurações de rastreamento .
    4. Opcional: Para carregar URLs de rastreamento de conteúdo dos sitemaps do sistema de origem, selecione Use o mapa do site opção.
      Se você selecionar esta opção, os rastreamentos de conteúdo do conector de conteúdo externo do WebCrawler recuperarão conteúdo e links de URLs encontrados nos sitemaps do sistema de origem que incluem o URL do ponto inicial especificado. O conector lê URLs correspondentes de todos os sitemaps referenciados no sistema de origem robots.txt e todos os sitemaps localizados em locais comuns de sitemaps.

      Por exemplo, suponha que você selecione Use o mapa do site e especifique https://example.com/mysite Como o URL do ponto inicial para um rastreamento de conteúdo. Quando você executa o rastreamento de conteúdo, o conector do Webcrawler recupera o conteúdo e os links dos URLs do sitemap incluídos https://example.com/mysite . Nesse caso, o conector recupera o conteúdo e os links dos URLs do sitmap https://example.com/mysite/a e. https://example.com/mysite/b Mas ignora URLs de sitemaps https://example.com/othersite/c e. https://example.com/yoursite/d Porque eles não incluem o URL do ponto inicial.

    5. Selecione uma das opções a seguir Conteúdo opções:
      • Para rastrear todas as páginas e subdomínios do sistema de origem, selecione Rastreie todo o conteúdo .
      • Para rastrear somente um conjunto especificado de páginas e subdomínios do sistema de origem, selecione Inclua somente esses URLs , em seguida, use o. Adicionar URL e. Adicionar Botão para inserir URLs Ou expressões de URL curinga para páginas e subdomínios que você deseja incluir no rastreamento.

        Por exemplo, você pode inserir https://support.apple.com/ipad para incluir somente conteúdo pesquisável da página ou subdomínio especificado. Como alternativa, você pode inserir https://support.apple.com/ipad** Para incluir cada página ou subdomínio com uma URL que corresponda à expressão curinga especificada.

      • Para rastrear todos, exceto um conjunto especificado de páginas e subdomínios do sistema de origem, selecione Exclua somente esses URLs , em seguida, use o. Adicionar URL e. Adicionar Botão para inserir URLs Ou expressões de URL curinga para páginas e subdomínios que você deseja excluir do rastreamento.

        Por exemplo, você pode inserir https://knowledgebase.paloaltonetworks.com/KCSArticleDetail para excluir conteúdo pesquisável da página ou subdomínio especificado. Como alternativa, você pode inserir https://knowledgebase.paloaltonetworks.com/KCSArticleDetail** Para excluir cada página ou subdomínio com uma URL que corresponda à expressão curinga especificada.

      Nota:
      As expressões de URL curinga podem incluir um prefixo de URL seguido pelo ** sufixo. Eles correspondem a todos os URLs que começam com o prefixo especificado.
    6. Selecione Salve e valide .

    Resultado

    O conector de conteúdo externo do Webcrawler foi atualizado com suas configurações de rastreamento modificadas.

    O que Fazer Depois

    Para recuperar conteúdo da fonte pública da web usando suas configurações de rastreamento modificadas, crie e execute um rastreamento de conteúdo único para o conector de conteúdo externo do Webcrawler. Para saber mais sobre como criar e executar rastreamentos únicos de conteúdo, consulte Crie um rastreamento de conteúdo para um conector de conteúdo externo.