Defina as configurações de rastreamento para um conector de conteúdo externo do Webcrawler
Especifique as páginas e subdomínios que você deseja que o Conector de conteúdo externo do Webcrawler recupere da fonte da Web especificada.
Antes de Iniciar
Um administrador já deve ter criado o Conector de conteúdo externo do Webcrawler para o qual você deseja definir as configurações de rastreamento. Para saber mais sobre este procedimento, consulte Criar um conector de conteúdo externo do Webcrawler.
Função necessária: ais_admin
Por Que e Quando Desempenhar Esta Tarefa
Esta tarefa é opcional. Por padrão, o conector de conteúdo externo do Webcrawler rastreia todas as páginas e subdomínios do sistema de origem especificado. Você só precisa executar esta tarefa se quiser especificar filtros de inclusão ou exclusão para os subdomínios a serem rastreados ou páginas a serem recuperadas ao executar rastreamentos de conteúdo.
Por padrão, um conector de conteúdo externo pode indexar até um milhão ( 1,000,000 ) de seu sistema de origem. Quando um conector excede esse limite, ele continua a rastrear o sistema de origem, mas envia somente exclusões e atualizações de documentos para Pesquisa com IA para indexação, ignorando novos documentos. O conector registra em log uma mensagem de erro para cada 10 000 documentos rastreados além do limite de indexação.
Quando a contagem de documentos indexados de um conector excede 800 000 , Uma mensagem de aviso aparece na IU do conector para indicar que ele está se aproximando do limite de indexação. Se o conector atingir o limite de indexação, uma mensagem de erro será exibida em sua IU.
Se um dos seus conectores atingir o limite de indexação, você poderá atualizar as configurações de rastreamento e os filtros de inclusão/exclusão de arquivo para reduzir o número de documentos recuperados. Como alternativa, se você precisar indexar mais de 1,000,000 , você pode criar um Suporte e atendimento ao cliente caso em https://support.servicenow.com/nowpara solicitar um aumento de limite para o conector.
Procedimento
- Na lista Conectores, selecione o registro do Conector de conteúdo externo do Webcrawler cujas configurações você deseja modificar.
- No editor do conector Configurações , selecione Configurações de rastreamento .
-
Na página Configurações de conexão, especifique a fonte da Web que você deseja rastrear:
- Para rastrear páginas e subdomínios de uma fonte da Web predefinida, selecione Fonte da web predefinida e selecione uma fonte da web na lista fornecida.
- Para rastrear páginas e subdomínios de uma fonte da Web que não é mostrada na lista, selecione Origem da web personalizada .
- Selecione Avançar.
-
Para especificar o conjunto de páginas e subdomínios rastreados quando você executa rastreamentos de conteúdo, selecione uma das opções a seguir Filtragem de conteúdo opções:
- Para rastrear todas as páginas e subdomínios do sistema de origem, selecione Rastrear todo o conteúdo .
-
Para rastrear somente um conjunto especificado de páginas e subdomínios do sistema de origem, selecione Inclua somente esses URLs , em seguida, use Adicionar URL e. Adicionar Botão para inserir URLs para páginas e subdomínios que você deseja incluir no rastreamento.
Por exemplo, você pode inserir https://support.apple.com/ipad para incluir somente conteúdo pesquisável do subdomínio especificado.
-
Para rastrear todos, exceto um conjunto especificado de páginas e subdomínios do sistema de origem, selecione Exclua somente esses URLs , em seguida, use Adicionar URL e. Adicionar Botão para inserir URLs para páginas e subdomínios que você deseja excluir do rastreamento.
Por exemplo, você pode inserir https://knowledgebase.paloaltonetworks.com/KCSArticleDetail para excluir conteúdo pesquisável do subdomínio especificado.
Resultado
O Conector de conteúdo externo do Webcrawler é atualizado com suas configurações de rastreamento modificadas.
O que Fazer Depois
Para recuperar conteúdo da fonte da Web pública usando suas configurações de rastreamento modificadas, crie e execute um rastreamento de conteúdo único para o Conector de conteúdo externo do Webcrawler. Para saber mais sobre como criar e executar rastreamentos únicos de conteúdo, consulte Crie um rastreamento de conteúdo para um conector de conteúdo externo.