Configurer les paramètres d’analyse pour un connecteur de contenu externe Webcrawler
Spécifiez les pages et les sous-domaines que vous souhaitez que votre connecteur de contenu externe Webcrawler récupère à partir de la source Web spécifiée.
Avant de commencer
Un administrateur doit déjà avoir créé le connecteur de contenu externe Webcrawler pour lequel vous souhaitez configurer les paramètres d’analyse. Pour en savoir plus sur cette procédure, reportez-vous à la section Créer un connecteur de contenu externe Webcrawler.
Rôle requis : ais_admin
Pourquoi et quand exécuter cette tâche
Cette tâche est facultative. Par défaut, le connecteur de contenu externe Webcrawler explore toutes les pages et tous les sous-domaines à partir de son système source spécifié. Vous ne devez effectuer cette tâche que si vous souhaitez spécifier des filtres d’inclusion ou d’exclusion pour les sous-domaines à analyser ou les pages à récupérer lors de l’exécution d’analyses de contenu.
Par défaut, un connecteur de contenu externe peut indexer jusqu’aux un million (1 000 000) documents de son système source. Lorsqu’un connecteur dépasse cette limite, il continue d’analyser le système source, mais envoie uniquement des suppressions et des mises à jour de documents à des fins d’indexation Recherche IA , ignorant les nouveaux documents. Le connecteur enregistre un message d’erreur pour chaque tranche de 10 000 documents qu’il analyse au-delà de la limite d’indexation.
Lorsque le nombre de documents indexés d’un connecteur dépasse 800 000, un message d’avertissement s’affiche dans l’interface utilisateur du connecteur pour indiquer qu’il approche de la limite d’indexation. Si le connecteur atteint la limite d’indexation, un message d’erreur s’affiche dans son interface utilisateur.
Si l’un de vos connecteurs atteint la limite d’indexation, vous pouvez mettre à jour ses paramètres d’analyse et ses filtres d’inclusion/exclusion de fichiers pour réduire le nombre de documents qu’il récupère. Sinon, si vous devez indexer plus que 1 000 000 des documents, vous pouvez créer un Service client et assistance ticket à https://support.servicenow.com/now pour demander une augmentation de limite pour le connecteur.
Procédure
- Dans la liste Connecteurs, sélectionnez l’enregistrement du connecteur de contenu externe Webcrawler dont vous souhaitez modifier les paramètres.
- Dans l’onglet Paramètres de de l’éditeur de connecteur, sélectionnez Paramètres d’analyse.
-
Sur la page Paramètres de connexion, spécifiez la source Web que vous souhaitez analyser :
- Pour explorer les pages et les sous-domaines à partir d’une source Web prédéfinie, sélectionnez Source Web prédéfinie , puis sélectionnez une source Web dans la liste fournie.
- Pour explorer les pages et les sous-domaines à partir d’une source Web qui n’est pas affichée dans la liste, sélectionnez Source Web personnalisée.
- Sélectionnez Suivant.
-
Pour spécifier l’ensemble de pages et de sous-domaines analysés lorsque vous exécutez des analyses de contenu, sélectionnez l’une des options de filtrage de contenu suivantes :
- Pour explorer toutes les pages et tous les sous-domaines à partir du système source, sélectionnez Explorer tout le contenu.
-
Pour explorer uniquement un ensemble spécifié de pages et de sous-domaines à partir du système source, sélectionnez Inclure uniquement ces URL, puis utilisez le champ Ajouter une URL et le bouton Ajouter pour saisir les URL des pages et des sous-domaines que vous souhaitez inclure dans l’analyse.
Par exemple, vous pouvez saisir des https://support.apple.com/ipad pour inclure uniquement le contenu pouvant faire l’objet de recherches à partir du sous-domaine spécifié.
-
Pour analyser toutes les pages et sous-domaines du système source, à l’exception d’un ensemble spécifié, sélectionnez Exclure uniquement ces URL, puis utilisez le champ Ajouter une URL et le bouton Ajouter pour saisir les URL des pages et sous-domaines que vous souhaitez exclure de l’analyse.
Par exemple, vous pouvez saisir des https://knowledgebase.paloaltonetworks.com/KCSArticleDetail pour exclure le contenu pouvant faire l’objet d’une recherche dans le sous-domaine spécifié.
Résultats
Le connecteur de contenu externe Webcrawler est mis à jour avec vos paramètres d’analyse modifiés.
Que faire ensuite
Pour récupérer du contenu à partir de la source Web publique à l’aide de vos paramètres d’analyse modifiés, créez et exécutez une analyse de contenu unique pour votre connecteur de contenu externe Webcrawler. Pour en savoir plus sur la création et l’exécution d’analyses de contenu ponctuelles, reportez-vous à la section Créer une analyse de contenu pour un connecteur de contenu externe.