Créer un collecteur de métadonnées Databricks

Rversion finale: Australia

Mis à jour 12 mars 2026

5 minutes de lecture

Créez un collecteur pour importer des métadonnées à partir de Databricks.

Avant de commencer

Avant de commencer, vérifiez les points suivants :

Un serveur MID est configuré pour les modules de collection. Pour plus d'informations, consultez Serveur MID pour les collecteurs de métadonnées.
Toutes les tâches requises sont terminées. Pour plus d'informations, consultez Préparer l’exécution du collecteur Databricks.
Rôle requis : connection-admin

Procédure

Accédez à la Tous > Structure de données de workflow > Accueil Workflow Data Fabric.
Sélectionnez l’icône du dans la barre latérale gauche.
Sélectionner Créer > Collecteur de métadonnées.
Dans la liste Système, sélectionnez Databricks.

Remplissez les champs du formulaire.

Tableau 1. Nouveau formulaire du collecteur de métadonnées Databricks
Champ	Description
Nom de la connexion	Identificateur unique pour la connexion. Ce champ n’est pas modifiable une fois la connexion établie.
Description brève	Objet et détails de la connexion.

Saisissez les détails de configuration de Databricks.

Tableau 2. Détails de la configuration
Champ	Description
Serveur	Nom d’hôte du serveur de base de données auquel se connecter.

Choisissez entre Collecter tous les schémas et Spécifier le schéma à collecter pour configurer les options de collecte de schémas.

Tableau 3. Options de collecte de schémas
Champ	Description
Collecter tous les schémas
Collecter tous les schémas	Cataloguer tous les schémas auxquels l’utilisateur a accès.
Exclure le schéma	Nom ou expression régulière du schéma de base de données à exclure.
Inclure le schéma d’informations	Inclure le schéma d’informations de la base de données dans la collection de catalogue.
Spécifier le schéma à collecter
Spécifier le schéma à collecter	Cataloguez uniquement les schémas spécifiés.
Schéma	Nom du schéma de base de données à cataloguer.

Saisissez les détails de configuration de Databricks.

Tableau 4. Détails de la configuration
Champ	Description
Port de serveur	Port du serveur de base de données (s’il ne s’agit pas du port par défaut).
Base de données	Nom de la base de données à laquelle se connecter. Spécifiez plusieurs bases de données en ajoutant une valeur par ligne.
Chemin d’accès HTTP Databricks	URL des ressources de calcul Databricks. Consultez la documentation Databricks pour plus d’informations .
Base de données exclue	Nom ou expression régulière des bases de données à exclure lorsque le champ Base de données est vide. Remarque : Ce paramètre est ignoré si le champ Base de données est spécifié.

Configurez les détails du serveur et les options d’authentification.

Tableau 5. Détails du serveur et de l’authentification
Champ	Description
Détails du serveur
	Nom d’hôte du serveur de base de données auquel se connecter.
Options d'authentification
Authentifier à l’aide d’un jeton d’accès personnel	Option d’authentification à l’aide du jeton d’accès personnel Databricks. Pour plus d’informations, consultez la documentation Databricks.
Authentifier à l’aide de Databricks Principal du service	Option d’authentification à l’aide de l’ID de client principal du service Databricks et du secret client principal du service Databricks.

Configurez les statistiques et les options d’échantillonnage.

Tableau 6. Statistiques et options d’échantillonnage
Champ	Description
Activer la collecte des statistiques de colonne	Activez la collecte des statistiques de colonne (profilage des données). Remarque : L’activation du profilage peut augmenter le temps d’exécution du collecteur, car celui-ci doit lire les données de table pour générer des métadonnées de profilage.
Taille d’échantillon cible pour les statistiques de colonne	Nombre de lignes échantillonnées pour le calcul des statistiques de colonne et des histogrammes chaîne-valeur. Par exemple, pour échantillonner 1 000 lignes, définissez le paramètre sur 1 000. Par défaut : 100 000
Désactiver la collecte de traçabilité	Ignorer la collecte des métadonnées de traçabilité intrabase de données.
Désactiver la collecte de métadonnées étendue	Ignorer la collecte des métadonnées étendues pour les types d’actifs de données tels que la base de données, le schéma, la table, les fonctions de colonnes, les procédures stockées, les types définis par l’utilisateur et les synonymes. Les métadonnées de base pour ces types d’actifs de données seront toujours collectées.

Configurez les options de périmètre et de limites de collecte.

Tableau 7. Options relatives au champ d’application et aux limites de la collecte
Champ	Description
Désactiver les workflows de collecte	Ignorer la collecte des workflows Databricks et de leurs métadonnées de traçabilité.
Extraire la lignée à partir d’autres schémas	Récolter la lignée à partir d’autres schémas.
Activer la collection d’exemples de valeurs de chaîne	Activez l’échantillonnage et le stockage d’exemples de valeurs pour les colonnes de type chaîne.
Exclure les fonctions système	Excluez la collecte des fonctions système Databricks intégrées.
Désactiver la collecte du contenu du bloc-notes	Ignorer la collecte du contenu du bloc-notes.
Taille de page pour les requêtes de collecte	Spécifiez la taille de page pour les requêtes de collecte. Valeur par défaut : 1 000
Taille de page des réponses d’API Databricks	Spécifiez la taille de page pour la réponse API Databricks. Par défaut : 100
Activer la collecte des vues de mesures	Activer la collecte des vues de mesures. Les informations de vue de mesures sont extraites des métadonnées étendues d’une table et ne sont disponibles que lorsque la collecte de métadonnées étendues est activée.

Configurez les options de connexion et de fiabilité.

Tableau 8. Options de connexion et de fiabilité
Champ	Description
Environnement de serveur	Nom convivial de l’environnement dans lequel votre serveur de base de données s’exécute lorsque le nom du serveur est localhost. Elle permet de la différencier des autres environnements.
ID de la base de données	Identificateur unique de cette base de données. Utilisé pour générer l’ID de la base de données lorsque le nom de la base de données n’est pas suffisamment unique.
Propriétés JDBC	Propriétés du pilote JDBC à transmettre à la connexion du pilote.
Nombre max. d'essais	Nombre de fois que le système retente un appel d’API ayant échoué. Par défaut : 5
Délai de nouvelle tentative	Nombre de secondes à attendre entre les tentatives pour un appel d’API ayant échoué. Par défaut : 2 secondes
Désactiver la collection de modèles	Ignorer la collecte des modèles de machine learning.
ID de compte Databricks	ID de compte Databricks pour l’accès au catalogue Unity.
URL de l’espace de travail externe	URL de l’espace de travail externe pour l’accès entre espaces de travail.
Délai d’expiration de l’analyse SQL	Délai d’expiration en secondes pour l’analyse SQL pendant la collecte de traçabilité. Par défaut : 60

Sélectionnez Enregistrer.

Résultats

Le collecteur de métadonnées est créé et apparaît sur la page Connecteurs avec un état Configuré. Il est maintenant prêt à se connecter au système source et à récolter des métadonnées.

Que faire ensuite

Après avoir créé le collecteur, vous pouvez effectuer l’une des tâches suivantes :

Exécutez le collecteur manuellement pour collecter immédiatement les métadonnées. Consultez Exécuter manuellement les collecteurs de métadonnées.
Automatisez la collecte de métadonnées en planifiant des exécutions régulières du collecteur. Consultez Planifier les exécutions du collecteur de métadonnées.
Surveillez l’état d’exécution et résolvez les problèmes en consultant les journaux d’exécution. Consultez Afficher les journaux d’exécution pour les exécutions des collecteurs.
Découvrez et évaluez les ressources de données collectées dans le catalogue de données. Consultez Régir le Catalogue de données.