Créer un collecteur de métadonnées Databricks
Créez un collecteur pour importer des métadonnées à partir de Databricks.
Avant de commencer
Avant de commencer, vérifiez les points suivants :
- Un serveur MID est configuré pour les modules de collection. Pour plus d'informations, consultez Serveur MID pour les collecteurs de métadonnées.
- Toutes les tâches requises sont terminées. Pour plus d'informations, consultez Préparer l’exécution du collecteur Databricks.
- Rôle requis : connection-admin
Procédure
- Accédez à la Tous > Structure de données de workflow > Accueil Workflow Data Fabric.
-
Sélectionnez l’icône du
dans la barre latérale gauche.
- Sélectionner Créer > Collecteur de métadonnées.
- Dans la liste Système, sélectionnez Databricks.
-
Remplissez les champs du formulaire.
Tableau 1. Nouveau formulaire du collecteur de métadonnées Databricks Champ Description Nom de la connexion Identificateur unique pour la connexion. Ce champ n’est pas modifiable une fois la connexion établie. Description brève Objet et détails de la connexion. -
Saisissez les détails de configuration de Databricks.
Tableau 2. Détails de la configuration Champ Description Serveur Nom d’hôte du serveur de base de données auquel se connecter. -
Choisissez entre Collecter tous les schémas et Spécifier le schéma à collecter pour configurer les options de collecte de schémas.
Tableau 3. Options de collecte de schémas Champ Description Collecter tous les schémas Collecter tous les schémas Cataloguer tous les schémas auxquels l’utilisateur a accès. Exclure le schéma Nom ou expression régulière du schéma de base de données à exclure. Inclure le schéma d’informations Inclure le schéma d’informations de la base de données dans la collection de catalogue. Spécifier le schéma à collecter Spécifier le schéma à collecter Cataloguez uniquement les schémas spécifiés. Schéma Nom du schéma de base de données à cataloguer. -
Saisissez les détails de configuration de Databricks.
Tableau 4. Détails de la configuration Champ Description Port de serveur Port du serveur de base de données (s’il ne s’agit pas du port par défaut). Base de données Nom de la base de données à laquelle se connecter. Spécifiez plusieurs bases de données en ajoutant une valeur par ligne. Chemin d’accès HTTP Databricks URL des ressources de calcul Databricks. Consultez la documentation Databricks pour plus d’informations . Base de données exclue Nom ou expression régulière des bases de données à exclure lorsque le champ Base de données est vide. Remarque :Ce paramètre est ignoré si le champ Base de données est spécifié. -
Configurez les détails du serveur et les options d’authentification.
Tableau 5. Détails du serveur et de l’authentification Champ Description Détails du serveur Nom d’hôte du serveur de base de données auquel se connecter. Options d'authentification Authentifier à l’aide d’un jeton d’accès personnel Option d’authentification à l’aide du jeton d’accès personnel Databricks. Pour plus d’informations, consultez la documentation Databricks. Authentifier à l’aide de Databricks Principal du service Option d’authentification à l’aide de l’ID de client principal du service Databricks et du secret client principal du service Databricks. -
Configurez les statistiques et les options d’échantillonnage.
Tableau 6. Statistiques et options d’échantillonnage Champ Description Activer la collecte des statistiques de colonne Activez la collecte des statistiques de colonne (profilage des données). Remarque :L’activation du profilage peut augmenter le temps d’exécution du collecteur, car celui-ci doit lire les données de table pour générer des métadonnées de profilage.Taille d’échantillon cible pour les statistiques de colonne Nombre de lignes échantillonnées pour le calcul des statistiques de colonne et des histogrammes chaîne-valeur. Par exemple, pour échantillonner 1 000 lignes, définissez le paramètre sur 1 000. Par défaut : 100 000
Désactiver la collecte de traçabilité Ignorer la collecte des métadonnées de traçabilité intrabase de données. Désactiver la collecte de métadonnées étendue Ignorer la collecte des métadonnées étendues pour les types d’actifs de données tels que la base de données, le schéma, la table, les fonctions de colonnes, les procédures stockées, les types définis par l’utilisateur et les synonymes. Les métadonnées de base pour ces types d’actifs de données seront toujours collectées. -
Configurez les options de périmètre et de limites de collecte.
Tableau 7. Options relatives au champ d’application et aux limites de la collecte Champ Description Désactiver les workflows de collecte Ignorer la collecte des workflows Databricks et de leurs métadonnées de traçabilité. Extraire la lignée à partir d’autres schémas Récolter la lignée à partir d’autres schémas. Activer la collection d’exemples de valeurs de chaîne Activez l’échantillonnage et le stockage d’exemples de valeurs pour les colonnes de type chaîne. Exclure les fonctions système Excluez la collecte des fonctions système Databricks intégrées. Désactiver la collecte du contenu du bloc-notes Ignorer la collecte du contenu du bloc-notes. Taille de page pour les requêtes de collecte Spécifiez la taille de page pour les requêtes de collecte. Valeur par défaut : 1 000
Taille de page des réponses d’API Databricks Spécifiez la taille de page pour la réponse API Databricks. Par défaut : 100
Activer la collecte des vues de mesures Activer la collecte des vues de mesures. Les informations de vue de mesures sont extraites des métadonnées étendues d’une table et ne sont disponibles que lorsque la collecte de métadonnées étendues est activée. -
Configurez les options de connexion et de fiabilité.
Tableau 8. Options de connexion et de fiabilité Champ Description Environnement de serveur Nom convivial de l’environnement dans lequel votre serveur de base de données s’exécute lorsque le nom du serveur est localhost. Elle permet de la différencier des autres environnements. ID de la base de données Identificateur unique de cette base de données. Utilisé pour générer l’ID de la base de données lorsque le nom de la base de données n’est pas suffisamment unique. Propriétés JDBC Propriétés du pilote JDBC à transmettre à la connexion du pilote. Nombre max. d'essais Nombre de fois que le système retente un appel d’API ayant échoué. Par défaut : 5
Délai de nouvelle tentative Nombre de secondes à attendre entre les tentatives pour un appel d’API ayant échoué. Par défaut : 2 secondes
Désactiver la collection de modèles Ignorer la collecte des modèles de machine learning. ID de compte Databricks ID de compte Databricks pour l’accès au catalogue Unity. URL de l’espace de travail externe URL de l’espace de travail externe pour l’accès entre espaces de travail. Délai d’expiration de l’analyse SQL Délai d’expiration en secondes pour l’analyse SQL pendant la collecte de traçabilité. Par défaut : 60
- Sélectionnez Enregistrer.
Résultats
Le collecteur de métadonnées est créé et apparaît sur la page Connecteurs avec un état Configuré. Il est maintenant prêt à se connecter au système source et à récolter des métadonnées.
Que faire ensuite
Après avoir créé le collecteur, vous pouvez effectuer l’une des tâches suivantes :
- Exécutez le collecteur manuellement pour collecter immédiatement les métadonnées. Consultez Exécuter manuellement les collecteurs de métadonnées.
- Automatisez la collecte de métadonnées en planifiant des exécutions régulières du collecteur. Consultez Planifier les exécutions du collecteur de métadonnées.
- Surveillez l’état d’exécution et résolvez les problèmes en consultant les journaux d’exécution. Consultez Afficher les journaux d’exécution pour les exécutions des collecteurs.
- Découvrez et évaluez les ressources de données collectées dans le catalogue de données. Consultez Régir le Catalogue de données.