Collecteur de métadonnées Databricks
Le collecteur de métadonnées Databricks fournit un accès en lecture seule aux métadonnées à partir d’un compte Databricks externe.
Le collecteur collecte les métadonnées des actifs de données dans Databricks Hive Metadata, Unity Catalog (y compris Delta Lake), Workflows et Notebooks.
Métadonnées cataloguées
Le collecteur Databricks répertorie les informations suivantes.
| Objet | Informations cataloguées |
|---|---|
| Colonnes |
Nom, Description, Type JDBC, Type de colonne, Est pouvant être nul, Valeur par défaut, Taille de colonne, Index de colonne Métadonnées étendues : balises Remarque :
Les colonnes déconseillées et toute lignée associée à ces colonnes déconseillées ne sont pas cataloguées. |
| Table |
Nom, Description, Schéma, Clé primaire, Clé étrangère Métadonnées étendues : balises, propriétaire, type, date de création, dernière modification, emplacement, fournisseur, version, taille, nombre de fichiers, colonnes de partition, propriétés |
| Modèle |
Nom, Propriétaire, Description, Créé par, Heure de création, Dernière modification par, Dernière modification à, Type sécurisable, Type sécurisable |
| Vues |
Nom, Description, Définition SQL, Balises |
| Schéma |
Nom Métadonnées étendues : balises |
| Base de données |
Type, Nom, Serveur, Port, Environnement, URL JDBC Métadonnées étendues : balises |
| Mini portable |
ID de bloc-notes, chemin d’accès, type de langue (SQL, Python, Scala, R) |
| Fonction |
Nom, description, type de fonction |
| Tâche |
Titre, Description, Créateur, Heure de création, Exécution de la tâche en tant que, Format, Nombre maximal d’exécutions simultanées, Notification au démarrage, Délais d’expiration (s), Notification de réussite, Calendrier, Source Git, Notification en cas d’échec, Balises, Liste de tâches, Liste de grappes |
| Grappe |
Nom, description, ID du type de nœud, ID du type de nœud du pilote, version Spark, nombre de travailleurs, nombre maximal de travailleurs de mise à l’échelle automatique, agents min. de mise à l’échelle automatique, attributs AWS, balises |
| Tâche |
Clé de tâche, type de tâche (bloc-notes, dbt, Spark jar, script Python, roue Python, tâche de pipeline, SQL), délai d’expiration de la tâche, intervalle entre les essais, grappe utilisée par la tâche, nombre maximal de nouvelles tentatives, Dépend de, bibliothèques, notifications (au démarrage, en cas de réussite, en cas d’échec), chemin d’accès au fichier de bloc-notes, source de bloc-notes, paramètres de bloc-notes, nom de classe principale Spark jar, paramètres Spark jar, chemin d’accès au fichier de script Python, Paramètres de script Python, paramètres de soumission Spark, ID de pipeline, actualisation complète du pipeline, nom du package de la roue Python, point d’entrée de la roue Python, paramètres de la roue Python, entrepôt SQL, ID de requête SQL, ID du tableau de bord SQL, ID d’alerte SQL, répertoire du projet Dbt, répertoire des profils Dbt, entrepôt Dbt, catalogue Dbt, schéma Dbt, commandes Dbt |
| Emplacement externe |
Nom, URL externe, Description, Type de source de données, Date de création, Créé par, Propriétaire |
| Informations d’identification de stockage |
Nom, Description, Informations d’identification, Date de création, Créé par, Propriétaire |
| Volume |
Nom, Description, Type, Propriétaire, Créé par, Heure de création, Dernière modification par, Dernière modification à, ID metastore |
| Vue matérialisée |
Nom, définition SQL, créé, dernière modification |
| Vue des mesures |
Nom, Description, Définition YAML, Table source, Type de table source, Filtre, Créé, Dernière modification |
Relations entre les objets
Les métadonnées collectées comprennent des pages de catalogue pour les types de ressources de données suivants. Chaque page de catalogue a une relation avec les autres types de ressources de données connexes.
| Page Actifs de données | Relations |
|---|---|
| Table |
Colonnes contenues dans la table |
| Schéma |
|
| Base de données | Schéma contenu dans la base de données |
| Colonnes | Table contenant une colonne |
| Tâche |
|
| Grappe |
|
| Tâche |
|
| Mini portable |
|
| Dossier |
|
| Emplacement externe |
|
| Informations d’identification de stockage | Utilisé par l’emplacement externe |
| Modèle |
|
| Volume |
|
| Vue matérialisée |
|
| Vue des mesures |
|
Traçabilité pour Databricks
Les informations de traçabilité suivantes sont collectées par le collecteur Databricks.
| Objet | Traçabilité disponible |
|---|---|
| Colonne en vue | Le collecteur identifie la colonne associée dans une vue ou une table en amont pour le metastore Hive et le catalogue Unity :
Remarque : Les colonnes déconseillées et toute lignée associée à ces colonnes déconseillées ne sont pas cataloguées. |
| Mini portable | Tâches qui font référence au bloc-notes. (Uniquement si le catalogue Databricks Unity est activé). |
| Table |
|
Authentification prise en charge
Le collecteur Databricks prend en charge l’authentification par jeton d’accès personnel et l’authentification par principal de service OAuth.