Collecteur de métadonnées Databricks

Rversion finale: Australia

Mis à jour 12 mars 2026

4 minutes de lecture

Le collecteur de métadonnées Databricks fournit un accès en lecture seule aux métadonnées à partir d’un compte Databricks externe.

Le collecteur collecte les métadonnées des actifs de données dans Databricks Hive Metadata, Unity Catalog (y compris Delta Lake), Workflows et Notebooks.

Métadonnées cataloguées

Le collecteur Databricks répertorie les informations suivantes.

Tableau 1. Métadonnées collectées
Objet	Informations cataloguées
Colonnes	Nom, Description, Type JDBC, Type de colonne, Est pouvant être nul, Valeur par défaut, Taille de colonne, Index de colonne Métadonnées étendues : balises Remarque : Les colonnes déconseillées et toute lignée associée à ces colonnes déconseillées ne sont pas cataloguées.
Table	Nom, Description, Schéma, Clé primaire, Clé étrangère Métadonnées étendues : balises, propriétaire, type, date de création, dernière modification, emplacement, fournisseur, version, taille, nombre de fichiers, colonnes de partition, propriétés
Modèle	Nom, Propriétaire, Description, Créé par, Heure de création, Dernière modification par, Dernière modification à, Type sécurisable, Type sécurisable
Vues	Nom, Description, Définition SQL, Balises
Schéma	Nom Métadonnées étendues : balises
Base de données	Type, Nom, Serveur, Port, Environnement, URL JDBC Métadonnées étendues : balises
Mini portable	ID de bloc-notes, chemin d’accès, type de langue (SQL, Python, Scala, R)
Fonction	Nom, description, type de fonction
Tâche	Titre, Description, Créateur, Heure de création, Exécution de la tâche en tant que, Format, Nombre maximal d’exécutions simultanées, Notification au démarrage, Délais d’expiration (s), Notification de réussite, Calendrier, Source Git, Notification en cas d’échec, Balises, Liste de tâches, Liste de grappes
Grappe	Nom, description, ID du type de nœud, ID du type de nœud du pilote, version Spark, nombre de travailleurs, nombre maximal de travailleurs de mise à l’échelle automatique, agents min. de mise à l’échelle automatique, attributs AWS, balises
Tâche	Clé de tâche, type de tâche (bloc-notes, dbt, Spark jar, script Python, roue Python, tâche de pipeline, SQL), délai d’expiration de la tâche, intervalle entre les essais, grappe utilisée par la tâche, nombre maximal de nouvelles tentatives, Dépend de, bibliothèques, notifications (au démarrage, en cas de réussite, en cas d’échec), chemin d’accès au fichier de bloc-notes, source de bloc-notes, paramètres de bloc-notes, nom de classe principale Spark jar, paramètres Spark jar, chemin d’accès au fichier de script Python, Paramètres de script Python, paramètres de soumission Spark, ID de pipeline, actualisation complète du pipeline, nom du package de la roue Python, point d’entrée de la roue Python, paramètres de la roue Python, entrepôt SQL, ID de requête SQL, ID du tableau de bord SQL, ID d’alerte SQL, répertoire du projet Dbt, répertoire des profils Dbt, entrepôt Dbt, catalogue Dbt, schéma Dbt, commandes Dbt
Emplacement externe	Nom, URL externe, Description, Type de source de données, Date de création, Créé par, Propriétaire
Informations d’identification de stockage	Nom, Description, Informations d’identification, Date de création, Créé par, Propriétaire
Volume	Nom, Description, Type, Propriétaire, Créé par, Heure de création, Dernière modification par, Dernière modification à, ID metastore
Vue matérialisée	Nom, définition SQL, créé, dernière modification
Vue des mesures	Nom, Description, Définition YAML, Table source, Type de table source, Filtre, Créé, Dernière modification

Relations entre les objets

Les métadonnées collectées comprennent des pages de catalogue pour les types de ressources de données suivants. Chaque page de catalogue a une relation avec les autres types de ressources de données connexes.

Tableau 2. Relations entre les pages des actifs de données collectées
Page Actifs de données	Relations
Table	Colonnes contenues dans la table
Schéma	Base de données contenant le schéma Table faisant partie du schéma
Base de données	Schéma contenu dans la base de données
Colonnes	Table contenant une colonne
Tâche	Grappes utilisées par les tâches dans la tâche Tâches contenues dans la tâche
Grappe	Grappe contenue dans la tâche Tâche utilisant une grappe
Tâche	Tâche contenant une tâche Grappe utilisée par la tâche Tâches dépendant de la tâche
Mini portable	Dossier contenant un bloc-notes Données d’approvisionnement de la tâche à partir du bloc-notes
Dossier	Dossiers contenus dans un dossier Mini portable contenus dans un dossier
Emplacement externe	Utilise les informations d’identification de stockage Se connecte à la source de données (catégorie S3, objet S3, conteneur Azure ou blob Azure)
Informations d’identification de stockage	Utilisé par l’emplacement externe
Modèle	Inscrit dans le schéma Stocké dans des actifs de données (catégorie S3, objet S3)
Volume	Contenu dans le schéma Stocké dans des actifs de données (catégorie S3, objet S3)
Vue matérialisée	Schéma contenant des vues matérialisées Colonnes faisant partie des vues matérialisées
Vue des mesures	Schéma contenant des vues de mesures Colonnes faisant partie des vues de mesures

Traçabilité pour Databricks

Les informations de traçabilité suivantes sont collectées par le collecteur Databricks.

Remarque :

Le collecteur ne prend pas en charge la traçabilité des instructions SQL définies via des instructions variables.

Tableau 3. Disponibilité de la traçabilité des objets
Objet	Traçabilité disponible
Colonne en vue	Le collecteur identifie la colonne associée dans une vue ou une table en amont pour le metastore Hive et le catalogue Unity : D’où proviennent les données Triant les lignes via ORDER BY qui filtrent les lignes via WHERE/HAVING qui regroupent les lignes via GROUP BY Remarque : Les colonnes déconseillées et toute lignée associée à ces colonnes déconseillées ne sont pas cataloguées.
Mini portable	Tâches qui font référence au bloc-notes. (Uniquement si le catalogue Databricks Unity est activé).
Table	Le collecteur identifie les tables en amont et en aval et leurs emplacements externes (ressources de données S3 et ADLS Gen2) ainsi que la tâche intermédiaire. Le collecteur récolte la lignée de la table Databricks vers l’objet S3.

Authentification prise en charge

Le collecteur Databricks prend en charge l’authentification par jeton d’accès personnel et l’authentification par principal de service OAuth.