Collecteur de métadonnées Databricks

  • Rversion finale: Australia
  • Mis à jour 12 mars 2026
  • 4 minutes de lecture
  • Le collecteur de métadonnées Databricks fournit un accès en lecture seule aux métadonnées à partir d’un compte Databricks externe.

    Le collecteur collecte les métadonnées des actifs de données dans Databricks Hive Metadata, Unity Catalog (y compris Delta Lake), Workflows et Notebooks.

    Métadonnées cataloguées

    Le collecteur Databricks répertorie les informations suivantes.

    Tableau 1. Métadonnées collectées
    Objet Informations cataloguées
    Colonnes

    Nom, Description, Type JDBC, Type de colonne, Est pouvant être nul, Valeur par défaut, Taille de colonne, Index de colonne

    Métadonnées étendues : balises

    Remarque :
    Les colonnes déconseillées et toute lignée associée à ces colonnes déconseillées ne sont pas cataloguées.
    Table

    Nom, Description, Schéma, Clé primaire, Clé étrangère

    Métadonnées étendues : balises, propriétaire, type, date de création, dernière modification, emplacement, fournisseur, version, taille, nombre de fichiers, colonnes de partition, propriétés

    Modèle

    Nom, Propriétaire, Description, Créé par, Heure de création, Dernière modification par, Dernière modification à, Type sécurisable, Type sécurisable

    Vues

    Nom, Description, Définition SQL, Balises

    Schéma

    Nom

    Métadonnées étendues : balises

    Base de données

    Type, Nom, Serveur, Port, Environnement, URL JDBC

    Métadonnées étendues : balises

    Mini portable

    ID de bloc-notes, chemin d’accès, type de langue (SQL, Python, Scala, R)

    Fonction

    Nom, description, type de fonction

    Tâche

    Titre, Description, Créateur, Heure de création, Exécution de la tâche en tant que, Format, Nombre maximal d’exécutions simultanées, Notification au démarrage, Délais d’expiration (s), Notification de réussite, Calendrier, Source Git, Notification en cas d’échec, Balises, Liste de tâches, Liste de grappes

    Grappe

    Nom, description, ID du type de nœud, ID du type de nœud du pilote, version Spark, nombre de travailleurs, nombre maximal de travailleurs de mise à l’échelle automatique, agents min. de mise à l’échelle automatique, attributs AWS, balises

    Tâche

    Clé de tâche, type de tâche (bloc-notes, dbt, Spark jar, script Python, roue Python, tâche de pipeline, SQL), délai d’expiration de la tâche, intervalle entre les essais, grappe utilisée par la tâche, nombre maximal de nouvelles tentatives, Dépend de, bibliothèques, notifications (au démarrage, en cas de réussite, en cas d’échec), chemin d’accès au fichier de bloc-notes, source de bloc-notes, paramètres de bloc-notes, nom de classe principale Spark jar, paramètres Spark jar, chemin d’accès au fichier de script Python, Paramètres de script Python, paramètres de soumission Spark, ID de pipeline, actualisation complète du pipeline, nom du package de la roue Python, point d’entrée de la roue Python, paramètres de la roue Python, entrepôt SQL, ID de requête SQL, ID du tableau de bord SQL, ID d’alerte SQL, répertoire du projet Dbt, répertoire des profils Dbt, entrepôt Dbt, catalogue Dbt, schéma Dbt, commandes Dbt

    Emplacement externe

    Nom, URL externe, Description, Type de source de données, Date de création, Créé par, Propriétaire

    Informations d’identification de stockage

    Nom, Description, Informations d’identification, Date de création, Créé par, Propriétaire

    Volume

    Nom, Description, Type, Propriétaire, Créé par, Heure de création, Dernière modification par, Dernière modification à, ID metastore

    Vue matérialisée

    Nom, définition SQL, créé, dernière modification

    Vue des mesures

    Nom, Description, Définition YAML, Table source, Type de table source, Filtre, Créé, Dernière modification

    Relations entre les objets

    Les métadonnées collectées comprennent des pages de catalogue pour les types de ressources de données suivants. Chaque page de catalogue a une relation avec les autres types de ressources de données connexes.

    Tableau 2. Relations entre les pages des actifs de données collectées
    Page Actifs de données Relations
    Table

    Colonnes contenues dans la table

    Schéma
    • Base de données contenant le schéma
    • Table faisant partie du schéma
    Base de données Schéma contenu dans la base de données
    Colonnes Table contenant une colonne
    Tâche
    • Grappes utilisées par les tâches dans la tâche
    • Tâches contenues dans la tâche
    Grappe
    • Grappe contenue dans la tâche
    • Tâche utilisant une grappe
    Tâche
    • Tâche contenant une tâche
    • Grappe utilisée par la tâche
    • Tâches dépendant de la tâche
    Mini portable
    • Dossier contenant un bloc-notes
    • Données d’approvisionnement de la tâche à partir du bloc-notes
    Dossier
    • Dossiers contenus dans un dossier
    • Mini portable contenus dans un dossier
    Emplacement externe
    • Utilise les informations d’identification de stockage
    • Se connecte à la source de données (catégorie S3, objet S3, conteneur Azure ou blob Azure)
    Informations d’identification de stockage Utilisé par l’emplacement externe
    Modèle
    • Inscrit dans le schéma
    • Stocké dans des actifs de données (catégorie S3, objet S3)
    Volume
    • Contenu dans le schéma
    • Stocké dans des actifs de données (catégorie S3, objet S3)
    Vue matérialisée
    • Schéma contenant des vues matérialisées
    • Colonnes faisant partie des vues matérialisées
    Vue des mesures
    • Schéma contenant des vues de mesures
    • Colonnes faisant partie des vues de mesures

    Traçabilité pour Databricks

    Les informations de traçabilité suivantes sont collectées par le collecteur Databricks.

    Remarque :
    Le collecteur ne prend pas en charge la traçabilité des instructions SQL définies via des instructions variables.
    Tableau 3. Disponibilité de la traçabilité des objets
    Objet Traçabilité disponible
    Colonne en vue Le collecteur identifie la colonne associée dans une vue ou une table en amont pour le metastore Hive et le catalogue Unity :
    • D’où proviennent les données
    • Triant les lignes via ORDER BY
    • qui filtrent les lignes via WHERE/HAVING
    • qui regroupent les lignes via GROUP BY
    Remarque :
    Les colonnes déconseillées et toute lignée associée à ces colonnes déconseillées ne sont pas cataloguées.
    Mini portable Tâches qui font référence au bloc-notes. (Uniquement si le catalogue Databricks Unity est activé).
    Table
    • Le collecteur identifie les tables en amont et en aval et leurs emplacements externes (ressources de données S3 et ADLS Gen2) ainsi que la tâche intermédiaire.
    • Le collecteur récolte la lignée de la table Databricks vers l’objet S3.

    Authentification prise en charge

    Le collecteur Databricks prend en charge l’authentification par jeton d’accès personnel et l’authentification par principal de service OAuth.