Metadatensammler für Databricks

  • Freigeben Version: Australia
  • Aktualisiert 12. März 2026
  • 3 Minuten Lesedauer
  • Der Metadatensammler für Databricks bietet schreibgeschützten Zugriff auf Metadaten aus einem externen Databricks-Account.

    Der Sammler sammelt Metadaten aus Daten-Assets in Datenabschnitten-Hive-Metadaten, Unity-Katalog (einschließlich Delta Lake), Workflows und Notebooks.

    Metadaten katalogisiert

    Der Databricks-Sammler katalogisiert die folgenden Informationen.

    Tabelle : 1. Metadaten erfasst
    Objekt Informationen katalogisiert
    Spalten

    Name, Beschreibung, JDBC-Typ, Spaltentyp, ist auf Null setzbar, Standardwert, Spaltengröße, Spaltenindex

    Erweiterte Metadaten: Tags

    Hinweis:
    Veraltete Spalten und alle Herkunft im Zusammenhang mit diesen veralteten Spalten werden nicht katalogisiert.
    Tabelle

    Name, Beschreibung, Schema, primärer Schlüssel, Fremdschlüssel

    Erweiterte Metadaten: Tags, Besitzer, Typ, Erstellungsdatum, zuletzt geändert, Standort, Anbieter, Version, Größe, Dateianzahl, Partitionsspalten, Eigenschaften

    Modell

    Name, Besitzer, Beschreibung, Erstellt Von, Erstellt Am, Zuletzt Geändert Von, Zuletzt Geändert Um, Sicherbare Art, Sicherbarer Typ

    Ansichten

    Name, Beschreibung, SQL-Definition, Tags

    Schema

    Name

    Erweiterte Metadaten: Tags

    Datenbank

    Typ, Name, Server, Port, Umgebung, JDBC-URL

    Erweiterte Metadaten: Tags

    Notebook

    Notebook-ID, Pfad, Sprachtyp (SQL, Python, Skala, R)

    Funktion

    Name, Beschreibung, Funktionstyp

    Auftrag

    Titel, Beschreibung, Ersteller, erstellt am, Auftrag ausgeführt als, Format, max. gleichzeitige Ausführungen, Benachrichtigung beim Start, Zeitüberschreitungen (Sek.), Benachrichtigung bei Erfolg, Zeitplan, Git-Quelle, Benachrichtigung bei Fehler, Tags, Liste der Aufgaben, Liste der Cluster

    Cluster

    Name, Beschreibung, Knotentyp-ID, Treiber-Knotentyp-ID, Funkenversion, Anzahl der Mitarbeiter, automatische Skalierung der max. Worker, automatische Skalierung der Min. Worker, AWS-Attribute, Tags

    Aufgabe

    Aufgabenschlüssel, Typ der Aufgabe (Notebook, dbt, Funktions-JAR, Python-Skript, Python-Rad, Pipeline-Aufgabe, SQL), Aufgabenzeitüberschreitung, Wiederholungsintervall, von der Aufgabe verwendetes Cluster, Max. Wiederholungen, abhängig von, Bibliotheken, Benachrichtigungen (beim Start, bei Erfolg, bei Fehler), Notizbuchdateipfad, Notizbuchquelle, Notizbuchparameter, Hauptklassenname der Funkenjar, Funkenjar-Parameter, Python-Skriptdateipfad, Python-Skriptparameter, Funkenübermittlungsparameter, Pipeline-ID, vollständige Aktualisierung der Pipeline, Python-Rad-Paketname, Python-Rad-Einstiegspunkt, Python-Rad-Parameter, SQL-Lager, SQL-Abfrage-ID, SQL-Dashboard-ID, SQL-Warnungs-ID, DBT-Projektverzeichnis, DBT-Profilverzeichnis, DBT-Lager, DBT-Katalog, DBT-Schema, DBT-Befehle

    Externer Standort

    Name, externe URL, Beschreibung, Datenquellentyp, Erstellungsdatum, Erstellt Von, Besitzer

    Speicher-Anmeldeinformationen

    Name, Beschreibung, Anmeldeinformationen, Erstellungsdatum, Erstellt Von, Besitzer

    Volumen

    Name, Beschreibung, Typ, Besitzer, Erstellt Von, erstellt am, zuletzt geändert von, zuletzt geändert am, Metastore-ID

    Materialisierte Ansicht

    Name, SQL-Definition, erstellt, zuletzt geändert

    Metrikansicht

    Name, Beschreibung, YAML-Definition, Quelltabelle, Quelltabellentyp, Filter, Erstellt, Zuletzt Geändert

    Beziehungen zwischen Objekten

    Die gesammelten Metadaten enthalten Katalogseiten für die folgenden Daten-Asset-Typen. Jede Katalogseite hat eine Beziehung zu den anderen zugehörigen Daten-Asset-Typen.

    Tabelle : 2. Beziehungen zwischen Seiten des gesammelten Daten-Assets
    Daten-Asset-Seite Beziehungen
    Tabelle

    Spalten in Tabelle

    Schema
    • Datenbank, die das Schema enthält
    • Tabelle, die Teil des Schemas ist
    Datenbank Schema in Datenbank
    Spalten Tabelle mit Spalte
    Auftrag
    • Cluster, die von Aufgaben im Auftrag verwendet werden
    • Aufgaben im Auftrag
    Cluster
    • Cluster im Auftrag
    • Aufgabe mit Cluster
    Aufgabe
    • Auftrag mit Aufgabe
    • Von Aufgabe verwendeter Cluster
    • Aufgaben abhängig von Aufgabe
    Notebook
    • Ordner, der das Notebook enthält
    • Aufgabenbeschaffungsdaten aus Notebook
    Ordner
    • Ordner, die im Ordner enthalten sind
    • Im Ordner enthaltene Notebooks
    Externer Standort
    • Verwendet Speicher-Anmeldeinformationen
    • Stellt eine Verbindung zur Datenquelle her (S3-Bucket, S3-Objekt, Azure-Container oder Azure-Blob)
    Speicher-Anmeldeinformationen Wird von externem Standort verwendet
    Modell
    • Im Schema registriert
    • In Daten-Assets gespeichert (S3-Bucket, S3-Objekt)
    Volumen
    • Enthalten in Schema
    • In Daten-Assets gespeichert (S3-Bucket, S3-Objekt)
    Materialisierte Ansicht
    • Schema, das materialisierte Ansichten enthält
    • Spalten, die Teil von materialisierten Ansichten sind
    Metrikansicht
    • Schema, das Metrikansichten enthält
    • Spalten, die Teil von Metrikansichten sind

    Herkunft für Datenabschnitte

    Die folgenden Abstammungsinformationen werden vom Databricks-Sammler erfasst.

    Hinweis:
    Der Sammler unterstützt keine Herkunft für SQL-Anweisungen, die über Variablenanweisungen definiert sind.
    Tabelle : 3. Verfügbarkeit Der Objektherkunft
    Objekt Herkunft verfügbar
    Spalte in der Ansicht Der Sammler identifiziert die zugeordnete Spalte in einer vorgelagerten Ansicht oder Tabelle für Hive-Metastore und Einheitskatalog:
    • Woher die Daten stammen
    • Die die Zeilen sortieren NACH
    • Die die Zeilen nach WO/HABEN filtern
    • Die die Zeilen über „GRUPPIEREN NACH“ AGGREGIEREN
    Hinweis:
    Veraltete Spalten und alle Herkunft im Zusammenhang mit diesen veralteten Spalten werden nicht katalogisiert.
    Notebook Aufgaben, die auf das Notebook verweisen. (Nur, wenn „Einheitskatalog für Databricks“ aktiviert ist).
    Tabelle
    • Der Sammler identifiziert die vor- und nachgelagerten Tabellen und ihre externen Standorte (S3- und ADLS-Gen2-Daten-Assets) zusammen mit dem Zwischenauftrag.
    • Der Sammler sammelt die Herkunft der Databricks-Tabelle zum S3-Objekt.

    Authentifizierung unterstützt

    Der Databricks-Sammler unterstützt die Authentifizierung des persönlichen Zugriffstoken und die Authentifizierung des OAuth-Serviceprinzials.