Erstellen Sie einen Metadatensammler für Datenabschnitte

Freigeben Version: Australia

Aktualisiert 12. März 2026

4 Minuten Lesedauer

Erstellen Sie einen Sammler, um Metadaten aus Datenabschnitten zu importieren.

Vorbereitungen

Bevor Sie beginnen, überprüfen Sie Folgendes:

Für die Sammler ist ein MID-Server eingerichtet. Weitere Informationen finden Sie unter MID-Server für Metadatensammler.
Alle erforderlichen Aufgaben sind abgeschlossen. Weitere Informationen finden Sie unter Bereiten Sie die Ausführung des Databrick-Sammlers vor.
Erforderliche Rolle: Connection-admin

Prozedur

Navigieren zu Alle > Workflow-Datafabric > Workflow-Datafabric-Startseitean.
Wählen Sie den Connect Hub aus Symbol in der linken Sidebar.
Auswählen Erstellen > Metadatensammleran.
Wählen Sie in der Liste System die Option aus Datenabschnitte .

Füllen Sie im Formular die Felder aus.

Tabelle : 1. Neues Formular für Metadatensammler für Datenabschnitte
Feld	Beschreibung
Verbindungsname	Eindeutiger Bezeichner für die Verbindung. Dieses Feld kann nicht geändert werden, sobald die Verbindung hergestellt wurde.
Kurzbeschreibung	Zweck und Details der Verbindung.

Geben Sie die Konfigurationsdetails für Datenabschnitte ein.

Tabelle : 2. Konfigurationsdetails
Feld	Beschreibung
Server	Hostname des Datenbankservers, mit dem eine Verbindung hergestellt werden soll.

Wählen Sie zwischen Erfassen Sie alle Schemas Und Geben Sie an, welches Schema erfasst werden soll Zum Konfigurieren der Optionen für die Schemasammlung.

Tabelle : 3. Schemasammlungsoptionen
Feld	Beschreibung
Erfassen Sie alle Schemas
Erfassen Sie alle Schemas	Katalogisieren Sie alle Schemas, auf die der Anwender Zugriff hat.
Schema Ausschließen	Name oder regulärer Ausdruck des auszuschließenden Datenbankschemas.
Informationsschema Einschließen	Fügen Sie das Informationsschema der Datenbank in die Katalogsammlung ein.
Geben Sie an, welches Schema erfasst werden soll
Geben Sie an, welches Schema erfasst werden soll	Katalog nur die angegebenen Schemas.
Schema	Name des Datenbankschemas für den Katalog.

Geben Sie die Konfigurationsdetails für Datenabschnitte ein.

Tabelle : 4. Konfigurationsdetails
Feld	Beschreibung
Serverport	Port des Datenbankservers (wenn nicht der Standard).
Datenbank	Name der Datenbank, mit der eine Verbindung hergestellt werden soll. Geben Sie mehrere Datenbanken an, indem Sie einen Wert pro Zeile hinzufügen.
HTTP-Pfad für Databricks	URL für Datenabschnitte zur Berechnung von Ressourcen. Siehe Dokumentation zu Databricks Für Details.
Ausgeschlossene Datenbank	Name oder regulärer Ausdruck für Datenbanken, die ausgeschlossen werden sollen, wenn das Feld „Datenbank“ leer ist. Hinweis: Dieser Parameter wird ignoriert, wenn das Feld „Datenbank“ angegeben ist.

Konfigurieren Sie die Serverdetails und Authentifizierungsoptionen.

Tabelle : 5. Server- und Authentifizierungsdetails
Feld	Beschreibung
Serverdetails
	Hostname des Datenbankservers, mit dem eine Verbindung hergestellt werden soll.
Authentifizierungsoptionen
Authentifizieren Sie sich mit persönlichem Zugriffstoken	Option zur Authentifizierung mit dem persönlichen Zugriffstoken für Databricks. Weitere Informationen finden Sie unter Dokumentation zu Databricks.
Authentifizieren Sie sich mit dem Dienstprinzipal „Databricks“	Option zur Authentifizierung mit der Databricks-Serviceprinzipal-Client-ID und dem Databricks-Serviceprinzip-Client-Geheimnis.

Konfigurieren Sie die Statistiken und Stichprobenoptionen.

Tabelle : 6. Statistiken und Stichprobenoptionen
Feld	Beschreibung
Aktivieren Sie die Sammlung von Spaltenstatistiken	Aktivieren Sie die Erfassung von Spaltenstatistiken (Daten-Profilerstellung). Hinweis: Das Aktivieren der Profilerstellung kann die Laufzeit des Sammlers erhöhen, da der Sammler Tabellendaten lesen muss, um Profilerstellungsmetadaten zu generieren.
Zielstichprobengröße für Spaltenstatistiken	Anzahl der Zeilen, die für die Berechnung von Spaltenstatistiken und Zeichenfolgenwert-Histogrammen als Stichproben erfasst wurden. Um beispielsweise 1000 Zeilen zu entnehmen, legen Sie den Parameter auf 1000 fest. Standard: 100000
Deaktivieren Sie die Herkunftssammlung	Überspringen Sie das Sammeln von Metadaten der Datenbankherkunft.
Deaktivieren Sie die erweiterte Metadatensammlung	Überspringen Sie die Erfassung erweiterter Metadaten für Daten-Asset-Typen wie Datenbank, Schema, Tabelle, Spaltenfunktionen, gespeicherte Verfahren anwenderdefinierte Typen und Synonyme. Basismetadaten für diese Daten-Asset-Typen werden weiterhin erfasst.

Konfigurieren Sie den Erfassungsbereich und die Begrenzungsoptionen.

Tabelle : 7. Optionen für Erfassungsumfang und -Grenzen
Feld	Beschreibung
Deaktivieren Sie Sammel-Workflows	Überspringen Sie das Sammeln von Databrick-Workflows und deren Herkunft-Metadaten.
Herkunft aus anderen Schemas sammeln	Herkunft aus anderen Schemas sammeln.
Aktivieren Sie die Sammlung von Beispielzeichenfolgenwerten	Aktivieren Sie das Sampling und die Speicherung von Beispielwerten für Spalten mit Zeichenfolgenwert.
Schließen Sie Systemfunktionen aus	Erfassung von integrierten Systemfunktionen für Databricks ausschließen.
Deaktivieren Sie Das Sammeln Von Notizbuchinhalten	Erfassung von Notizbuchinhalten überspringen.
Seitengröße für das Sammeln von Abfragen	Geben Sie die Seitengröße für das Sammeln von Abfragen an. Standardwert: 1000
Seitengröße für API-Antworten für Datenabschnitte	Geben Sie die Seitengröße für die API-Antwort „Databricks“ an. Standard: 100
Aktivieren Sie Die Erfassung Von Metrikansichten	Aktivieren Sie das Sammeln von Metrikansichten. Informationen zur Metrikansicht werden aus den erweiterten Metadaten einer Tabelle extrahiert und sind nur verfügbar, wenn das erweiterte Sammeln von Metadaten aktiviert ist.

Konfigurieren Sie die Verbindungs- und Zuverlässigkeitsoptionen.

Tabelle : 8. Verbindungs- und Zuverlässigkeitsoptionen
Feld	Beschreibung
Serverumgebung	Anzeigename für die Umgebung, in der Ihr Datenbankserver ausgeführt wird, wenn der Servername localhost ist. Hilft, IT von anderen Umgebungen zu unterscheiden.
Datenbank-ID	Eindeutiger Bezeichner für diese Datenbank. Wird verwendet, um die Datenbank-ID zu generieren, wenn der Datenbankname nicht eindeutig genug ist.
JDBC-Eigenschaften	JDBC-Treibereigenschaften, die an die Treiberverbindung übergeben werden sollen.
Max. Wiederholungen	Gibt an, wie oft das System einen fehlgeschlagenen API-Aufruf wiederholt. Standard: 5
Wiederholungsverzögerung	Die Anzahl der Sekunden, die zwischen Wiederholungsversuchen für einen fehlgeschlagenen API-Aufruf gewartet werden soll. Standard: 2 Sekunden
Modellsammlung Deaktivieren	Erfassung von Modellen für maschinelles Lernen überspringen.
Databricks-Account-ID	Die Account-ID für Databricks für den Zugriff auf den Unity-Katalog.
URL des externen Arbeitsbereichs	Die externe Arbeitsbereich-URL für den arbeitsbereichsübergreifenden Zugriff.
Zeitüberschreitung bei SQL-Analyse	Zeitüberschreitung in Sekunden für SQL-Analyse während der Abstammungssammlung. Standard: 60

Wählen Sie Speichern.

Ergebnisse

Der Metadatensammler wird erstellt und wird auf der Seite „Connectors“ mit einem konfigurierten Status angezeigt. Sie ist jetzt bereit, eine Verbindung zum Quellsystem herzustellen und Metadaten zu sammeln.

Nächste Maßnahme

Nach dem Erstellen des Sammlers können Sie eine der folgenden Aufgaben ausführen:

Führen Sie den Sammler manuell aus, um Metadaten sofort zu sammeln. Weitere Informationen finden Sie unter Führen Sie Metadatensammler manuell aus.
Automatisieren Sie die Metadatensammlung, indem Sie regelmäßige Sammlerausführungen planen. Weitere Informationen finden Sie unter Metadaten-Sammlerausführungen planen.
Überwachen Sie den Ausführungsstatus, und beheben Sie Probleme, indem Sie die Laufzeitprotokolle anzeigen. Weitere Informationen finden Sie unter Zeigen Sie Laufzeitprotokolle für Sammlerausführungen an.
Erkennen und bewerten Sie die gesammelten Daten-Assets im Datenkatalog. Weitere Informationen finden Sie unter Steuert Datenkatalog.