Erstellen Sie einen Metadatensammler für Datenabschnitte

  • Freigeben Version: Australia
  • Aktualisiert 12. März 2026
  • 4 Minuten Lesedauer
  • Erstellen Sie einen Sammler, um Metadaten aus Datenabschnitten zu importieren.

    Vorbereitungen

    Bevor Sie beginnen, überprüfen Sie Folgendes:

    Prozedur

    1. Navigieren zu Alle > Workflow-Datafabric > Workflow-Datafabric-Startseitean.
    2. Wählen Sie den Connect Hub aus Connect Hub-SymbolSymbol in der linken Sidebar.
    3. Auswählen Erstellen > Metadatensammleran.
    4. Wählen Sie in der Liste System die Option aus Datenabschnitte .
    5. Füllen Sie im Formular die Felder aus.
      Tabelle : 1. Neues Formular für Metadatensammler für Datenabschnitte
      Feld Beschreibung
      Verbindungsname Eindeutiger Bezeichner für die Verbindung. Dieses Feld kann nicht geändert werden, sobald die Verbindung hergestellt wurde.
      Kurzbeschreibung Zweck und Details der Verbindung.
    6. Geben Sie die Konfigurationsdetails für Datenabschnitte ein.
      Tabelle : 2. Konfigurationsdetails
      Feld Beschreibung
      Server Hostname des Datenbankservers, mit dem eine Verbindung hergestellt werden soll.
    7. Wählen Sie zwischen Erfassen Sie alle Schemas Und Geben Sie an, welches Schema erfasst werden soll Zum Konfigurieren der Optionen für die Schemasammlung.
      Tabelle : 3. Schemasammlungsoptionen
      Feld Beschreibung
      Erfassen Sie alle Schemas
      Erfassen Sie alle Schemas Katalogisieren Sie alle Schemas, auf die der Anwender Zugriff hat.
      Schema Ausschließen Name oder regulärer Ausdruck des auszuschließenden Datenbankschemas.
      Informationsschema Einschließen Fügen Sie das Informationsschema der Datenbank in die Katalogsammlung ein.
      Geben Sie an, welches Schema erfasst werden soll
      Geben Sie an, welches Schema erfasst werden soll Katalog nur die angegebenen Schemas.
      Schema Name des Datenbankschemas für den Katalog.
    8. Geben Sie die Konfigurationsdetails für Datenabschnitte ein.
      Tabelle : 4. Konfigurationsdetails
      Feld Beschreibung
      Serverport Port des Datenbankservers (wenn nicht der Standard).
      Datenbank Name der Datenbank, mit der eine Verbindung hergestellt werden soll. Geben Sie mehrere Datenbanken an, indem Sie einen Wert pro Zeile hinzufügen.
      HTTP-Pfad für Databricks URL für Datenabschnitte zur Berechnung von Ressourcen. Siehe Dokumentation zu Databricks Für Details.
      Ausgeschlossene Datenbank Name oder regulärer Ausdruck für Datenbanken, die ausgeschlossen werden sollen, wenn das Feld „Datenbank“ leer ist.
      Hinweis:
      Dieser Parameter wird ignoriert, wenn das Feld „Datenbank“ angegeben ist.
    9. Konfigurieren Sie die Serverdetails und Authentifizierungsoptionen.
      Tabelle : 5. Server- und Authentifizierungsdetails
      Feld Beschreibung
      Serverdetails
      Hostname des Datenbankservers, mit dem eine Verbindung hergestellt werden soll.
      Authentifizierungsoptionen
      Authentifizieren Sie sich mit persönlichem Zugriffstoken Option zur Authentifizierung mit dem persönlichen Zugriffstoken für Databricks. Weitere Informationen finden Sie unter Dokumentation zu Databricks.
      Authentifizieren Sie sich mit dem Dienstprinzipal „Databricks“ Option zur Authentifizierung mit der Databricks-Serviceprinzipal-Client-ID und dem Databricks-Serviceprinzip-Client-Geheimnis.
    10. Konfigurieren Sie die Statistiken und Stichprobenoptionen.
      Tabelle : 6. Statistiken und Stichprobenoptionen
      Feld Beschreibung
      Aktivieren Sie die Sammlung von Spaltenstatistiken Aktivieren Sie die Erfassung von Spaltenstatistiken (Daten-Profilerstellung).
      Hinweis:
      Das Aktivieren der Profilerstellung kann die Laufzeit des Sammlers erhöhen, da der Sammler Tabellendaten lesen muss, um Profilerstellungsmetadaten zu generieren.
      Zielstichprobengröße für Spaltenstatistiken Anzahl der Zeilen, die für die Berechnung von Spaltenstatistiken und Zeichenfolgenwert-Histogrammen als Stichproben erfasst wurden. Um beispielsweise 1000 Zeilen zu entnehmen, legen Sie den Parameter auf 1000 fest.

      Standard: 100000

      Deaktivieren Sie die Herkunftssammlung Überspringen Sie das Sammeln von Metadaten der Datenbankherkunft.
      Deaktivieren Sie die erweiterte Metadatensammlung Überspringen Sie die Erfassung erweiterter Metadaten für Daten-Asset-Typen wie Datenbank, Schema, Tabelle, Spaltenfunktionen, gespeicherte Verfahren anwenderdefinierte Typen und Synonyme. Basismetadaten für diese Daten-Asset-Typen werden weiterhin erfasst.
    11. Konfigurieren Sie den Erfassungsbereich und die Begrenzungsoptionen.
      Tabelle : 7. Optionen für Erfassungsumfang und -Grenzen
      Feld Beschreibung
      Deaktivieren Sie Sammel-Workflows Überspringen Sie das Sammeln von Databrick-Workflows und deren Herkunft-Metadaten.
      Herkunft aus anderen Schemas sammeln Herkunft aus anderen Schemas sammeln.
      Aktivieren Sie die Sammlung von Beispielzeichenfolgenwerten Aktivieren Sie das Sampling und die Speicherung von Beispielwerten für Spalten mit Zeichenfolgenwert.
      Schließen Sie Systemfunktionen aus Erfassung von integrierten Systemfunktionen für Databricks ausschließen.
      Deaktivieren Sie Das Sammeln Von Notizbuchinhalten Erfassung von Notizbuchinhalten überspringen.
      Seitengröße für das Sammeln von Abfragen Geben Sie die Seitengröße für das Sammeln von Abfragen an.

      Standardwert: 1000

      Seitengröße für API-Antworten für Datenabschnitte Geben Sie die Seitengröße für die API-Antwort „Databricks“ an.

      Standard: 100

      Aktivieren Sie Die Erfassung Von Metrikansichten Aktivieren Sie das Sammeln von Metrikansichten. Informationen zur Metrikansicht werden aus den erweiterten Metadaten einer Tabelle extrahiert und sind nur verfügbar, wenn das erweiterte Sammeln von Metadaten aktiviert ist.
    12. Konfigurieren Sie die Verbindungs- und Zuverlässigkeitsoptionen.
      Tabelle : 8. Verbindungs- und Zuverlässigkeitsoptionen
      Feld Beschreibung
      Serverumgebung Anzeigename für die Umgebung, in der Ihr Datenbankserver ausgeführt wird, wenn der Servername localhost ist. Hilft, IT von anderen Umgebungen zu unterscheiden.
      Datenbank-ID Eindeutiger Bezeichner für diese Datenbank. Wird verwendet, um die Datenbank-ID zu generieren, wenn der Datenbankname nicht eindeutig genug ist.
      JDBC-Eigenschaften JDBC-Treibereigenschaften, die an die Treiberverbindung übergeben werden sollen.
      Max. Wiederholungen Gibt an, wie oft das System einen fehlgeschlagenen API-Aufruf wiederholt.

      Standard: 5

      Wiederholungsverzögerung Die Anzahl der Sekunden, die zwischen Wiederholungsversuchen für einen fehlgeschlagenen API-Aufruf gewartet werden soll.

      Standard: 2 Sekunden

      Modellsammlung Deaktivieren Erfassung von Modellen für maschinelles Lernen überspringen.
      Databricks-Account-ID Die Account-ID für Databricks für den Zugriff auf den Unity-Katalog.
      URL des externen Arbeitsbereichs Die externe Arbeitsbereich-URL für den arbeitsbereichsübergreifenden Zugriff.
      Zeitüberschreitung bei SQL-Analyse Zeitüberschreitung in Sekunden für SQL-Analyse während der Abstammungssammlung.

      Standard: 60

    13. Wählen Sie Speichern.

    Ergebnisse

    Der Metadatensammler wird erstellt und wird auf der Seite „Connectors“ mit einem konfigurierten Status angezeigt. Sie ist jetzt bereit, eine Verbindung zum Quellsystem herzustellen und Metadaten zu sammeln.

    Nächste Maßnahme

    Nach dem Erstellen des Sammlers können Sie eine der folgenden Aufgaben ausführen: