Coletor de metadados de Databricks

  • Versão de lançamento: Australia
  • Atualizado 12 de mar. de 2026
  • 4 min. de leitura
  • O coletor de metadados Databricks fornece acesso somente leitura aos metadados de uma conta externa do Databricks.

    O coletor colhe metadados de ativos de dados em Metadados do Databricks Hive, Catálogo do Unity (incluindo Delta Lake), Fluxos de trabalho e Blocos de anotações.

    Metadados catalogados

    O coletor Databricks cataloga as seguintes informações.

    Tabela 1. Metadados coletados
    Objeto Informações catalogadas
    Colunas

    Nome, Descrição, Tipo JDBC, Tipo de Coluna, É Nulável, valor padrão, tamanho da coluna, índice da coluna

    Metadados estendidos: Marcadores

    Nota:
    As colunas descontinuadas e qualquer linhagem relacionada a essas colunas descontinuadas não são catalogadas.
    Tabela

    Nome, Descrição, Esquema, Chave primária, Chave estrangeira

    Metadados estendidos: Marcadores, Proprietário, Tipo, Data de criação, Modificado pela última vez, local, Provedor, Versão, Tamanho, Contagem de arquivos, partições, Propriedades

    Modelo

    Nome, Proprietário, Descrição, Criado por, Criado em, última modificação por, última modificação em, Tipo protegível, Tipo protegível

    Exibições

    Nome, Descrição, Definição SQL, Marcadores

    Esquema

    Nome

    Metadados estendidos: Marcadores

    Banco de dados

    Tipo, Nome, Servidor, Porta, Ambiente, URL JDBC

    Metadados estendidos: Marcadores

    Notebook

    ID do bloco de anotações, caminho, tipo de idioma (SQL, Python, scala, R)

    Função

    Nome, Descrição, Tipo de função

    Trabalho

    Título, Descrição, Criador, Criado em, Trabalho executado como, formato, Máximo de execuções simultâneas, Notificação no início, Tempos limite (s), Notificação no sucesso, origem do Git, Notificação sobre falha, marcadores, Lista de tarefas, lista de clusters

    Cluster

    Nome, Descrição, ID do tipo de nó, ID do tipo de nó do driver, versão do Spark, Número de trabalhadores, máximo de trabalhadores, mínimo de trabalhadores, escala automática, atributos da AWS, marcadores

    Tarefa

    Chave da tarefa, Tipo de tarefa (Notebook, dbt, Spark jar, script Python, roda Python, tarefa de pipeline, SQL), Tempo limite da tarefa, Intervalo de novas tentativas, Cluster usado pela tarefa, Máximo de novas tentativas, Depende de, Bibliotecas, Notificações (no início, em sucesso, Em caso de falha), Caminho do arquivo do bloco de anotações, Origem do bloco de anotações, Parâmetros do bloco de anotações, Nome da classe principal do Spark Jar, Parâmetros do Spark Jar, Caminho do arquivo de script Python, Parâmetros de script Python, Parâmetros de envio do Spark, ID do pipeline, Atualização completa do pipeline, Nome do pacote da roda do Python, Ponto de entrada da roda do Python, Parâmetros da roda do Python, SQL Warehouse, ID da consulta SQL, ID do painel SQL, SQL Alert ID, Diretório de projetos DBT, Diretório de perfis DBT, depósito DBT, catálogo DBT, esquema DBT, comandos DBT

    Local externo

    Nome, URL externo, Descrição, Tipo de fonte de dados, Data de criação, criado por, Proprietário

    Credencial de armazenamento

    Nome, Descrição, Credencial, Data de criação, Criado por, responsável

    Volume

    Nome, Descrição, Tipo, Proprietário, Criado por, Criado em, Modificado pela última vez por, Modificado pela última vez em, ID do metastore

    Exibição materializada

    Nome, Definição SQL, Criado, Modificado pela última vez

    Exibição de métrica

    Nome, Descrição, Definição YAML, Tabela de origem, Tipo de tabela de origem, filtro, Criado, Modificado pela última vez

    Relacionamentos entre objetos

    Os metadados colhidos incluem páginas de catálogo para os seguintes tipos de ativos de dados. Cada página do catálogo tem um relacionamento com os outros tipos de ativos de dados relacionados.

    Tabela 2. Relações entre páginas de ativos de dados coletados
    Página de ativo de dados Relacionamentos
    Tabela

    Colunas contidas na tabela

    Esquema
    • Banco de dados que contém o esquema
    • Tabela que faz parte do Esquema
    Banco de dados Esquema contido no banco de dados
    Colunas Tabela que contém a coluna
    Trabalho
    • Clusters usados por tarefas no trabalho
    • Tarefas contidas no trabalho
    Cluster
    • Cluster contido no trabalho
    • Tarefa usando cluster
    Tarefa
    • Trabalho que contém Tarefa
    • Cluster usado pela tarefa
    • Tarefas que dependem da Tarefa
    Notebook
    • Pasta que contém o Bloco de anotações
    • Dados de fornecimento de tarefa do Bloco de anotações
    Pasta
    • Pastas contidas na pasta
    • Blocos de anotações contidos na pasta
    Local externo
    • Usa credencial de armazenamento
    • Conecta-se à fonte de dados (bucket do S3, objeto do S3, contêiner do Azure ou blob do Azure)
    Credencial de armazenamento Usado pelo local externo
    Modelo
    • Registrado no esquema
    • Armazenado em ativos de dados (bucket do S3, objeto do S3)
    Volume
    • Contido no esquema
    • Armazenado em ativos de dados (bucket do S3, objeto do S3)
    Exibição materializada
    • Esquema que contém exibições materializadas
    • Colunas que fazem parte de exibições materializadas
    Exibição de métrica
    • Esquema que contém exibições de métrica
    • Colunas que fazem parte das exibições de métrica

    Linhagem para Databricks

    As seguintes informações de linhagem são coletadas pelo coletor de Databricks.

    Nota:
    O coletor não oferece suporte à linhagem para instruções SQL definidas por meio de instruções variáveis.
    Tabela 3. Disponibilidade de linhagem de objeto
    Objeto Linhagem disponível
    Coluna na exibição O coletor identifica a coluna associada em uma exibição ascendente ou tabela para o metastore Hive e o Catálogo do Unity:
    • De onde os dados são obtidos
    • Que classificam as linhas por meio de ORDENAR POR
    • Que filtram as linhas por WHERE/HAVING
    • Que agregam as linhas por meio de AGRUPAR POR
    Nota:
    As colunas descontinuadas e qualquer linhagem relacionada a essas colunas descontinuadas não são catalogadas.
    Notebook Tarefas que fazem referência ao Bloco de anotações. (Somente se o Catálogo do Unity do Databricks estiver habilitado).
    Tabela
    • O coletor identifica as tabelas ascendentes e descendentes e seus locais externos (ativos de dados S3 e ADLS Gen2) junto com o trabalho intermediário.
    • O coletor coleta a linhagem da tabela Databricks para o objeto S3.

    Autenticação compatível

    O coletor de Databricks oferece suporte à autenticação de token de acesso pessoal e à autenticação principal de serviço OAuth.