Coletor de metadados de Databricks

Versão de lançamento: Australia

Atualizado 12 de mar. de 2026

4 min. de leitura

O coletor de metadados Databricks fornece acesso somente leitura aos metadados de uma conta externa do Databricks.

O coletor colhe metadados de ativos de dados em Metadados do Databricks Hive, Catálogo do Unity (incluindo Delta Lake), Fluxos de trabalho e Blocos de anotações.

Metadados catalogados

O coletor Databricks cataloga as seguintes informações.

Tabela 1. Metadados coletados
Objeto	Informações catalogadas
Colunas	Nome, Descrição, Tipo JDBC, Tipo de Coluna, É Nulável, valor padrão, tamanho da coluna, índice da coluna Metadados estendidos: Marcadores Nota: As colunas descontinuadas e qualquer linhagem relacionada a essas colunas descontinuadas não são catalogadas.
Tabela	Nome, Descrição, Esquema, Chave primária, Chave estrangeira Metadados estendidos: Marcadores, Proprietário, Tipo, Data de criação, Modificado pela última vez, local, Provedor, Versão, Tamanho, Contagem de arquivos, partições, Propriedades
Modelo	Nome, Proprietário, Descrição, Criado por, Criado em, última modificação por, última modificação em, Tipo protegível, Tipo protegível
Exibições	Nome, Descrição, Definição SQL, Marcadores
Esquema	Nome Metadados estendidos: Marcadores
Banco de dados	Tipo, Nome, Servidor, Porta, Ambiente, URL JDBC Metadados estendidos: Marcadores
Notebook	ID do bloco de anotações, caminho, tipo de idioma (SQL, Python, scala, R)
Função	Nome, Descrição, Tipo de função
Trabalho	Título, Descrição, Criador, Criado em, Trabalho executado como, formato, Máximo de execuções simultâneas, Notificação no início, Tempos limite (s), Notificação no sucesso, origem do Git, Notificação sobre falha, marcadores, Lista de tarefas, lista de clusters
Cluster	Nome, Descrição, ID do tipo de nó, ID do tipo de nó do driver, versão do Spark, Número de trabalhadores, máximo de trabalhadores, mínimo de trabalhadores, escala automática, atributos da AWS, marcadores
Tarefa	Chave da tarefa, Tipo de tarefa (Notebook, dbt, Spark jar, script Python, roda Python, tarefa de pipeline, SQL), Tempo limite da tarefa, Intervalo de novas tentativas, Cluster usado pela tarefa, Máximo de novas tentativas, Depende de, Bibliotecas, Notificações (no início, em sucesso, Em caso de falha), Caminho do arquivo do bloco de anotações, Origem do bloco de anotações, Parâmetros do bloco de anotações, Nome da classe principal do Spark Jar, Parâmetros do Spark Jar, Caminho do arquivo de script Python, Parâmetros de script Python, Parâmetros de envio do Spark, ID do pipeline, Atualização completa do pipeline, Nome do pacote da roda do Python, Ponto de entrada da roda do Python, Parâmetros da roda do Python, SQL Warehouse, ID da consulta SQL, ID do painel SQL, SQL Alert ID, Diretório de projetos DBT, Diretório de perfis DBT, depósito DBT, catálogo DBT, esquema DBT, comandos DBT
Local externo	Nome, URL externo, Descrição, Tipo de fonte de dados, Data de criação, criado por, Proprietário
Credencial de armazenamento	Nome, Descrição, Credencial, Data de criação, Criado por, responsável
Volume	Nome, Descrição, Tipo, Proprietário, Criado por, Criado em, Modificado pela última vez por, Modificado pela última vez em, ID do metastore
Exibição materializada	Nome, Definição SQL, Criado, Modificado pela última vez
Exibição de métrica	Nome, Descrição, Definição YAML, Tabela de origem, Tipo de tabela de origem, filtro, Criado, Modificado pela última vez

Relacionamentos entre objetos

Os metadados colhidos incluem páginas de catálogo para os seguintes tipos de ativos de dados. Cada página do catálogo tem um relacionamento com os outros tipos de ativos de dados relacionados.

Tabela 2. Relações entre páginas de ativos de dados coletados
Página de ativo de dados	Relacionamentos
Tabela	Colunas contidas na tabela
Esquema	Banco de dados que contém o esquema Tabela que faz parte do Esquema
Banco de dados	Esquema contido no banco de dados
Colunas	Tabela que contém a coluna
Trabalho	Clusters usados por tarefas no trabalho Tarefas contidas no trabalho
Cluster	Cluster contido no trabalho Tarefa usando cluster
Tarefa	Trabalho que contém Tarefa Cluster usado pela tarefa Tarefas que dependem da Tarefa
Notebook	Pasta que contém o Bloco de anotações Dados de fornecimento de tarefa do Bloco de anotações
Pasta	Pastas contidas na pasta Blocos de anotações contidos na pasta
Local externo	Usa credencial de armazenamento Conecta-se à fonte de dados (bucket do S3, objeto do S3, contêiner do Azure ou blob do Azure)
Credencial de armazenamento	Usado pelo local externo
Modelo	Registrado no esquema Armazenado em ativos de dados (bucket do S3, objeto do S3)
Volume	Contido no esquema Armazenado em ativos de dados (bucket do S3, objeto do S3)
Exibição materializada	Esquema que contém exibições materializadas Colunas que fazem parte de exibições materializadas
Exibição de métrica	Esquema que contém exibições de métrica Colunas que fazem parte das exibições de métrica

Linhagem para Databricks

As seguintes informações de linhagem são coletadas pelo coletor de Databricks.

Nota:

O coletor não oferece suporte à linhagem para instruções SQL definidas por meio de instruções variáveis.

Tabela 3. Disponibilidade de linhagem de objeto
Objeto	Linhagem disponível
Coluna na exibição	O coletor identifica a coluna associada em uma exibição ascendente ou tabela para o metastore Hive e o Catálogo do Unity: De onde os dados são obtidos Que classificam as linhas por meio de ORDENAR POR Que filtram as linhas por WHERE/HAVING Que agregam as linhas por meio de AGRUPAR POR Nota: As colunas descontinuadas e qualquer linhagem relacionada a essas colunas descontinuadas não são catalogadas.
Notebook	Tarefas que fazem referência ao Bloco de anotações. (Somente se o Catálogo do Unity do Databricks estiver habilitado).
Tabela	O coletor identifica as tabelas ascendentes e descendentes e seus locais externos (ativos de dados S3 e ADLS Gen2) junto com o trabalho intermediário. O coletor coleta a linhagem da tabela Databricks para o objeto S3.

Autenticação compatível

O coletor de Databricks oferece suporte à autenticação de token de acesso pessoal e à autenticação principal de serviço OAuth.