Coletor de metadados de Databricks
O coletor de metadados Databricks fornece acesso somente leitura aos metadados de uma conta externa do Databricks.
O coletor colhe metadados de ativos de dados em Metadados do Databricks Hive, Catálogo do Unity (incluindo Delta Lake), Fluxos de trabalho e Blocos de anotações.
Metadados catalogados
O coletor Databricks cataloga as seguintes informações.
| Objeto | Informações catalogadas |
|---|---|
| Colunas |
Nome, Descrição, Tipo JDBC, Tipo de Coluna, É Nulável, valor padrão, tamanho da coluna, índice da coluna Metadados estendidos: Marcadores Nota:
As colunas descontinuadas e qualquer linhagem relacionada a essas colunas descontinuadas não são catalogadas. |
| Tabela |
Nome, Descrição, Esquema, Chave primária, Chave estrangeira Metadados estendidos: Marcadores, Proprietário, Tipo, Data de criação, Modificado pela última vez, local, Provedor, Versão, Tamanho, Contagem de arquivos, partições, Propriedades |
| Modelo |
Nome, Proprietário, Descrição, Criado por, Criado em, última modificação por, última modificação em, Tipo protegível, Tipo protegível |
| Exibições |
Nome, Descrição, Definição SQL, Marcadores |
| Esquema |
Nome Metadados estendidos: Marcadores |
| Banco de dados |
Tipo, Nome, Servidor, Porta, Ambiente, URL JDBC Metadados estendidos: Marcadores |
| Notebook |
ID do bloco de anotações, caminho, tipo de idioma (SQL, Python, scala, R) |
| Função |
Nome, Descrição, Tipo de função |
| Trabalho |
Título, Descrição, Criador, Criado em, Trabalho executado como, formato, Máximo de execuções simultâneas, Notificação no início, Tempos limite (s), Notificação no sucesso, origem do Git, Notificação sobre falha, marcadores, Lista de tarefas, lista de clusters |
| Cluster |
Nome, Descrição, ID do tipo de nó, ID do tipo de nó do driver, versão do Spark, Número de trabalhadores, máximo de trabalhadores, mínimo de trabalhadores, escala automática, atributos da AWS, marcadores |
| Tarefa |
Chave da tarefa, Tipo de tarefa (Notebook, dbt, Spark jar, script Python, roda Python, tarefa de pipeline, SQL), Tempo limite da tarefa, Intervalo de novas tentativas, Cluster usado pela tarefa, Máximo de novas tentativas, Depende de, Bibliotecas, Notificações (no início, em sucesso, Em caso de falha), Caminho do arquivo do bloco de anotações, Origem do bloco de anotações, Parâmetros do bloco de anotações, Nome da classe principal do Spark Jar, Parâmetros do Spark Jar, Caminho do arquivo de script Python, Parâmetros de script Python, Parâmetros de envio do Spark, ID do pipeline, Atualização completa do pipeline, Nome do pacote da roda do Python, Ponto de entrada da roda do Python, Parâmetros da roda do Python, SQL Warehouse, ID da consulta SQL, ID do painel SQL, SQL Alert ID, Diretório de projetos DBT, Diretório de perfis DBT, depósito DBT, catálogo DBT, esquema DBT, comandos DBT |
| Local externo |
Nome, URL externo, Descrição, Tipo de fonte de dados, Data de criação, criado por, Proprietário |
| Credencial de armazenamento |
Nome, Descrição, Credencial, Data de criação, Criado por, responsável |
| Volume |
Nome, Descrição, Tipo, Proprietário, Criado por, Criado em, Modificado pela última vez por, Modificado pela última vez em, ID do metastore |
| Exibição materializada |
Nome, Definição SQL, Criado, Modificado pela última vez |
| Exibição de métrica |
Nome, Descrição, Definição YAML, Tabela de origem, Tipo de tabela de origem, filtro, Criado, Modificado pela última vez |
Relacionamentos entre objetos
Os metadados colhidos incluem páginas de catálogo para os seguintes tipos de ativos de dados. Cada página do catálogo tem um relacionamento com os outros tipos de ativos de dados relacionados.
| Página de ativo de dados | Relacionamentos |
|---|---|
| Tabela |
Colunas contidas na tabela |
| Esquema |
|
| Banco de dados | Esquema contido no banco de dados |
| Colunas | Tabela que contém a coluna |
| Trabalho |
|
| Cluster |
|
| Tarefa |
|
| Notebook |
|
| Pasta |
|
| Local externo |
|
| Credencial de armazenamento | Usado pelo local externo |
| Modelo |
|
| Volume |
|
| Exibição materializada |
|
| Exibição de métrica |
|
Linhagem para Databricks
As seguintes informações de linhagem são coletadas pelo coletor de Databricks.
| Objeto | Linhagem disponível |
|---|---|
| Coluna na exibição | O coletor identifica a coluna associada em uma exibição ascendente ou tabela para o metastore Hive e o Catálogo do Unity:
Nota: As colunas descontinuadas e qualquer linhagem relacionada a essas colunas descontinuadas não são catalogadas. |
| Notebook | Tarefas que fazem referência ao Bloco de anotações. (Somente se o Catálogo do Unity do Databricks estiver habilitado). |
| Tabela |
|
Autenticação compatível
O coletor de Databricks oferece suporte à autenticação de token de acesso pessoal e à autenticação principal de serviço OAuth.