Crie um coletor de metadados Databricks

  • Versão de lançamento: Australia
  • Atualizado 12 de mar. de 2026
  • 5 min. de leitura
  • Crie um coletor para importar metadados do Databricks.

    Antes de Iniciar

    Antes de começar, verifique o seguinte:

    Procedimento

    1. Navegar até Tudo > Malha de dados do fluxo de trabalho > Página inicial da malha de dados de fluxo de trabalho.
    2. Selecione o Connect Hub Ícone Connect Hubna barra lateral esquerda.
    3. Selecionar Criar > Coletor de metadados.
    4. Na lista Sistema, selecione Databricks .
    5. No formulário, preencha os campos.
      Tabela 1. Novo formulário de coletor de metadados de Databricks
      Campo Descrição
      Nome da conexão Identificador exclusivo da conexão. Este campo não pode ser modificado depois que a conexão for estabelecida.
      Descrição resumida Finalidade e detalhes da conexão.
    6. Insira os detalhes da configuração de Databricks.
      Tabela 2. Detalhes da configuração
      Campo Descrição
      Servidor Nome de host do servidor de banco de dados ao qual se conectar.
    7. Escolha entre Colete todos os esquemas e. Especifique qual esquema coletar para configurar as opções de coleção de esquemas.
      Tabela 3. Opções de coleta de esquema
      Campo Descrição
      Colete todos os esquemas
      Colete todos os esquemas Catálogo de todos os esquemas aos quais o usuário tem acesso.
      Esquema de exclusão Nome ou expressão regular do esquema do banco de dados a ser excluído.
      Incluir esquema de informações Inclua o Esquema de informações do banco de dados na coleção do catálogo.
      Especifique qual esquema coletar
      Especifique qual esquema coletar Catálogo somente os esquemas especificados.
      Esquema Nome do esquema de banco de dados para catálogo.
    8. Insira os detalhes da configuração de Databricks.
      Tabela 4. Detalhes da configuração
      Campo Descrição
      Porta do servidor Porta do servidor de banco de dados (se não for o padrão).
      Banco de dados Nome do banco de dados ao qual se conectar. Especifique vários bancos de dados adicionando um valor por linha.
      Caminho HTTP de Databricks URL de recursos de computação de Databricks. Consulte Documentação de Databricks para obter detalhes.
      Banco de dados excluído Nome ou expressão regular dos bancos de dados a serem excluídos quando o campo Banco de dados estiver vazio.
      Nota:
      Este parâmetro será ignorado se o campo Banco de dados for especificado.
    9. Configure os detalhes do servidor e as opções de autenticação.
      Tabela 5. Servidor e detalhes de autenticação
      Campo Descrição
      Detalhes do servidor
      Nome de host do servidor de banco de dados ao qual se conectar.
      Opções de autenticação
      Autentique usando token de acesso pessoal Opção para autenticar usando o token de acesso pessoal do Databricks. Para obter detalhes, consulte Documentação de Databricks.
      Autenticar usando a entidade de serviço Databricks Opção para autenticar usando o ID do cliente principal de serviço do Databricks e o segredo do cliente principal de serviço do Databricks.
    10. Configure as estatísticas e as opções de amostragem.
      Tabela 6. Opções de estatísticas e amostragem
      Campo Descrição
      Habilite a coleta de estatísticas de coluna Ative a coleta de estatísticas de coluna (perfil de dados).
      Nota:
      A habilitação da criação de perfil pode aumentar o tempo de execução do coletor porque o coletor deve ler dados da tabela para gerar metadados de criação de perfil.
      Tamanho de amostra de destino para estatísticas de coluna Número de linhas amostradas para cálculo de estatísticas de coluna e histogramas de valor de cadeia de caracteres. Por exemplo, para obter uma amostra de 1000 linhas, defina o parâmetro como 1000.

      Padrão: 100000

      Desabilite a coleção de linhagem Ignorar a coleta de metadados de linhagem intrabanco de dados.
      Desabilite a coleção de metadados estendidos Ignorar a coleta de metadados estendidos para tipos de ativos de dados, como banco de dados, esquema, tabela, funções de colunas, procedimentos armazenados, sinônimos e tipos definidos pelo usuário. Os metadados básicos para esses tipos de ativos de dados ainda serão coletados.
    11. Configure o escopo de colheita e as opções de limites.
      Tabela 7. Opções de escopo e limites de colheita
      Campo Descrição
      Desabilite fluxos de trabalho de colheita Pule a coleta de fluxos de trabalho do Databricks e seus metadados de linhagem.
      Colha linhagem de outros esquemas Colha linhagem de outros esquemas.
      Habilitar coleta de valores de cadeia de caracteres de amostra Ative a amostragem e o armazenamento de valores de amostra para colunas com valor de cadeia de caracteres.
      Exclua funções do sistema Exclua a coleta de funções do sistema de Databricks integradas.
      Desative a colheita de conteúdo do bloco de anotações Pular a colheita de conteúdo do bloco de anotações.
      Tamanho da página para consultas de coleta Especifique o tamanho da página para colher consultas.

      Padrão: 1000

      Tamanho da página para respostas da API Databricks Especifique o tamanho da página para a resposta da API Databricks.

      Padrão: 100

      Ative a colheita de exibições de métrica Ative a colheita de exibições de métrica. As informações de exibição de métrica são extraídas dos metadados estendidos de uma tabela e estão disponíveis somente quando a coleta estendida de metadados está habilitada.
    12. Configure as opções de conexão e confiabilidade.
      Tabela 8. Opções de conexão e confiabilidade
      Campo Descrição
      Ambiente de servidor Nome amigável para o ambiente em que o servidor de banco de dados é executado quando o nome do servidor é localhost. Ajuda a diferenciá-lo de outros ambientes.
      ID do banco de dados Identificador exclusivo para este banco de dados. Usado para gerar o ID do banco de dados quando o nome do banco de dados não é suficientemente exclusivo.
      Propriedades de JDBC Propriedades do driver JDBC para passar para a conexão do driver.
      Máximo de novas tentativas O número de vezes que o sistema tenta novamente uma chamada de API com falha.

      Padrão: 5

      Atraso de nova tentativa O número de segundos a aguardar entre as tentativas de nova tentativa para uma chamada de API com falha.

      Padrão: 2 segundos

      Desabilite a coleção de modelos Pular a colheita de modelos de aprendizado de máquina.
      ID da conta do Databricks O ID da conta do Databricks para acesso ao catálogo do Unity.
      URL do espaço externo O URL do espaço externo para acesso entre espaços.
      Tempo limite de análise de SQL Tempo limite em segundos para análise SQL durante a coleta de linhagem.

      Padrão: 60

    13. Selecione Save (Salvar).

    Resultado

    O coletor de metadados é criado e aparece na página Conectores com um status configurado. Agora, ele está pronto para se conectar ao sistema de origem e colher metadados.

    O que Fazer Depois

    Depois de criar o coletor, você pode executar qualquer uma das seguintes tarefas: