Databricks 메타데이터 수집기 만들기
Databricks에서 메타데이터를 가져오는 수집기를 만듭니다.
시작하기 전에
시작하기 전에 다음을 확인하십시오.
- 수집기용 MID 서버가 설정됩니다. 자세한 내용은 메타데이터 수집기용 MID 서버 문서를 참조하십시오.
- 모든 필수 작업이 완료되었습니다. 자세한 내용은 Databricks 수집기 실행 준비 문서를 참조하십시오.
- 필요한 역할: connection-admin
프로시저
- 다음으로 이동 모두 > 워크플로우 데이터 패브릭 > 워크플로우 데이터 패브릭 홈.
-
왼쪽 사이드바에서 허브
아이콘을 선택합니다.
- 선택 작성 > 메타데이터 수집기.
- 시스템 목록에서 Databricks를 선택합니다.
-
양식에서 필드를 채웁니다.
표 1. 새 Databricks 메타데이터 수집기 양식 필드 설명 연결 이름 연결에 대한 고유 식별자입니다. 연결이 설정되면 이 필드를 수정할 수 없습니다. 간단한 설명 연결의 목적 및 상세 정보입니다. -
Databricks 구성 세부 정보를 입력합니다.
표 2. 구성 상세 정보 필드 설명 서버 연결할 데이터베이스 서버의 호스트 이름입니다. -
스키마 컬렉션 옵션을 구성하려면 모든 스키마 수집과수집할 스키마 지정 중에서 선택합니다.
표 3. 스키마 컬렉션 옵션 필드 설명 모든 스키마 수집 모든 스키마 수집 사용자가 액세스할 수 있는 모든 스키마를 카탈로그화합니다. 스키마 제외 제외할 데이터베이스 스키마의 이름 또는 정규 표현식입니다. 정보 스키마 포함 카탈로그 컬렉션에 데이터베이스의 정보 스키마를 포함합니다. 수집할 스키마 지정 수집할 스키마 지정 지정된 스키마만 카탈로그화합니다. 스키마 카탈로그할 데이터베이스 스키마의 이름입니다. -
Databricks 구성 세부 정보를 입력합니다.
표 4. 구성 상세 정보 필드 설명 서버 포트 데이터베이스 서버의 포트입니다(기본값이 아닌 경우). 데이터베이스 연결할 데이터베이스의 이름입니다. 한 줄에 하나의 값을 추가하여 여러 데이터베이스를 지정합니다. Databricks HTTP 경로 Databricks 컴퓨팅 리소스 URL입니다. 자세한 내용은 Databricks 설명서를 참조하세요. 제외된 데이터베이스 데이터베이스 필드가 비어 있을 때 제외할 데이터베이스의 이름 또는 정규 표현식입니다. 주:데이터베이스 필드가 지정된 경우 이 매개변수는 무시됩니다. -
서버 상세 정보 및 인증 옵션을 구성합니다.
표 5. 서버 및 인증 상세 정보 필드 설명 서버 상세 정보 연결할 데이터베이스 서버의 호스트 이름입니다. 인증 옵션 개인 액세스 토큰을 사용하여 인증 Databricks 개인 액세스 토큰을 사용하여 인증하는 옵션입니다. 자세한 내용은 Databricks 설명서를 참조하세요. Databricks 서비스 주체를 사용하여 인증 Databricks 서비스 주체 클라이언트 ID 및 Databricks 서비스 주체 클라이언트 비밀을 사용하여 인증하는 옵션입니다. -
통계 및 샘플링 옵션을 구성합니다.
표 6. 통계 및 샘플링 옵션 필드 설명 열 통계 컬렉션 사용 열 통계 수집을 활성화합니다(데이터 프로파일링). 주:프로파일링을 활성화하면 수집기가 프로파일링 메타데이터를 생성하기 위해 테이블 데이터를 읽어야 하기 때문에 수집기의 런타임이 늘어날 수 있습니다.열 통계에 대한 대상 샘플 크기 열 통계 및 문자열-값 히스토그램 계산을 위해 샘플링된 행 수입니다. 예를 들어 1,000개의 행을 샘플링하려면 매개변수를 1,000으로 설정합니다. 기본값: 100000
계보 수집 사용 안 함 데이터베이스 내 계보 메타데이터 수집을 건너뜁니다. 확장된 메타데이터 수집 사용 안 함 데이터베이스, 스키마, 테이블, 열 함수, 저장 프로시저, 사용자 정의 유형 및 동의어와 같은 데이터 자산 유형에 대한 확장된 메타데이터 수집을 건너뜁니다. 이러한 데이터 자산 유형에 대한 기본 메타데이터는 여전히 수집됩니다. -
수집 범위 및 제한 옵션을 구성합니다.
표 7. 수집 범위 및 제한 옵션 필드 설명 수집 워크플로우 사용 안 함 Databricks 워크플로 및 해당 계보 메타데이터의 수집을 건너뜁니다. 다른 스키마에서 계보 수집 다른 스키마에서 계보를 수집합니다. 샘플 문자열 값 컬렉션 사용 문자열 값 열에 대한 샘플 값의 샘플링 및 저장을 활성화합니다. 시스템 기능 제외 기본 제공 Databricks 시스템 함수의 수집을 제외합니다. 노트북 콘텐츠 수집 사용 안 함 노트북 콘텐츠 수집을 건너뜁니다. 쿼리 수집을 위한 페이지 크기 쿼리를 수집할 페이지 크기를 지정합니다. 기본값: 1000
Databricks API 응답의 페이지 크기 Databricks API 응답에 대한 페이지 크기를 지정합니다. 기본값: 100
메트릭 뷰 수집 사용 메트릭 뷰 수집을 활성화합니다. 메트릭 뷰 정보는 테이블의 확장된 메타데이터에서 추출되며 확장된 메타데이터 수집이 활성화된 경우에만 사용할 수 있습니다. -
연결 및 안정성 옵션을 구성합니다.
표 8. 연결 및 안정성 옵션 필드 설명 서버 환경 서버 이름이 localhost일 때 데이터베이스 서버가 실행되는 환경에 대한 식별 이름입니다. 다른 환경과의 차별화에 도움이 됩니다. 데이터베이스 ID 이 데이터베이스의 고유 식별자입니다. 데이터베이스 이름이 충분히 고유하지 않은 경우 데이터베이스 ID를 생성하는 데 사용됩니다. JDBC 속성 드라이버 연결에 전달할 JDBC 드라이버 속성입니다. 최대 재시도 시스템에서 실패한 API 호출을 재시도하는 횟수입니다. 기본값: 5
재시도 지연 실패한 API 호출에 대한 재시도 시도 사이에 기다리는 시간(초)입니다. 기본값: 2초
모델 컬렉션 사용 안 함 머신 러닝 모델 수집을 건너뜁니다. Databricks 계정 ID Unity 카탈로그 액세스를 위한 Databricks 계정 ID입니다. 외부 작업 공간 URL 작업 공간 간 액세스를 위한 외부 작업 공간 URL입니다. SQL 구문 분석 시간 제한 계보 수집 중 SQL 구문 분석 시간 제한(초)입니다. 기본값: 60
- 저장을 선택합니다.
결과
메타데이터 수집기가 생성되고 커넥터 페이지에 구성됨 상태로 나타납니다. 이제 소스 시스템에 연결하고 메타데이터를 수집할 준비가 되었습니다.
다음에 수행할 작업
수집기를 생성한 후에는 다음 작업을 수행할 수 있습니다.
- 수집기를 수동으로 실행하여 메타데이터를 즉시 수집합니다. 메타데이터 수집기 수동 실행 문서를 참조하십시오.
- 정기적인 수집기 실행 일정을 예약하여 메타데이터 수집을 자동화합니다. 메타데이터 수집기 실행 예약 문서를 참조하십시오.
- 런타임 로그를 확인하여 실행 상태를 모니터링하고 문제를 해결합니다. 수집기 실행에 대한 런타임 로그 보기 문서를 참조하십시오.
- 데이터 카탈로그에서 수집된 데이터 자산을 검색하고 평가합니다. 관리 데이터 카탈로그 문서를 참조하십시오.