Snowflakeメタデータコレクターの作成
Snowflake からメタデータをインポートするコレクターを作成します。
始める前に
開始する前に、以下を確認してください。
- コレクター用の MID サーバーがセットアップされます。詳細については、「メタデータコレクター用の MID サーバー」を参照してください。
- 要件ごとのタスクがすべて完了しました。詳細については、「Snowflake コレクターを実行する準備をします」を参照してください。
- 必要なロール:connection-admin
手順
- 移動先 すべて > ワークフローデータファブリック > Workflow Data Fabric ホーム.
-
左側のサイドバーで [コネクトハブ]
を選択します。
- 選択 作成 > メタデータコレクター.
- [システム] リストから [Snowflake] を選択します。
-
フォームに入力します。
表 : 1. 新しい Snowflake メタデータコレクターフォーム フィールド 説明 接続名 接続の一意の識別子。接続が確立されると、このフィールドは変更できません。 簡単な説明 接続の目的と詳細。 -
認証オプションを設定します。
表 : 2. 認証オプション フィールド 説明 ユーザー名とパスワードを使用して認証 ユーザー名 JDBC 接続に使用するユーザー名。 パスワード ユーザーのパスワード。 秘密鍵を使用した認証 ユーザー名 JDBC 接続に使用するユーザー名。 Snowflake 秘密鍵ファイル 認証に使用する秘密鍵ファイルをアップロードします。 秘密鍵ファイルのパスワード 秘密鍵ファイルのパスワード (キーが暗号化され、パスワードが設定されている場合)。 -
[すべてのスキーマを収集] および [収集するスキーマを指定] から選択します。
表 : 3. スキーマ収集オプション フィールド 説明 すべてのスキーマを収集 すべてのスキーマを収集 ユーザーがアクセスできるすべてのスキーマをカタログ化します。 スキーマを除外 除外するデータベーススキーマの名前または正規表現。 情報スキーマを含める データベースの情報スキーマをカタログコレクションに含めます。 収集するスキーマを指定 収集するスキーマを指定 指定されたスキーマのみをカタログ化します。 スキーマ カタログするデータベーススキーマの名前。 -
Snowflake 接続の詳細を入力します。
表 : 4. 接続の詳細 フィールド 説明 サーバー 接続するデータベースサーバーのホスト名。 サーバーポート データベースサーバーのポート (デフォルトでない場合)。 データベース 接続するデータベースの名前。1 行に 1 つの値を追加して、複数のデータベースを指定します。 Snowflake ロール クエリの実行に使用されるロール。 除外データベース [データベース] フィールドが空の場合にデータベースをカタログ化しないことを示す名前または正規表現。 注:[データベース] フィールドが指定されている場合、このパラメーターは無視されます。 -
統計情報とサンプリングオプションを設定します。
表 : 5. 収穫スコープとリネージオプション フィールド 説明 データメトリクス関数情報を収集 データメトリクス関数とテーブルへの関連付けに関するメタデータを収集するオプション。 データメトリクス観察事項数 収集する最新のデータメトリクス観察の数。[データメトリクス関数情報の収集] が有効になっていない限り無視されます。 デフォルト値:1
列統計情報の収集を有効にする 列の統計情報、つまりデータプロファイリングを収集するオプション。 注:このオプションを有効にすると、コレクターはテーブルデータを読み取ってプロファイリングメタデータを収集するため、コレクターの実行時間が長くなる可能性があります。列統計のターゲットサンプルサイズ 列の統計情報と文字列値のヒストグラムを計算するためにサンプリングされた行数。たとえば、1000 行をサンプリングするには、値を 1000 に設定します。 デフォルト:100000
注:[列統計情報の収集を有効にする] が有効になっている場合にのみ適用されます。Snowflake テーブルの使用率情報を収集 人気度など、クエリでの Snowflake テーブルの使用状況に関するメタデータを収集するオプション。データベース内のテーブルごとに、対象テーブルよりも少なくない回数クエリされたテーブルの割合を計算します。 テーブル使用率のルックバック日数 テーブル使用率の収集を開始する過去の日数。 デフォルト:7 日
リネージ収集を無効にする データベース内リネージメタデータの収集をスキップするオプション。 拡張メタデータ収集を無効にする データベース、スキーマ、テーブル、列、関数、ストアドプロシージャ、ユーザー定義型、同義語などのデータ資産タイプの拡張メタデータの収集をスキップするオプション。これらのデータ資産タイプの基本メタデータは引き続き収集されます。 -
収集スコープと制限オプションを構成します。
表 : 6. 収集スコープと制限オプション フィールド 説明 Snowflake タグ情報の収集 データベース設定で指定されたデータベース内またはデータベースに関連付けられている Snowflake タグに関するメタデータを収集するオプション。 すべての Snowflake タグ情報を収集 タグが存在するデータベースに関係なく、Snowflake タグに関するメタデータを収集するオプション。 Snowflakeポリシー情報の収集 データベース設定で指定されたデータベース内またはデータベースに関連付けられている Snowflake マスキングおよび行アクセスポリシーに関するメタデータを収集するオプション。 すべての Snowflake ポリシー情報を収集 Snowflake のマスキングポリシーと行アクセスポリシーに関するメタデータを、それらが存在するデータベースに関係なく収集するオプション。 Streamlitアプリ情報の収集 Snowflake Streamlit アプリケーションに関するメタデータを収集するオプション。 サンプル文字列値の収集を有効にする 文字列データを含む列のサンプル値とヒストグラムを収集するオプション。 注:[列統計情報の収集を有効にする] が有効になっている場合にのみ適用されます。システム機能を除外 組み込みのシステム機能を収集から除外するオプション。 -
接続と信頼性のオプションを構成します。
表 : 7. 接続と信頼性のオプション フィールド 説明 Snowflake ウェアハウス 接続時に使用する Snowflake ウェアハウス。 デフォルト:ユーザーにアサインされたデフォルト倉庫
サーバー環境 データベースサーバーが実行されている環境の分かりやすい名前です。サーバー名が localhost で、他の環境と区別する必要がある場合に便利です。 データベース ID このデータベースの一意の識別子。データベース名が十分に一意でない場合にデータベース ID を生成するために使用されます。 JDBC プロパティ ドライバー接続に渡される JDBC ドライバープロパティ。 SQL 解析タイムアウト リネージ収集中の SQL 解析のタイムアウト (秒)。 デフォルト:60
- [Save (保存)] を選択します。
タスクの結果
メタデータコレクターが作成され、[コネクタ] ページに [構成済み] ステータスで表示されます。これで、ソースシステムに接続してメタデータを収集する準備ができました。
次のタスク
コレクターを作成した後、次のいずれかのタスクを実行できます。
- コレクターを手動で実行して、メタデータをすぐに収集します。「メタデータコレクターを手動で実行する」を参照してください。
- 定期的なコレクターの実行をスケジュールすることで、メタデータ収集を自動化します。「メタデータコレクターの実行をスケジュール」を参照してください。
- ランタイムログを表示して、実行ステータスを監視し、問題のトラブルシューティングを行います。「コレクター実行のランタイムログの表示」を参照してください。
- データカタログで収集されたデータ資産を検出して評価します。「データカタログの管理」を参照してください。