回帰ソリューションの作成とトレーニング

  • リリースバージョン: Washingtondc
  • 更新日 2024年02月01日
  • 1 読むのに数分読む
  • 履歴データを使用してソリューションをトレーニングし、気温や株価などの数値出力を予測します。たとえば、回帰を使用して、インシデントやケースの解決にかかる時間を見積もることができます。

    始める前に

    重要:
    新しい回帰ソリューションのサポートは、このリリースで Washington DC 廃止されました。既存のソリューションの編集とトレーニングは引き続きできますが、新しいソリューションを作成することはできません。

    必要なロール:ml_admin または admin

    このタスクについて

    回帰ソリューションを使用すると、ポイント推定と予測間隔を予測できます。結果のモデルでは、次の統計情報が得られます。
    • 平均絶対誤差 (MAE) は、予測値と実際の値の平均偏差を測定します。この測定基準は、スケールがターゲットのスケールと同じであるため、理解しやすいため便利です。ただし、MAEは無制限であるため、モデル間で比較することは困難です。
    • 対称平均絶対パーセント誤差 (SMAPE) は、予測値から実際値までの偏差のパーセンテージ値です。SMAPE は MAE の有界バージョンですが、値の範囲が 0 から 100 である点が異なります。SMAPE 値が低いほど、モデルの精度は高くなります。
    • 範囲精度 は、予測された範囲間の実際の値の割合です。つまり、予測の上限と下限の間の範囲です。たとえば、5 つの実測値のうち 4 つが予測範囲内にある場合、範囲の精度は 80% です。
    • 平均間隔幅 は、予測の上限と下限の差です。この測定基準は、間隔がどれほど有益であるかを説明します。平均幅が小さいほど、モデルは優れています

    予測を行う場合、回帰では、予測間隔 (範囲) の信頼性レベルを指定することもできます。

    この手順例では、回帰ソリューション定義を作成してトレーニングし、クラウドデータベースの復元にかかる時間を予測します。

    手順

    1. 移動先 すべて > 予測インテリジェンス > 回帰 > ソリューション定義.
    2. 「回帰定義」リストで、「 新規」をクリックします。
    3. [回帰定義] フォームで、次のガイドラインに従ってこれらのフィールドを構成します。
      フィールド
      ラベル 回帰ソリューションの一意の名前を入力します。たとえば、このユースケースでは、「 DB 復元の回帰テスト」と入力できます。
      名前 ソリューションラベル値を入力すると、このフィールドには、ラベル値に類似したシステムアサインされた名前が自動的に入力されます。
      ワードコーパス

      ソリューションに関連する既存のワードコーパスを選択します。たとえば、このユースケースでは、「 過去 3 か月間のインシデント」などのタイトルを持つワードコーパスを選択します。

      関連するワードコーパスがない場合は、まず手順に従って ワードコーパスを作成します 。ワードコーパスが完成したら、[回帰定義] フォームの [ワードコーパス] フィールドでそれを選択できます。

      ただし、ワードコーパスの選択はオプションです。入力データにテキスト列があり、ワードコーパスを選択しない場合、回帰ソリューションでは、入力データのテキスト列を使用して新しいワードコーパスモデルのトレーニングが行われます。結果のワードコーパスは、他の回帰ソリューションや他の ML ソリューションタイプで再利用できます。

      注:
      Utahアクティブ化予測インテリジェンスしたユーザーに対しては、ワードコーパスの代わりに事前トレーニング済みモデルが使用されます。
      テーブル 回帰を適用するデータベーステーブルを選択します。テーブルには、システムがデータベース復元の時間を予測するために使用できる履歴レコードが含まれている必要があります。
      出力フィールド

      予測モデルで値を設定するフィールドを選択します。

      一般に、適切な出力フィールドは、数値、整数、または浮動小数点フィールドです。

      この例のシナリオでは、[ 期間 ] フィールドを使用して時間の長さを測定します。出力フィールドでは数値を生成する必要があります。

      Fields 回帰によりトレーニングするレコードをシステムで特定できるように、1 つ以上のフィールドタイプを選択します。このシナリオ例では、[ 簡単な説明]、[ ソースデータセンター]、[ ターゲットデータセンター]、および [データベースサイズ] を使用します。(short_description、Sourcedc、Targetdc、および Dbsize)。入力フィールドタイプは、文字列、名目値、または数値です。
      フィルター (オプション)回帰によりトレーニングする出力フィールドレコードにフィルター条件を追加します。
      注:
      • 回帰トレーニングの最小レコード数は 10,000 レコードです。
      • 回帰トレーニングの最大レコード数は 30 万レコードです。
      処理言語 ソリューション定義でトレーニングしているデータセットのプライマリ言語を選択します。データセットの言語がイタリア語の場合は、[イタリア語] を選択します。また、デフォルトでは、すべてのデータセットに英語の処理が適用されます。たとえば、イタリア語を選択した場合、システムは英語とイタリア語の両方でデータを処理します。
      注:
      「処理」という用語は、ソリューションのトレーニングの一環として使用される言語固有の手順の一部を示します。これらの手順には、単語のトークン化、ストップワードの削除、語幹の解釈などが含まれます。
      ストップワード 処理言語を選択した場合、システムは同じ言語を使用しているストップワードリストを自動的に追加します。たとえば、処理言語がイタリア語の場合、[ デフォルトのイタリア語のストップワード ] リストが表示されます。選択すると、[ デフォルトの英語のストップワード (Default English Stopwords )] リストも表示されます。カスタムストップワードリストを作成する場合は、[ストップワード] フィールドから選択して、それをソリューションに追加します。このシナリオでは、[デフォルトの英語のストップワード (Default English Stopwords)] リストを使用します。
      トレーニング頻度
      [フィルター] と一致するレコードに基づいて、システムがソリューションを再生成する頻度を選択します。次の選択肢があります。
      • 1 回実行
      • 30 日ごと
      • 60 日ごと
      • 90 日ごと
      • 120 日ごと
      • 180 日ごと

      このシナリオでは、[30 日ごと] を選択します。

      デフォルトでは、システムはトレーニングを 1 回実行します。このプラクティスにより、許容される範囲と精度の値が提供されるまで、必要に応じてソリューション定義をレビューして更新する時間が与えられます。

      注:
      • 回帰ソリューションのトレーニングに必要なレコードの最小数は、10,000 に設定されています。
      • ML スケジューラーは、インスタンスがコミットできるトレーニングの数を、24 時間枠でインスタンスあたり 50 件の新規 ML トレーニング要求に制限します。この制限により、スケジュールされた再トレーニングの要求は除外されます。さらに、新規トレーニング要求が 24 時間枠内で 50 件を超えた場合でも、クラスタリングと類似性の更新もこの制限から除外されます。
    4. ソリューション定義に該当するコンテキストメニューのオプションまたはボタンをクリックします。
      オプション説明
      [保存] または [保存してトレーニング] ソリューション定義レコードを保存して、後でそれに戻ることができるようにするか、または保存して、それをトレーニング用に送信します。
      [送信] または [送信してトレーニング] ソリューション定義レコードを作成して、それを送信するか、または送信してトレーニングします。
    5. トレーニング用にソリューションを送信した場合は、[トレーニングのアクティブ化] ウィンドウで [OK] をクリックして確定します。

      システムは、最寄りのトレーニングサービスでトレーニングを受けるようにソリューションをスケジュールします。トレーニングが完了すると、それを知らせる通知が送信されます。トレーニング中にエラーが発生した場合には、そのエラーも通知に記載されます。他のユーザーは、予測インテリジェンス通知カテゴリに登録できます。トレーニングが完了すると、ソリューションは添付ファイルレコードとしてアップロードされます。

    次のタスク

    このシナリオ例では、ソリューション定義から ML ソリューションを作成しました。ML ソリューションの [関連リンク] セクションに、[ソリューション統計情報]、[ソリューションをテスト]、[ソリューション定義] タブが表示されます。

    [ソリューション統計情報] タブで、ソリューションによって生成されたポイント推定と範囲 (予測間隔) の統計情報を確認します。

    作成してトレーニングしたソリューションの予測統計情報。

    ソリューションの [ソリューションをテスト] タブで、[ ソースデータセンター]、[ ターゲットデータセンター]、[ データベースサイズ] などの入力フィールドに値を入力することで、予測への入力として使用したレコードの予測出力をテストできます。また、デフォルトの予測信頼レベルである 95 を使用するか、0 から 100 までの異なるレベルを入力することができます。値として 95 を使用することは、実際の予測が予測間隔内に収まる確度が 95% であることを意味します。[テストを実行] ボタンをクリックして予測出力を検索します。

    予測出力テストを実行するために入力する必要がある値。

    テストの実行後に、予測出力の統計情報が表示されます。画面上の [ポイント推定] は、ある時点での単一の値です。たとえば、データベースの復元が完了するまでに 134.47 秒かかります。画面の下限と上限は、範囲の精度値を示します。たとえば、データベースの復元が完了するまでに 84.53 秒から 185.41 秒かかります。

    ポイント推定および範囲精度予測のテスト出力値。