回帰ソリューションの作成とトレーニング

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:7分
  • 履歴データを使用してソリューションをトレーニングし、温度や株価などの数値出力を予測します。たとえば、回帰を使用して、インシデントやケースの解決にかかる時間を見積もることができます。

    始める前に

    重要:
    新しい回帰ソリューションのサポートは、 Yokohama リリースで廃止されました。既存のソリューションの編集とトレーニングは引き続きできますが、新しいソリューションを作成することはできません。

    必要なロール:ml_admin または admin

    このタスクについて

    回帰ソリューションを使用すると、ポイント推定と予測間隔を予測できます。結果のモデルは、次の統計を提供します。
    • 平均絶対誤差 (MAE) は、実際の値からの予測値の平均偏差を測定します。このメトリクスは、そのスケールがターゲットと同じであるため、理解しやすいため便利です。ただし、MAEは制限がないため、モデル間で比較することは困難です。
    • 対称平均絶対パーセント誤差 (SMAPE)は、予測値と実際偏差のパーセンテージ値です。SMAPE は、値の範囲が 0 〜 100 である点を除いて、MAE のバインド バージョンです。SMAPE 値が低いほど、モデルの精度は高くなります。
    • 範囲の精度 は、予測範囲間の実際の値の割合です。つまり、予測の上限と下限の範囲です。たとえば、5 つの実績のうち 4 つが予測範囲内にある場合、範囲の精度は 80% です。
    • 平均間隔幅 は、予測の上限と下限の差です。このメトリクスは、間隔がどの程度有益であるかを説明します。平均幅が小さいほど、モデルは優れています

    予測を行う場合、回帰では、予測間隔 (範囲) の信頼性レベルを指定することもできます。

    この手順例では、回帰ソリューション定義を作成してトレーニングし、クラウドデータベースの復元にかかる時間を予測します。

    手順

    1. 次のように移動する。 All (すべて) > 予測インテリジェンス > 回帰 > ソリューション定義.
    2. 「回帰定義」リストで、「 新規」をクリックします。
    3. [回帰定義] フォームで、次のガイダンスに従ってこれらのフィールドを設定します。
      フィールド
      ラベル 回帰ソリューションの一意の名前を入力します。たとえば、このユースケースでは、「 DB 復元の回帰テスト」と入力できます。
      [Name (名前)] ソリューションラベル値を入力すると、このフィールドには、ラベル値に類似したシステムアサインされた名前が自動的に入力されます。
      ワードコーパス

      ソリューションに関連する既存のワードコーパスを選択します。たとえば、このユースケースでは、「 過去 3 か月間のインシデント」などのタイトルを持つワードコーパスを選択します。

      関連するワードコーパスがない場合は、最初に ワードコーパスを作成する 手順に従います。ワードコーパスが完成したら、[回帰定義] フォームの [ワードコーパス] フィールドでそれを選択できます。

      ただし、ワードコーパスの選択はオプションです。入力データにテキスト列があり、ワードコーパスを選択しない場合、回帰ソリューションでは、入力データのテキスト列を使用して新しいワードコーパスモデルのトレーニングが行われます。結果のワードコーパスは、他の回帰ソリューションや他の ML ソリューションタイプで再利用できます。

      注:
      Utah 以降に予測インテリジェンスをアクティブ化したユーザーの場合、ワードコーパスの代わりに事前トレーニング済みモデルが使用されます。
      テーブル 回帰を適用するデータベーステーブルを選択します。テーブルには、システムがデータベースの復元にかかる時間を予測するために使用できる履歴レコードが含まれている必要があります。
      出力フィールド

      予測モデルで値を設定するフィールドを選択します。

      一般に、適切な出力フィールドは、数値、整数、または浮動小数点フィールドです。

      この例のシナリオでは、[ 期間 ] フィールドを使用して時間の長さを測定します。出力フィールドでは数値を生成する必要があります。

      Fields 回帰によりトレーニングするレコードをシステムで特定できるように、1 つ以上のフィールドタイプを選択します。この例のシナリオでは、[ 簡単な説明]、[ ソースデータセンター]、[ ターゲットデータセンター]、および [データベースサイズ] を使用します。(short_description、Sourcedc、Targetdc、および Dbsize)。入力フィールドタイプは、文字列、公称値、または数値です。
      フィルター (オプション)回帰を使用してトレーニングする出力フィールドレコードにフィルター条件を追加します。
      注:
      • 回帰トレーニングの最小レコード数は 10,000 レコードです。
      • 回帰トレーニングの最大レコード数は 30 万レコードです。
      処理言語 ソリューション定義でトレーニングするデータセットのプライマリ言語を選択します。データセットの言語がイタリア語の場合は、[イタリア語] を選択します。また、デフォルトでは、すべてのデータセットに英語の処理が適用されます。たとえば、イタリア語を選択した場合、システムは英語とイタリア語の両方でデータを処理します。
      注:
      「処理」という用語は、ソリューションのトレーニングの一環として使用される言語固有の手順の一部を示します。これらの手順には、単語のトークン化、ストップワードの削除、語幹の解釈などが含まれます。
      ストップワード 処理言語を選択した場合、システムは同じ言語を使用しているストップワードリストを自動的に追加します。たとえば、処理言語がイタリア語の場合、[ デフォルトのイタリア語のストップワード ] リストが表示されます。選択内容には、[ デフォルトの英語のストップワード (Default English Stopwords )] リストも表示されます。カスタムストップワードリストを作成する場合は、[ストップワード] フィールドから選択して、それをソリューションに追加します。このシナリオでは、[デフォルトの英語のストップワード (Default English Stopwords)] リストを使用します。
      トレーニング頻度
      [フィルター] と一致するレコードに基づいて、システムがソリューションを再生成する頻度を選択します。次の選択肢があります。
      • 1 回実行
      • 30 日ごと
      • 60 日ごと
      • 90 日ごと
      • 120 日ごと
      • 180 日ごと

      このシナリオでは、[30 日ごと] を選択します。

      デフォルトでは、システムはトレーニングを 1 回実行します。このプラクティスにより、許容される範囲と精度の値が提供されるまで、必要に応じてソリューション定義をレビューして更新する時間が与えられます。

      注:
      • 回帰ソリューション トレーニングに必要なレコードの最小数は 10,000 に設定されています。
      • ML スケジューラーは、インスタンスがコミットできるトレーニングの数を、24 時間枠でインスタンスあたり 50 件の新規 ML トレーニング要求に制限します。この制限では、再トレーニングのスケジュール設定済み要求は除外されます。さらに、新規トレーニング要求が 24 時間枠内で 50 件を超えた場合でも、クラスタリングと類似性の更新もこの制限から除外されます。
    4. ソリューション定義に該当するコンテキストメニューのオプションまたはボタンをクリックします。
      オプション説明
      [保存] または [保存してトレーニング] ソリューション定義レコードを保存して、後でそれに戻ることができるようにするか、または保存して、それをトレーニング用に送信します。
      [送信] または [送信してトレーニング] ソリューション定義レコードを作成して、それを送信するか、または送信してトレーニングします。
    5. トレーニング用にソリューションを送信した場合は、[トレーニングのアクティブ化] ウィンドウで [OK] をクリックして確定します。

      システムは、最寄りのトレーニングサービスでトレーニングを受けるようにソリューションをスケジュールします。トレーニングが完了すると、それを知らせる通知が送信されます。トレーニング中にエラーが発生した場合には、そのエラーも通知に記載されます。他のユーザーは、予測インテリジェンス通知カテゴリに登録できます。トレーニングが完了すると、ソリューションは添付ファイルレコードとしてアップロードされます。

    次のタスク

    この例のシナリオでは、ソリューション定義から ML ソリューションを作成しました。[ソリューション統計情報]、[ソリューションをテスト]、および [ソリューション定義] タブは、ML ソリューションの [関連リンク] セクションに表示されます。

    [ソリューション統計] タブで、ソリューションによって生成されたポイント推定と範囲 (予測間隔) の統計を確認します。

    作成してトレーニングしたソリューションの予測統計。

    ソリューションの [ソリューションをテスト] タブで、[ ソースデータセンター]、[ ターゲットデータセンター]、[ データベースサイズ] などの入力フィールドに値を入力することで、予測への入力として使用したレコードの予測出力をテストできます。また、デフォルトの予測信頼レベルである 95 を使用するか、0 から 100 までの異なるレベルを入力することができます。値として 95 を使用することは、実際の予測が予測間隔内に収まる確度が 95% であることを意味します。[テストを実行] ボタンをクリックして予測出力を検索します。

    予測出力テストを実行するために入力する必要がある値。

    テストの実行後に、予測出力の統計情報が表示されます。画面上の [ポイント推定] は、ある時点での単一の値です。たとえば、データベースの復元が完了するまでに 134.47 秒かかります。画面上の下限と上限は、範囲の精度の値を示します。たとえば、データベースの復元が完了するまでに 84.53 秒から 185.41 秒かかります。

    ポイント推定と範囲精度の予測のテスト出力値。