회귀 솔루션 생성 및 교육

  • 릴리스 버전: Yokohama
  • 업데이트 날짜 2025년 01월 30일
  • 읽기5분
  • 온도 또는 주가와 같은 숫자 출력을 예측하기 위해 기록 데이터를 사용하여 솔루션을 교육합니다. 예를 들어 회귀를 사용하여 인시던트 또는 케이스를 해결하는 데 걸리는 시간을 예측할 수 있습니다.

    시작하기 전에

    중요사항:
    새 회귀 솔루션에 대한 지원은 릴리스에서 Yokohama 사용되지 않습니다. 기존 솔루션을 편집하고 교육할 수 있지만 새 솔루션을 만들 수는 없습니다.

    필요한 역할: ml_admin 또는 admin

    이 태스크 정보

    회귀 솔루션을 사용하면 포인트 추정치와 예측 간격을 예측할 수 있습니다. 결과 모델은 다음과 같은 통계를 제공합니다.
    • MAE(평균 절대 오차 )는 실제 값에서 예측된 값의 평균 편차를 측정합니다. 이 메트릭은 규모가 대상의 규모와 동일하기 때문에 이해하기 쉽기 때문에 유용합니다. 그러나 MAE는 무제한이므로 모델 간에 비교하기가 어렵습니다.
    • 대칭평균 절대백분율오차 (SMAPE)는 예측된 편차에서 실제까지의 편차에 대한 백분율 값입니다. SMAPE는 0에서 100 사이의 값 범위를 갖는 것을 제외하고는 MAE의 경계 버전입니다. SMAPE 값이 낮을수록 모델 정확도가 좋습니다.
    • 범위 정확도 는 예측된 범위 간 실제 값의 백분율입니다. 즉, 예측의 상한과 하한 사이의 범위입니다. 예를 들어 실제 값 5개 중 4개가 예측 범위 내에 있는 경우 범위 정확도는 80%입니다.
    • 평균 간격 너비 는 예측의 상한과 하한 간의 차이입니다. 이 메트릭은 간격이 얼마나 유익한지 설명합니다. 평균 너비가 작을수록 모델이 더 좋습니다

    예측을 할 때 회귀를 사용하면 예측 간격(범위)에 대한 신뢰도 수준을 지정할 수도 있습니다.

    이 예시 절차에서는 클라우드 데이터베이스를 재개하는 데 걸리는 시간을 예측하는 회귀 솔루션 정의를 만들고 학습시킵니다.

    프로시저

    1. 다음으로 이동 모두 > 예측 인텔리전스 > 회귀 > 솔루션 정의.
    2. 회귀 정의 목록에서 새로 만들기를 클릭합니다.
    3. 회귀 정의 양식에서 다음 지침에 따라 이러한 필드를 구성합니다.
      필드
      레이블 회귀 솔루션의 고유한 이름을 입력합니다. 예를 들어 이 사용 사례에서는 DB 복원에 대한 회귀 테스트를 입력할 수 있습니다.
      이름 솔루션 레이블 값을 입력하면 이 필드는 레이블 값과 유사한 시스템 할당 이름으로 자동으로 채워집니다.
      Word 말뭉치

      솔루션과 관련된 기존 단어 말뭉치를 선택합니다. 예를 들어 이 사용 사례에서는 지난 3개월 동안의 인시던트와 같이 제목이 있는 단어 말뭉치를 선택합니다.

      관련 단어 말뭉치가 없는 경우 단계에 따라 먼저 단어 말뭉치를 만듭니다 . 단어 말뭉치가 완료되면 회귀 정의 양식의 단어 말뭉치 필드에서 단어 말뭉치를 선택할 수 있습니다.

      하지만 단어 말뭉치 선택은 선택 사항입니다. 입력 데이터에 텍스트 열이 있으며 단어 말뭉치를 선택하지 않으면 회귀 솔루션은 입력 데이터의 텍스트 열을 사용하여 새 단어 말뭉치 모델을 교육합니다. 그렇게 만들어진 단어 말뭉치는 다른 회귀 솔루션 또는 기타 ML 솔루션 유형에서 다시 사용할 수 있습니다.

      주:
      에서 시작하여 Utah활성화 예측 인텔리전스 한 사용자에 대해 단어 말뭉치 대신 미리 학습된 모델이 사용됩니다.
      테이블 회귀를 적용할 데이터베이스 테이블을 선택합니다. 테이블에는 시스템이 데이터베이스 복원 시간을 예측하는 데 사용할 수 있는 기록 레코드가 포함되어야 합니다.
      출력 필드

      예측 모델을 설정할 값이 있는 필드를 선택합니다.

      일반적으로 양호한 출력 필드는 숫자, 정수 또는 부동 소수점 필드입니다.

      이 예시 시나리오에서는 기간 필드를 사용하여 시간의 길이를 측정합니다. 출력 필드는 숫자 값을 생성해야 합니다.

      필드 시스템이 회귀를 사용하여 교육할 기록을 식별하는 데 도움이 되는 하나 이상의 필드 유형을 선택합니다. 이 예제 시나리오에서는 간단한 설명, 원본 데이터 센터, 대상 데이터 센터데이터베이스 크기를 사용합니다. (short_description, sourcedc, targetdc 및 dbsize) 입력 필드 유형은 문자열, 명목 또는 숫자일 수 있습니다.
      필터 (선택 사항) 회귀를 사용하여 교육하려는 출력 필드 기록에 필터 조건을 추가합니다.
      주:
      • 회귀 교육의 최소 기록 수는 10,000개입니다.
      • 회귀 교육의 최대 기록 수는 300,000개로 제한됩니다.
      처리 언어 솔루션 정의에서 교육할 데이터 세트의 기본 언어를 선택합니다. 데이터 세트 언어가 이탈리아어인 경우 이탈리아어를 선택합니다. 또한 기본적으로 모든 데이터 세트에 영어 처리가 적용됩니다. 예를 들어, 이탈리아어를 선택하면 시스템이 데이터를 영어와 이탈리아어로 처리합니다.
      주:
      처리 중이라는 용어는 솔루션 교육의 일부로 사용되는 언어별 단계를 나타냅니다. 이러한 단계에는 단어 토큰화, 스톱 워드 제거 및 어간 추출이 포함됩니다.
      스톱 워드 처리 언어를 선택하면 시스템이 자동으로 동일한 언어를 사용하는 스톱 워드 목록을 추가합니다. 예를 들어, 처리 언어가 이탈리아어인 경우 기본 이탈리아어 스톱 워드 목록이 표시됩니다. 기본 영어 스톱 워드 목록도 선택 항목에 표시됩니다. 사용자 지정 스톱 워드 목록을 만드는 경우 스톱 워드 필드에서 선택하고 솔루션에 추가할 수 있습니다. 이 시나리오에서는 기본 영어 스톱 워드 목록을 사용합니다.
      교육 빈도
      시스템이 필터와 일치하는 기록을 기반으로 솔루션을 다시 생성하는 빈도를 선택합니다. 옵션은 다음과 같습니다.
      • 한 번 실행
      • 30일마다
      • 60일 마다
      • 90일마다
      • 120일마다
      • 180일마다

      이 시나리오에서는 30일마다를 선택합니다.

      기본적으로 시스템에서 교육을 한 번 실행합니다. 이 연습에서는 허용 가능한 범위와 정확도 값을 제공할 때까지 필요한 만큼 솔루션 정의를 검토하고 업데이트할 시간이 제공됩니다.

      주:
      • 회귀 솔루션 교육에 필요한 최소 레코드 수는 10,000개로 설정되어 있습니다.
      • ML 스케줄러는 인스턴스가 커밋할 수 있는 교육 수를 24시간 내에 인스턴스당 50개의 새로운 ML 교육 요청으로 제한합니다. 이 제한에서 예약된 재교육 요청은 제외됩니다. 또한 클러스터링 및 유사성 업데이트는 새 교육 요청이 24시간 내에 50개를 초과하는 경우에도 이 제한에서 제외됩니다.
    4. 솔루션 정의에 대한 적절한 컨텍스트 메뉴 옵션 또는 버튼을 클릭합니다.
      옵션설명
      저장 또는 저장 및 교육 솔루션 정의 기록을 저장하여 나중에 반환하거나 교육을 위해 저장하고 제출할 수 있습니다.
      제출 또는 제출 및 교육 솔루션 정의 기록을 만들고 제출하거나 제출하고 교육합니다.
    5. 교육용 솔루션을 제출한 경우에는 교육 활성화 창에서 확인을 클릭하여 확인합니다.

      가장 가까운 교육 서비스를 사용하여 솔루션 교육이 예약됩니다. 교육이 완료되면 시스템에서 알림을 전송하며, 이 알림에는 교육에서 발생했을 수 있는 모든 오류가 포함됩니다. 다른 사용자가 예측 인텔리전스 알림 범주를 구독할 수 있습니다. 교육이 완료되면 시스템에서 솔루션을 첨부 레코드로 업로드합니다.

    다음에 수행할 작업

    이 예시 시나리오에서는 솔루션 정의에서 ML 솔루션을 생성했습니다. 솔루션 통계, 테스트 솔루션 및 솔루션 정의 탭은 ML 솔루션의 관련 링크 섹션에 나타납니다.

    솔루션 통계 탭에서 솔루션에서 생성된 포인트 추정치 및 범위(예측 구간) 통계를 검토합니다.

    만들고 교육한 솔루션에 대한 예측 통계입니다.

    솔루션의 테스트 솔루션 탭에서 소스 데이터센터, 대상 데이터센터데이터베이스 크기와 같은 입력 필드 값을 입력하여 예측에 대한 입력으로 사용한 기록에 대한 예측 출력을 테스트할 수 있습니다. 기본 예측 신뢰도 수준인 95를 사용하거나 0100 사이의 다른 수준을 입력할 수 있습니다. 95를 값으로 사용하는 것은 시스템에서 실제 예측이 예측 간격 내에 있으리라고 95% 신뢰한다는 뜻입니다. 예측 출력을 찾으려면 테스트 실행 버튼을 클릭합니다.

    예측 출력 테스트를 실행하기 위해 입력해야 하는 값입니다.

    테스트를 실행하면 예측 출력 통계가 나타납니다. 화면의 포인트 추정치는 한 시점의 단일 값입니다. 예를 들어 데이터베이스 복원을 완료하는 데 134.47초가 걸립니다. 화면의 하한 및 상한은 범위 정확도 값을 나타냅니다. 예를 들어 데이터베이스 복원을 완료하는 데 84.53초에서 185.41초가 걸립니다.

    포인트 추정치 및 범위 정확도 예측에 대한 테스트 출력 값입니다.