본문 바로가기
IT - SAP & SAC/SAC - 계획

[SAC] 예측 시나리오 - 분류모델

by 오는정 가는정 갓은정 2022. 10. 5.
반응형

 

예측 시나리오

 

미래의 이벤트, 추세를 예측해야하는 비즈니스 안건을 해결하기 위해 예측 모델과 리포트를 생성하고 예측 인사이트를 도출할 수 있는 작업이다.

아래 3가지 예측 시나리오를 생성하고 작업해보는 방법을 소개하고자 한다.

 

 

분류 – 고객의 행동, 구매 성향 및 실패 리스크를 예측

회귀 - 숫자 값을 예측하고 해당 영향 요인을 식별 (연속된 값 예측)

시계열 예측 – 차원의 각 값에 대해 생성된 개별 예측으로 시계열 예측을 생성

 

 

 


1. 분류 모델 (분류 분석)

과거 관찰값을 훈련 데이터 세트의 기준으로 하여 새로운 관찰값이 속한 범주를 식별하는 분석이며,대상 변수는 이진 명목 변수이다. 아래와 같은 예를 들 수 있다.

- 고객이 마케팅 캠페인에 응답할지 미응답 할지 여부 결정

- 은행 대출 신청을 안전 혹은 위험으로 분류

- 퇴사 가능성이 있는 직원 파악 

 

 

분류 모델 예측 시나리오 활용 방법

 

(1) 예측 시나리오 ▶ 분류 선택

출처:SAP

(2) 신규 예측 시나리오 팝업화면에서 시나리오명 및 내역 추가

출처:SAP

(3) 훈련 데이터 소스 선택 ▶  세부사항 점검 ▶ 제외 변수 선택 ▶ 모델 생성 (=훈련)

      훈련 데이터 세트에는 예측 모델을 생성하는 데 사용될 과거 관찰값이 포함된다.
      변수 역할

       ㄴ 대상변수: 설명할 변수 또는 가값을 예측하려는 번수

       ㄴ 영향력 행사자 변수: 영향 요인은 데이터를 설명하고 대상 변수를 설명하는 변수

출처:SAP

 

예측 모델을 훈련 시, 데이터 세트에 포함된 여러 변수 간의 관계를 탐색하여 분석한다.

예측 모델 리스트에서 예측 모델이 정상적으로 훈련되었는지 혹은 훈련 실패되었는지 상태 확인이 가능하다.

훈련에 실패할 경우 안경 아이콘을 선택하여 상태 패널을 확인하면 된다. 

 

 

 

모델 리포트는 아래와 같은 정보를 제공한다.

* 개요 리포트
- 예측력
- 예측 신뢰도
- 대상 통계 (유의미한 결과값을 위해 1000개 이상의 레코드가 있는 것이 좋음)
- 상위 5개의 영향 요인 기여도
- % 검색된 대상 그래프

--------------------------------------

* 영향 요인 기여도 리포트
- 모든 영향 요인 기여도 (기여도 총 합은 1)
- 그룹화된 범주 영향
- 그룹화된 범주 통계

---------------------------------

* 오분류 행렬
-수익 시뮬레이션 리포트
-성능 곡선 보고서그림

 

※ 분류 모델 분석

 

출처:SAP

 

 

예측력과 예측 신뢰도의 성과 지표가 의미하는 바

  •  예측력: 훈련 데이터 소스에 있는 영향 요인을 사용하여 대상 변수의 값을 예측하는 예측 모델의 기능을 측정
      0 - 100% 사이의 값을 나타내며, 100% 가까울 수록 가설적으로 완벽한 예측 모델
  • 예측 신뢰도: 훈련 데이터세트와 동일한 특징을 가지는 새로운 데이터세트에 적용할 때 같은 정확도를 얻기 위한 예측모델의 능력을 나타냄
    0 - 100% 사이의 값을 나타내며, 100% 가까워야 함

 


그룹화된 범주 영향 

 

 

  • 그룹화된 범주 영향은 변수의 범주를 그룹화하여 보여줌
    여기서 그룹의 모든 범주는 대상 변수에 대해 동일한 영향을 공유함
  • X축: 대상변수에서 그룹화된 범주의 참여도를 나타냄
  • Y축: 그룹화된 범주늬 변수를 나타냄
  • 막대의 길이와 방향은 대상 범주에 속하는 관찰값이 범주에 더 많은지, 적은지 여부를 나타냄

 

 


 

그룹화된 범주통계

출처:SAP

  • 그룹화된 범주 통계는 그룹화된 범주가 선택한 데이터세트의 대상변수에 어떤 영향을 미치는지에 대한 세부사항 표시
  • 기본 뷰로 산점도 표시되며
    X축: '대상평균'으로 명목 대상에서 대상평균은 대상 변수에 있는 대상 범주의 빈도임
    Y축: 선택한 데이터 집합에서 그룹화된 범주의 빈도를 표시

 


오분류 행렬

출처:SAP

 

 


 

모델 분석 후 성능개선이 필요할 수 있다.

모델의 예측력이 낮으면 모델의 품질이 낮아지고, 모델의 예측 신뢰도가 낮으면 모델의 견고성이 낮기 때문이다.

예측력 지시자는 0 ~ 100%의 값을 사용하며 100%에 가까워야 한다.

 

예측력 개선을 위해 아래와 같은 방법을 채택할 수 있다.

- 더 많은 입력 변수를 추가 (기능 엔지니어링) - 관련 변수는 일반적으로 예측 모델의 품질을 높인다.
- 메타 데이터에서 변수 유형을 올바르게 설정한다.
- 대상 변수에 직접 연결된 변수는 제외한다

 

출처:SAP

 

반응형

댓글