반응형
고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠?
※ 원인과 결과 간 관계 분석법
- 회귀 방법론
- 분류 방법론
- 결괏값이 수치형으로 나오는 경우 회귀 방법론을 사용한다. (정수, 음수, 분수, 소수)
회귀 방법론에는 t-검정, 분산 분석, 선형 회귀 등이 있으며 선형회귀가 대표적인 방법론이다.
※ 종류
- t-검정
- 분산분석
- 선형회귀
- 결괏값이 범주형으로 나오는 경우 분류 방법론을 사용한다.
(순위나 서열 표시를 위해 숫자를 사용하는 경우-우편변호, 내신등급, 재구매 여부 - 재구매 or 재구매 x 2경우 밖에 없으나 결과를 알 수 없으니 재구매 확률로 보여주는 것 등)
분류 방법론에는 로지스틱 회귀, 판별분석, 서프트 벡터 머신, 의사결정 나무, k-최근접 이웃 등이 있으며 다양한 방법론을 비교하여 최선의 방법론을 선택한다.
※ 종류
- 로지스틱 회귀(Logistic Regression)
- 판별 분석(Discriminant Analysis)
- 서포트 벡터머신(Support Vector Machine)
- 의사결정나무(Decision Tree)
- k-최근접이웃(k-Nearest Neighbors)
※ 로지스틱 회귀 (Logistic Regression)
예측 분석을 위한 회귀분석 중에서 특히 종속 변수가 이분형일 때 수행할 수 있는 회귀 분석 기법의 한 종류
0 혹은 1로 표현되는 이진 분류
독립 변수(예측 변수) : 영향을 미칠 것으로 예상되는 변수
종속 변수(기준 변수) : 영향을 받을 것으로 예상되는 변수
* 선형회귀식: Y = aX + b
독립입력 변수를 기반으로 종속 출력 변수를 예측하는 데 사용
예를 들어, 광고 금액이 주어졌을 때 얼마나 많은 판매가 발생할지 예측 가능
* 로지스틱 회귀식: In( Y / (1-Y) ) = aX + b
독립입력 변수를 기반으로 종속 출력 변수를 분류하는데 사용
어떤 특성이 집단 구분을 결정하는지를 확인하고자 할 때 사용할 수 있음
예를 들어, 업무 만족도 / 연봉 / 복지 등이 퇴사/입사에 미치는 영향을 확인하고자 할 때 사용 가능
↳ 하지만 위와 같은 식이라면 Y 값을 구할 수 없지 않은가.. 그래서 해석에 주의해야 한다. 실제 회귀식은 다음과 같다.
여기서 p(X)를 Y, 즉 결과값이라고 생각하면 된다.
0.0110 이라는 숫자는 Icome, 즉 소득수준이라는 요인이다. 독립변수의 결정계수다.
1000 이라는 숫자는 소득수준이 1억 원인 고객을 의미한다.
소득수준이 1억 원인 고객의 재구매율이 0.586, 즉 58.6% 라는 뜻이다.
다음 포스팅에서는 의사결정나무와 그룹화/ 거리측정에 대해 알아보자.
- 의사결정나무: 우수 직원들의 특성을 분석하여 액션플랜을 짜고 싶어요
- 그룹화와 거리측정: 아마존 MD가 지난번 히트 상품과 비슷한 상품을 추천해달라고 합니다
이전 포스팅 [데이터 분석] 05. 변수와 상관관계 를 확인하고 싶다면 아래 링크 참고
https://make-extra-money.tistory.com/5
반응형
'IT - DATA > DATA - Statistics' 카테고리의 다른 글
[데이터 분석] 05. 변수와 상관관계 (1) | 2022.09.30 |
---|---|
[데이터 분석] 04. 데이터 수집 - 양적요인 vs 질적 요인 (3) | 2022.09.30 |
[데이터 분석] 03. 선형회귀 - 데이터 분석결과에서 어떤 것을 봐야할까? (0) | 2022.09.30 |
[데이터 분석] 02. 매출 예측방법 - 객단가/직원/상품회전율/평당 연간매출액 (2) | 2022.09.30 |
[데이터 분석] 01. 수요예측 / 매출추정기법 (0) | 2022.09.28 |
댓글