본문 바로가기
IT - DATA/DATA - Statistics

[데이터 분석] 06. 로지스틱 회귀

by 오는정 가는정 갓은정 2022. 10. 4.
반응형
고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠?

 

※ 원인과 결과 간 관계 분석법

 

- 회귀 방법론

- 분류 방법론

 

 

  • 결괏값이 수치형으로 나오는 경우 회귀 방법론을 사용한다. (정수, 음수, 분수, 소수)
    회귀 방법론에는 t-검정, 분산 분석, 선형 회귀 등이 있으며 선형회귀가 대표적인 방법론이다.
※  종류

- t-검정

- 분산분석

- 선형회귀

 


 

  • 결괏값이 범주형으로 나오는 경우 분류 방법론을 사용한다.
    (순위나 서열 표시를 위해 숫자를 사용하는 경우-우편변호, 내신등급, 재구매 여부 - 재구매 or 재구매 x 2경우 밖에 없으나 결과를 알 수 없으니 재구매 확률로 보여주는 것 등)


    분류 방법론에는 로지스틱 회귀, 판별분석, 서프트 벡터 머신, 의사결정 나무, k-최근접 이웃 등이 있으며 다양한 방법론을 비교하여 최선의 방법론을 선택한다.

 

※  종류

- 로지스틱 회귀(Logistic Regression)

- 판별 분석(Discriminant Analysis)

- 서포트 벡터머신(Support Vector Machine)

- 의사결정나무(Decision Tree)

- k-최근접이웃(k-Nearest Neighbors)

 

 

 

※ 로지스틱 회귀 (Logistic Regression)

예측 분석을 위한 회귀분석 중에서 특히 종속 변수가 이분형일 때 수행할 수 있는 회귀 분석 기법의 한 종류

0 혹은 1로 표현되는 이진 분류

 

 

독립 변수(예측 변수) : 영향을 미칠 것으로 예상되는 변수

종속 변수(기준 변수) : 영향을 받을 것으로 예상되는 변수

 

 

 

* 선형회귀식: Y = aX + b
독립입력 변수를 기반으로 종속 출력 변수를 예측하는 데 사용
예를 들어, 광고 금액이 주어졌을 때 얼마나 많은 판매가 발생할지 예측 가능

 

* 로지스틱 회귀식: In( Y / (1-Y) ) = aX + b
독립입력 변수를 기반으로 종속 출력 변수를 분류하는데 사용
어떤 특성이 집단 구분을 결정하는지를 확인하고자 할 때 사용할 수 있음
예를 들어, 업무 만족도 / 연봉 / 복지 등이 퇴사/입사에 미치는 영향을 확인하고자 할 때 사용 가능

   

  ↳ 하지만 위와 같은 식이라면 Y 값을 구할 수 없지 않은가.. 그래서 해석에 주의해야 한다. 실제 회귀식은 다음과 같다.

 

 

 

 

여기서 p(X)를 Y, 즉 결과값이라고 생각하면 된다.

0.0110 이라는 숫자는 Icome, 즉 소득수준이라는 요인이다. 독립변수의 결정계수다.

1000 이라는 숫자는 소득수준이 1억 원인 고객을 의미한다.

소득수준이 1억 원인 고객의 재구매율이 0.586, 즉 58.6% 라는 뜻이다.

 

 

 


 

다음 포스팅에서는 의사결정나무와 그룹화/ 거리측정에 대해 알아보자.

 

- 의사결정나무: 우수 직원들의 특성을 분석하여 액션플랜을 짜고 싶어요

- 그룹화와 거리측정: 아마존 MD가 지난번 히트 상품과 비슷한 상품을 추천해달라고 합니다

 

 


 

이전 포스팅 [데이터 분석] 05. 변수와 상관관계 를 확인하고 싶다면 아래 링크 참고

https://make-extra-money.tistory.com/5

 

[데이터 분석] 05. 변수와 상관관계

데이터를 마구 집어넣어도 될까? Q4. IT지원 팀장) 인과관계와 상관관계를 구분해야한다고 했어요. 상관관계가 있는 변수가 들어가 있다고도 하고요. A. 맞아요. 데이터 분석은 주로 숫자를 분석

make-extra-money.tistory.com

 

반응형

댓글