본문 바로가기
IT - DATA/DATA - Statistics

[데이터 분석] 03. 선형회귀 - 데이터 분석결과에서 어떤 것을 봐야할까?

by 오는정 가는정 갓은정 2022. 9. 30.
반응형

앞으로는 통계학에 근거하여 데이터 분석과 분석결과를 해석하는 방법에 대해 알아보도록 한다.

 

  • 예측: 결과를 맞추는 것
  • 추론: 원인과 결과 간 관계 파악
    (데이터 분석 근거한 추론 - 방향의 기울기나 현상의 변화 정도를 구체적인 값으로 제시할 수 있다)

책 출처: 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나

 

 

선형회귀: 데이터 분석 결과에서 대체 뭘 보라는 겁니까?

 

분산분석 (ANOVA: Analysis of Variance)
Parameter Estimates

책 출처: 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나

  • 유의확률 (p-value/Pr/Prob)
  • 결정계수(R²)
  • 개별요인의 유의확률
  • 계수(Parameter Estimates)

 

1. p-value(유의확률): 모형을 신뢰해도 되는지 확인할 때 필요 (분석결과의 유의성 확인하는 첫번째 절차)

 

유의확률 (p-value/Pr/Prob): 귀무가설이 맞다고 가정할 때 관측된 통계치보다 더 극단적인 통계치가 관측될 확률 (Pr>F에서 F는 무시해도 됨)

유의수준(Significance Level) : 통계적인 가설 검정에서 사용되는 기준값 -> 이 0.05보다 작으면 통계적으로 유의한 모형 = 95%신뢰수준으로 판단했을 때 믿을 수 있는 모형

 

p-value <.05 (가장 많이 사용되는 기준) 신뢰수준(Confidence Level): 모집단의 실제 평균값이 신뢰구간 (모수가 실제 포함될 것으로 예측되는 범위)에 포함될 확률 신뢰수준95% 반대인 5%가 유의수준, 결국 5% = 0.05

 

2. R²(결정계수): 모형이 전체 현상을 얼마나 설명하는지 얘기해 줌

 

R-Squre(R²) = 0.6472: 모형이 전체 현상을 64.72% 설명한다는 뜻

ex) 매출에 영향을 미치는 요인을 5개 선정하여 모형 제작했다 가정 시, 이 모형이 5개 요인 통해 매출에 영향을 미치는 전체요인 중 64.72% 설명한다는 뜻.

즉 매출이 100억원 증가한다고 했을 때 그 중 64억 원가량이 왜 증가하는 질 설명할 수 있다는 뜻

 

R²에 대한 기준은 분야마다 다르지만 일반적으로 공학이나 자연과학에서 R²가 0.7이상이면 괜찮다고 인정 / 사회과학, 경영학에서는 R²가 0.3-0.4만 나와도 의미있다고 판단

Adj R-Sq(수정 결정계수/Adj=Adjested): 지나치게 많은 요인을 사용해서 모형 만들 경우 설명력이 높아지는 현상을 모완하기 위해 만들어낸 지표

 

∴  요인이 2개 이상일 때부터 R²보다 조금씩 작아짐

(요인이 많을수록 두 값의 차이가 커지나 실무에서는 10개가 넘는 요인을 고려하는 경우 드물며 다양한 데이터 수집도 어려움) 하지만 실무에서는 두 값에 큰 차이가 없기 때문에 어떤 값을 봐도 큰 상관 없음

 

3. Pr>|t|(개별요인의 p-value) :개별요인이 매출에 어떤 영향을 미치는 확인해야함 (p-value(유의확률) & 계수(Parameter Estimates)가 중요한 값)

 

모형의 p-valuerk 0.05보다 작으면 개별요인의 p-value도 0.05보다 작다고 생각하기 쉬우나, 개별요인의 p-value를 산출하는 방법과, 전체모형의 p-value 산출하는 방법자체가 다르기 때문에 전체모형의 p-value가 0.05를 넘는 경우는 거의 없지만, 개별요인의 p-valuesmsm 0.05fmf 넘는 겨우가 많음

 

=> 통계 학습의 결과를 해석하는 데 개별요인의p-value를 확인하는 것이 데잍분석 결과를 읽는 키포인트라고 할 수 있음 그렇다면 개별요인마다 매출에 영향을 주는 정도가 다를텐데 그 값은 Parameter Estimate 값을 확인하면 됨

 

ex) 매출영향을 미친다 판단하여 수집한 요인 10개 가정 그 중 어떤 요인은 실제 매출에 영향을 미치고, 어던 요인은 매출에 영향 주지 못함 표에서 보면, 매장 크기(Store size), 직원 친절도(Staff)의 p-value는 0.05보다 작기 때문에 두 요인은 매출에 유의한 영향 준다고 할 수 있음

그러나 주차장 면수(Parking lot)은 p-value가 0.6399로 0.05보다 크기 때문에 매출에 영향 준다고 볼 수 없음

 

=> 주차장 면수는 매출에 통계적으로 유의한 영향을 미치지 않는다.

 

4. Parameter Estimate(계수 =Coefficient): 개별요인이 매출에 영향을 주는 정도를 확인하는 척도

 

(ex. 매장 크기가 한 단위 증가할 때 매출이 얼마나 증가하는지 보여주는 것 = 계수

*Intercept: 절편 (계수항목 중 하나로 독립변수가 모두 0일 때, 종속변수의 값을 의미

 

※ 회귀식 정리

매출액 = 2.40576 X 매장크기 + 0.50153 X 직원 친절도 - 0.00104 X 주차장 면수 + 2.93889

(’Y = aX + b’ 에서 X: 독립변수, Y: 종속변수라고 부름 / X = 0이면 Y = b가 됨 ⇒ 이 때, b를 절편이라 함)

 

매장크기 단위:m², 매출단위: 억 원 가정 & 이때 계수가 2라면, 매장크기가 1m² 증가할 때, 매출이 2억 원 증가)

다른 요인이 통제된 상황에서 A가 한 단위 증가할 때 B가 몇 단위 증가하는지 보여주는 값

 

 

 ✅ Summary

  1. 데이터 분석 결과 볼 때 모형의 적합도 판단하려면 모형의 p-value가 0.05보다 작은지 확인하고, R²r가 해당 분야에서 요구하는 값과 비교하여 적절한지 확인한다.
  2. 개별 요인이 유의미한지는 개별요인의 p-value가 0.05보다 작은지 보고 판단한다.
  3. 개별 요인의 계수를 이용해 회귀식을 만들어 보고한다.

 

분석결과

  • 매장크기직원 친절도가 매출에 영향을 주며, 주차장 면수는 매출에 영향을 주지 않는 것으로 나타남
  • 매장크기가 1m² 증가할 때마다 매출 2.4억원 증가 / 직원 친절도 1점 향상될 때마다 매출 0.5억 원씩 증가
  • R² 값은? 0.64 = 64% 분석한 3가지 요인이 전체 매출의 64%를 설명 (분석한 요인들이 전체 매출 변동의 몇 %인지 알려주는 값이 R²)

책 출처: 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나

 

 

점주역량이 매출에 가장 큰 영향을 준다고 했는데 물론 관리자의 역량이 중하겠지만, 점주역량을 측정한 데이터가 없다..

게다가 결과대로라면 매장크기를 계속 늘리면 매출도 무한정 는다는 뜻이 될텐데..

 

어딘가 문제가 있어보인다..

분석 결과 이대로 보고해도 되는걸까...?

 

 

다음 포스팅에 계속..

 

https://make-extra-money.tistory.com/4

 

데이터 수집: 양적요인 vs 질적 요인

이전 포스팅에 이어서,, https://make-extra-money.tistory.com/3 선형회귀: 데이터 분석결과에서 어떤 것을 봐야할까? 앞으로는 통계학에 근거하여 데이터 분석과 분석결과를 해석하는 방법에 대해 알아보

make-extra-money.tistory.com

 

 ※ 도서) 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나를 참고서로 작성한 글입니다.

반응형

댓글