본문 바로가기
IT - DATA/DATA - Statistics

[데이터 분석] 04. 데이터 수집 - 양적요인 vs 질적 요인

by 오는정 가는정 갓은정 2022. 9. 30.
반응형

이전 포스팅에 이어서,,

 

https://make-extra-money.tistory.com/3

 

선형회귀: 데이터 분석결과에서 어떤 것을 봐야할까?

앞으로는 통계학에 근거하여 데이터 분석과 분석결과를 해석하는 방법에 대해 알아보도록 한다. 예측: 결과를 맞추는 것 추론: 원인과 결과 간 관계 파악 (데이터 분석 근거한 추론 - 방향의 기

make-extra-money.tistory.com

 

점주역량이 매출에 가장 큰 영향을 준다고 했는데 물론 관리자의 역량이 중하겠지만,
점주역량을 측정한 데이터가 없다..

게다가 결과대로라면 매장크기를 계속 늘리면 매출도 무한정 는다는 뜻이 될텐데..

 

어딘가 문제가 있어보인다..

분석 결과 이대로 보고해도 되는걸까...?

 

분석결과가 상식적으로 좀 안 맞는데요?

 

그렇다. 매장크기가 커지면 매출도 무한정 커지는 게 말이 안된다.

점장의 역량이 매출과 직결한다는 결과 기준도 모호하다. 인과관계가 없는 변수도 있다.

매장크기와 창고 크기를 개별변수로 다 넣아햐는 게 맞는지, 이 둘은 인과관계가 아니라 상관관계만 있는듯 하다.

 

※ 양적요인

매출
매장 크기
채널특성 / 운영형태
오픈일
직원 수
유동인구
제품 종류
입구 위치
객단가
임대료 비용
입점객
자재수

※ 질적요인

점주 역량(상품판매 비중, 나이, 경력, 담당 지역 등)
직원 친절도
서비스 만족도

 

*질적요인: 점수화 하는 기준이나 체계가 필요하다.

매장 관리 역량, 고객 대응 역량, 영업 역량, 위기 대응 역량 또한 정량이 아닌 정성적 요인이며, 시대 변하면서 점장 역량 체계도 변할 수 있다.

인사고과 데이터 또한 평가 기준이 매년 다르기 때문에 현실 적용에 어려움 있다.

 

⇒  질적 데이터를 양적 데이터로 변환하는 작업은 데이터 분석보다 고도의 작업

⇒  현업 부서에서는 양적 데이터를 만드는 일부터 시작해야함

 

 

 

분석력과 예측력: 분석을 하려면 다 해야지, 왜 하다 말아요?


  • Q. 영업3팀) 매장크기를 계속 늘리면 매출도 무한정 늘겠냐?
    사실 그렇지는 않지만 회귀식을 보면 그렇게 나오니까 말이 안된다고 얘기하는 것 같아요.
  • A. 사실 이게 선형 회귀의 한계입니다.
    예를 들어 분석에 사용한 매장면적 데이터가 최소 100m² ~ 최대500m² 라고 가정 시, 그러면 100m² ~ 500m² 사이에서는 매장면적 매출의 관계 분석 가능 하지만 1,000m² ~ 10,000m²에서도 동일한 결과가 나온다고 주장할 수 없어요.
  • 즉, 분석에 사용한 데이터 구간 ‘안에서’ 분석 결과가 의미를 가진다는 점이 중요
    그럼에도 선형회귀 사용하는 이유는 해석에 용이하기 때문이죠
    (선형 모형 대신 제곱 혹은 세제곱이 들어간 다항식 사용할 수 있지만 이경우 모형은 현실에 가깝지만 해석이 어려움)

 

 

  • Q. 재무팀장) R² 값을 더 올려야한다고 말했는데, R²는 모형이 전체 현상을 얼마나 잘 설명하는지 보여주는 거라고 알고 있는데 그렇다면 결과에 영향을 주는 요인을 계속 추가하면 R² 값을 높일 수 있지 않나요
  • A. 맞아요. 결과를 설명하는 요인이 많을수록 R² 값이 올라가는 건 당연합니다.

 

  • Q. 그럼 R²값을 높이는 게 그리 큰 문제는 아니군요?
  • A. 그렇지 않아요. 여기에는 3가지 문제가 있어요.
  1. 데이터 문제 
    R²를 높이기 위해 더 많은 요인을 모형에 넣고 싶어도 현실에 데이터가 없는 경우가 많아요.
    (점장역량, 고객 만족도, 고객 소득수준 등) 데이터 양이 많아야 예측력을 높일 수 있는데 일만 매장에는 많은 데이터가 없죠.
  2. 결과에 영향을 주지 않거나 미미한 영향을 주는 요인을 추가했을 때 발생하는 문제
    괜히 모형만 복잡해지고 실상 얻는 것이 별로 없음 - 억지로 R² 값을 높이려고 하면 의미없는 요인을 추가하는 일이 생겨요.
  3. 모형이 복잡해질수록 해석하기 어려워 짐
    예측이 목적이라면 모형이 복잡해도 별 문제 없으나 추론은 원인과 결과 사이의 관계를 해석할 수 있어야 하는데 그게 어려워집니다.

⇒  요인을 추가할 수록 R²는 높아지겠지만 데이터 수집을 위한 수고는 기하급수적으로 늘어나고, 모형은 점점 복잡해지고, 해석은 더 어려워집니다.

 

⁕ 예측 목적: 편향↓ 분산↑ (모형 복잡, 해석 어려움) - 모형이 복잡하더라도 정답에 가까운 결과물 도출 필요

⁕ 추론 목적: 편향↑ 분산↓ (모형 단순, 해석 용이) - 비즈니스 현장에서 상사나 이해관계자가 실제로 사용할 수 있고 설명할 수 있는 모형이 필요

 

 

 

 

 

 ※ 도서) 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나를 참고서로 작성한 글입니다.

 

 

 

 


다음포스팅에서는 데이터 분석: 변수와 상관관계에 대해 알아보도록 하자

 

 

https://make-extra-money.tistory.com/5

 

데이터 분석: 변수와 상관관계

데이터를 마구 집어넣어도 될까? Q4. IT지원 팀장) 인과관계와 상관관계를 구분해야한다고 했어요. 상관관계가 있는 변수가 들어가 있다고도 하고요. A. 맞아요. 데이터 분석은 주로 숫자를 분석

make-extra-money.tistory.com

 

반응형

댓글