데이터를 마구 집어넣어도 될까?
Q4. IT지원 팀장) 인과관계와 상관관계를 구분해야한다고 했어요. 상관관계가 있는 변수가 들어가 있다고도 하고요.
A. 맞아요. 데이터 분석은 주로 숫자를 분석하는데 숫자의 종류는 크게 변수와 상수로 나뉩니다.
ㄴ 변수: 변하는 수
ㄴ 상수: 변하지 않는 수
※ 변수
ㄴ X 독립변수: 다른 변수에 영향 X (독립변수가 2개이상일 경우 다중선형회귀라고 함)
ㄴ Y 종속변수: 다른 변수로부터 영향 O (종속변수가 2개이상일 경우 다변량이라고 함)
※ 변수의 데이터 형태에 따라
ㄴ 범주형: 질적 변수 (이름, 지역) = 문헌연구, 법,제도에 관한 연구, 전문가 의견을 듣는 델파이 기법 사용한 연구
ㄴ 수치형: 양적 변수 (나이, 온도) = 정량적 분석
데이터 분석 - 인과 / 상관 / 독립 / 쌍방향적 인과 / 조절 / 매개관계 등 존재
예를 들어, 에어컨 판매량과 휴가자 수가 비례한다는 데이터 분석결과 있다고 가정 시,
그러면 여름에 직원이 휴가를 많이 가면 에어컨 판매량이 늘어난다고 언뜻해석할 수 있지만
사실 날씨가 더워서 에어컨 판매량과 휴가자 수가 동시에 증가하는 것임
=> 이 때, 에어컨 판매량과 휴가자 수는 상관관계는 있지만 인과관계가 있다고 볼 수 없음
※상관관계: 한 변수값이 증가할 때 다른변수값이 증가하는 정비례 관계
한 변수값이 증가할 때 다른 하나가 감소하는 반비례의 상관관계도 존재
⇒ 즉, 두 변수가 정비례나 반비례 관계에 있으면 서로 선형 상관관계가 있음
⇒ 결국 상관관계 안에 인과관계가 포함되어 있는 것 ( 두 변수 간에 상관관계 존재 시, 일부는 인과관계가 성립할 수 있음)
Q. 데이터 분석에서는 상관관계를 어떻게 알아내나요?
A. 상관관계 이전에 선형회귀 했던 걸 먼저 생각해봅시다.
독립변수와 종속변수는 선형관계에 있어요.
그런데 선형 회귀를 할 때 중요한 가정이 있죠. 독립변수가 2개 이상일 경우 독립변수 사이에 선형 상관관계가 존재하지 않아야 해요. 즉, 두 독립변수가 서로 정비례하거나 반비례하는 관계가 아니라는 뜻 (= 데이터가 존재하는 패턴이 일정하지 않아서 직선을 그을 수 없는 경우임) 이때 상관계수를 산출하면 0에 가깝게 나옵니다.
반대로 두 독립변수 사이에 선형 상관관계가 있다면 두 변수가 정비례하거나 반비례한다는 뜻이에요.
이때 상관계수는 1 또는 -1에 가까운 숫자가 나옵니다.
보통 절댓값이 0.7보다 크면 강한 상관관계가 있다고 보고, 0.3보다 크면 약한 상관관계가 있다고 봅니다.
0.3보다 작을 경우 일반적으로 상관관계가 없다고 해석합니다.
데이터 분석을 하려면 먼저 변수 간 관계를 산점도로 확인해야합니다.
그리고 비선형 상관관계의 경우 선형 상관관계로 변형하여 확인해야 합니다.
※ 도서) 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나를 참고서로 작성한 글입니다.
다음 포스팅에서는 로지스틱 회귀에 대해 알아보도록 하자.
고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠?
https://make-extra-money.tistory.com/9
[데이터 분석] 06. 로지스틱 회귀
고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠? ※ 원인과 결과 간 관계 분석법 - 회귀 방법론 - 분류 방법론 결괏값이 수치형으로 나오는 경우 회귀 방법론을 사용한다. (정수, 음
make-extra-money.tistory.com
'AI & Tech > DATA - Statistics' 카테고리의 다른 글
[데이터 분석] 06. 로지스틱 회귀 (0) | 2022.10.04 |
---|---|
[데이터 분석] 04. 데이터 수집 - 양적요인 vs 질적 요인 (3) | 2022.09.30 |
[데이터 분석] 03. 선형회귀 - 데이터 분석결과에서 어떤 것을 봐야할까? (0) | 2022.09.30 |
[데이터 분석] 02. 매출 예측방법 - 객단가/직원/상품회전율/평당 연간매출액 (2) | 2022.09.30 |
[데이터 분석] 01. 수요예측 / 매출추정기법 (0) | 2022.09.28 |
댓글