본문 바로가기
IT - DATA/DATA - Statistics

[데이터 분석] 05. 변수와 상관관계

by 오는정 가는정 갓은정 2022. 9. 30.
반응형
데이터를 마구 집어넣어도 될까?

Q4. IT지원 팀장) 인과관계와 상관관계를 구분해야한다고 했어요. 상관관계가 있는 변수가 들어가 있다고도 하고요.

 

A. 맞아요. 데이터 분석은 주로 숫자를 분석하는데 숫자의 종류는 크게 변수와 상수로 나뉩니다.

 

ㄴ 변수: 변하는 수

ㄴ 상수: 변하지 않는 수

 

※ 변수
ㄴ X 독립변수: 다른 변수에 영향 X (독립변수가 2개이상일 경우 다중선형회귀라고 함)
ㄴ Y 종속변수: 다른 변수로부터 영향 O (종속변수가 2개이상일 경우 다변량이라고 함)

 

 

(도서출처) 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나

 

 

※ 변수의 데이터 형태에 따라
ㄴ 범주형: 질적 변수 (이름, 지역) = 문헌연구, 법,제도에 관한 연구, 전문가 의견을 듣는 델파이 기법 사용한 연구
ㄴ 수치형: 양적 변수 (나이, 온도) = 정량적 분석

 

 

 

데이터 분석 - 인과 / 상관 / 독립 / 쌍방향적 인과 / 조절 / 매개관계 등 존재

 

 

예를 들어, 에어컨 판매량과 휴가자 수가 비례한다는 데이터 분석결과 있다고 가정 시,
그러면 여름에 직원이 휴가를 많이 가면 에어컨 판매량이 늘어난다고 언뜻해석할 수 있지만
사실 날씨가 더워서 에어컨 판매량과 휴가자 수가 동시에 증가하는 것임

=> 이 때, 에어컨 판매량과 휴가자 수는 상관관계는 있지만 인과관계가 있다고 볼 수 없음

 

 

 

상관관계:  한 변수값이 증가할 때 다른변수값이 증가하는 정비례 관계
                   한 변수값이 증가할 때 다른 하나가 감소하는 반비례의 상관관계도 존재

 

⇒ 즉, 두 변수가 정비례나 반비례 관계에 있으면 서로 선형 상관관계가 있음

⇒ 결국 상관관계 안에 인과관계가 포함되어 있는 것 ( 두 변수 간에 상관관계 존재 시, 일부는 인과관계가 성립할 수 있음)

 


 

 

Q. 데이터 분석에서는 상관관계를 어떻게 알아내나요?

 

A. 상관관계 이전에 선형회귀 했던 걸 먼저 생각해봅시다.

 

독립변수와 종속변수는 선형관계에 있어요.

그런데 선형 회귀를 할 때 중요한 가정이 있죠. 독립변수가 2개 이상일 경우 독립변수 사이에 선형 상관관계가 존재하지 않아야 해요. 즉, 두 독립변수가 서로 정비례하거나 반비례하는 관계가 아니라는 뜻 (= 데이터가 존재하는 패턴이 일정하지 않아서 직선을 그을 수 없는 경우임) 이때 상관계수를 산출하면 0에 가깝게 나옵니다.

 

 

반대로 두 독립변수 사이에 선형 상관관계가 있다면 두 변수가 정비례하거나 반비례한다는 뜻이에요.
이때 상관계수는 1 또는 -1에 가까운 숫자가 나옵니다.

 

 

보통 절댓값이 0.7보다 크면 강한 상관관계가 있다고 보고, 0.3보다 크면 약한 상관관계가 있다고 봅니다.

0.3보다 작을 경우 일반적으로 상관관계가 없다고 해석합니다.

 

데이터 분석을 하려면 먼저 변수 간 관계를 산점도로 확인해야합니다.

그리고 비선형 상관관계의 경우 선형 상관관계로 변형하여 확인해야 합니다.

(도서출처) 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나

 

 

 ※ 도서) 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나를 참고서로 작성한 글입니다.

 

 

 


 

다음 포스팅에서는 로지스틱 회귀에 대해 알아보도록 하자.

고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠?

 

https://make-extra-money.tistory.com/9

 

[데이터 분석] 06. 로지스틱 회귀

고객 재구매 여부가 마이너스 값이 나오는데 뭐가 잘못된거죠? ※ 원인과 결과 간 관계 분석법 - 회귀 방법론 - 분류 방법론 결괏값이 수치형으로 나오는 경우 회귀 방법론을 사용한다. (정수, 음

make-extra-money.tistory.com

 

반응형

댓글