본문 바로가기
Sooin's Equipment/Probability & Statistics(확률과 통계)

[확률&통계] 상관분석

by SOOIN'S STUDY 2024. 4. 3.

 

 

 

 

 

상관분석

: 변수 간에 어떠한 상관성이 있는지 분석한다.

 

상관분석이 수행되는 두 변수는 모두 측정 변수이어야 한다.

(두 변수가 등간척도 이상인 경우)

*등간척도: 변수의 값을 순서대로 나열할 수 있고 간격이 일정한 변수를 지칭하는 것

 

 

"등간척도 이상이 있다면 이하도 있나??"

등간척도보다 낮은 척도인 명목척도서열척도를 뜻한다.

 

명목척도와 서열척도는 관계를 분석할 때

상관분석을 사용하지 못하고

다른 통계적 기법이나 비모수적 방법을 사용해야한다.

 

 

e.g.

디자인 모델 5개에 대한 선호도, 조작성, 심미성을

100점 척도의 평가를 통해 상관관계가 존재하는지 알아보는 경우

 

 

 

 

산포도

왜 산포도를 그릴까?

: 두 변수 사이의 관계를 살펴보기 위해

 

표시 방법:
1. 설명변수는 x로 표기하고 가로축에 표시
2. 피설명변수는 y로 표기하고 세로축에 표시

 

아래의 산포도 중 6번째 산포도를 보면

점이 모여 하나의 직선을 보여주기에 상관계수가 높고 상관관계가 있음을 뜻한다.

 

상관계수 p  or  r

1. -1 이상 1 이하의 값을 갖는다.

2. (-)음의 상관관계, (+)양의 상관관계를 나타낸다.

3. 0 은 상관관계가 전혀 없음을 의미한다.

 

 

 

 

헷갈리는 상관계수의 의미

If 상관계수 = 0.8일 때,

-> 산포도 상에서 80% 의 점들이 하나의 선 주위에 빽빽하게 밀집해 있다는 것을 의미하지 않는다.

-> 상관계수가 0.4 일 때보다 선형관계의 강도가 강하기는 하지만 정확히 두 배로 강하다는 것을 의미하지도 않는다.

IF 이상값 (Outlier)이 존재하거나, 두 변수간 관계가 비선형일 때,

-> 상관계수가 유용하지 않음

 

3 시그마를 벗어나면 outlier가 된다(빨간색 세모)

 

 

 

상관관계는 인과관계가 아니다.

상관관계는 바로 인과관계를 말하지 않는다!

 

아래의 예시를 보면 발과 독해력은 상관관계가 있지만

"발이 커질수록 독해력이 좋아진다."라는 인과관계를 말하기 어렵다.

 

따라서 우연히 일어날 수 있는 상관관계인지 잘 확인해야 한다.

 

 

 

 

Bivariate Correlation(Pearson Correlation)

: 두 변수 간의 선형적 상관성을 분석

 

1. 선호도와 조작성 사이에 높은 상관성이 존재한다.(선호도 1. / 조작성 .631)

2. 선호도와 심미성은 어느 정도 상관성이 존재한다.(선호도 1. / 심미성 .456)

3. 각각의 상관계수는 유의 수준 0.01에서 모두 의미 있는 것으로 평가되었다.(Sig.(2-tailed) .000)