디자인을 평가할 때 분산분석이 활용된다.
위와 같이 여섯 개의 휴대폰 색상의 선호도에 차이를 알고 싶다.
이 상황에서 통계적 유의성 검정이 필수적이다!
변동성이 있기에 분산분석을 하게 된다.
분산분석으로 관심이 있는 요인에 영향(요인에 의한 변동성)과 관심 없는 요인에 영향(노이즈에 의한 변동성)을
검증하고 뒷받침과 설득력이 될 수 있다.
가설과 유의 수준
위를 검증하기 위해 가설과 유의 수준을 먼저 알아본다.
1. 가설 (귀무가설 H0 vs 대립가설 H1 == 기존의 가설 vs 새롭게 주장하는 가설)
: 현상에 대한 예상, 주장 또는 단순한 추측 등
- 귀무가설 H0 : 모집단의 특성에 차이가 없다고 하는 가설
(특정한 요인이 없으면 같다)
- 대립가설 H1 : 모집단의 특성에 차이가 있다고 하는 가설, 귀무가설에 대립하는 가설, 연구자가 주장하는 가설
( 특정한 요인이 있으면 다르다)
2. 유의 수준 (significance level; 알파)
: 기존의 가설(귀무가설)이 사실인데 새롭게 주장하는 가설(대립가설)이 사실이라고 잘못 판단할 확률의 최대
허용한계
-보통 0.01, 0.05, 0.1 등을 사용 ( 0.05를 가장 많이 사용 / 0.2, 0.3은 사용하지 않음 )
가설 검정
모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
통계는 기술통계와 추론통계가 있다.
그중 추론통계에서 추정과 검정으로 나뉜다.
그중 가설검정은 추론통계의 검정을 활용한다.
(통계> 추론통계> 검정)
우리는 이 검정을 활용하여 통계적인 유의성을 검정한다.
가설검정을 유의성 검정(Significance Test)라고도 한다.
가설을 먼저 설정하고 검정통계량과 임계값(p-Value와 유의 수준)을 비교하여
내가 주장하는 가설이 채택이 가능할 정도로 설득력이 있는지 판별한다.
검정방법 선택
실험 DATA의 종류에 따라 적합한 검정방법 선택해야 한다.
데이터는 연속형과 이산형으로 나뉜다.
연속형 데이터 검정방법을 알아보자.
1(One) Sample t-Test
: 실험 DATA의 평균이 목푯값과 비교해서 통계적으로 유의한 지(차이가 있는지)를 판단하는 시험법
- 가설 검정
H0 : μ = μ0 (목푯값)
Ha : μ ≠ μ0 (목표값) --> 주장가설
a는 alternative로 H1(대립가설)과 같은 의미이다.
1 Sample t-Test를 활용하는 일은 매우 적다.
2(Two) Sample t-Test
: 두 모집단으로부터 추출된 실험 DATA의 평균이 통계적으로 유의한 지(차이가 있는지)를 판단하는 시험법
- 가설 검정
H0 : μ1 = μ2
Ha : μ1 ≠ μ2
해당 방법은 아래의 ANOVA와 같은 결괏값이 나온다.
분산분석(ANOVA)
: 두 개 이상의 모집단으로부터 추출된 실험 DATA의 평균이 통계적으로 유의한 지(차이가 있는지)를 판단하는 검정법
(두 집단일 경우, 2 Sample t-Test와 동일한 결과)
- 가설 검정
H0 : μ1 = μ2
Ha : μ1 ≠ μ2
가설 검정 결과 해석
파랑색이 귀무가설(H0)의 영역으로 해당하는 함수의 넓이는 신뢰도이다.
분홍색이 대립가설(Ha==H1)의 영역으로 해당하는 함수의 넓이는 유의 수준이다.
(오른쪽 분홍색은 상한, 왼쪽 분홍색은 하한으로 해당한다!)
유의 수준은 판정기준(신뢰도 반대구간)으로
표본평균의 Z-score이나 검정통계량이 임계값(상한&하한) 보다 많거나 적으면 대립가설을 택한다.
검정통계량(T)은 변동성을 나타내는 수식이다.
기존의 수식어로 변동성을 계산하면 0이 되기 때문에, 제곱을 해야 한다.
유의확률은 쉽게 실제로 잘못할 확률로, 요인에 의해 영향을 낼 수 있다.
따라서 검정통계량이 임계값인 1.96이나 -1.96보다 작거나
P-Value가 유의 수준인 0.05보다 작으면 대립가설로 채택한다.
분산분석의 의미
표본의 분산을 분석하여 독립변수가 측정 변수에 유의한 영향을 주는지 검정하는 방법!
즉 관심 있는 요인이 집단 간의 평균차이에 대한 유의성을 검정한다.
스마트폰의 색상에 따라서 선호도의 변화량(요인(색상)에 의한 변화량)이
스마트폰의 같은 색상 내에서의 선호도 변화량(요인 외의 것, 즉 Noise에 의한 변화량) 보다 의미 있게 크다면
"스마트폰 색상에 따라 선호도가 다르다"라고 결론지을 수 있다.
요인에 의한 값의 변화>>Noise에 의한 값의 변화
= 집단 간 분산>>집단내분산
: 요인이 측정값에 영향을 주었다고 할 수 있다.
이전모델과 최신모델을 비교했을 때 하얀색과 검은색이 선호도가 높다는 것을 추측할 수 있다.
분산분석을 위한 기본 가정
1. 각 표본은 독립적이어야 한다.
2. 각 표본들은 정규분포를 따라야 한다.
- 표본 크기가 충분하다면 정규성의 가정은 무시할 수 있다.(중심극한정리)
*중심극한정리 : n>30이면 정규분포로 생각한다.
분산분석(Analysis of Variance, ANOVA)
분산분석을 통하여 얻은 유의확률이 분석을 위해 미리 설정된 유의 수준보다 작으면
집단 간(독립변수의 수준 간)의 평균에 유의한 차이가 존재하는 것으로 판단한다.
'Sooin's Equipment > Probability & Statistics(확률과 통계)' 카테고리의 다른 글
[확률&통계] 3. 자료 수집 (feat. 디자인 필드에서) (0) | 2024.04.18 |
---|---|
[확률&통계] 2. 통계학의 개념 (feat. 모르는데 어떻게 알아요!) (4) | 2024.04.18 |
[확률&통계] 1. 예술 = 디자인(?) (4) | 2024.04.18 |
[확률&통계] 회귀분석 (0) | 2024.04.03 |
[확률&통계] 상관분석 (0) | 2024.04.03 |