통계는 데이터가 기반이다!
인공지능도 데이터가 없었다면
무용지물이었을 것이다.
나: “ChatGPT! 내 나이 맞춰봐”
인공지능: “누구신데 나이를 맞춰요?”
데이터(지식)가 없다면 마치 조세호처럼 되는거다..
(모르는데 어떻게 가요!)
데이터 = 수치의 모음
: 162, 195, 157, 167..
데이터를 분석을 하지 않는다면 아무 의미 없다!
데이터를 분석한다면?
: 데이터의 성질을 파악하고 대상을 이해하고 미래도 예측할 수 있다.
빅데이터란?
: 현재 정보기술이 발달하여 컴퓨터 등으로 다양한 데이터를 얻을 수 있고
대량의 데이터를 얻어 분석하는 빅데이터분야가 떠오르고 있다!
디자이너에게 데이터분석이란?
: 디자인에서 직접 데이터를 수집하고 분석하며 사용자의 니즈를 파악하는 것이다!
-> 데이터 분석을 통해 경향(trend)를 파악할 수 있다!
데이터 분석을 위해 통계적 지식이 필요하고 통계학은 확률이 기반이다.
어떻게 트랜드를 파악할까?
1. 경향을 파악하기 위한 데이터의 요약
(e.g. 하나로 정의 = 평균값: 140cm)
2. 성질과 관계성을 명확하게 규명할 수 있는 대상의 설명
(e.g. 140cm 이하는 95%가 어린이다.)
3. 새로 얻을 데이터의 예측
(e.g. 140cm 이상은 어른일 것이다.)
-> 요즘은 복잡한 관계가 많기에 기계학습(머신러닝)으로 예측한다.
통계학(Statistics)이란?
: 관계되는 데이터를 수집하여 요약정리, 분석(기술통계학)을 하거나,
미지의 값에 대하여 과학적 판단(추론통계학)을 하는 개발된 방법 및 이론의 체계
통계학은 어디서든지 응용된다.
(공학, 디자인, 의학, 경제, 정치, 심리..)
통계학은 기술통계학과 추론통계학으로 분류된다.
1. 기술통계학(descriptive statistics)
: 수집된 자료를 표나 도표로 제시나 요약으로 산포나 대표값을 구하는 학문
2. 추론 통계학(inferentail statistics)
: 전체 모집단 중 일부를 표본으로 추출하여 통계량을 구한 뒤,
오차 및 오류의 허용을 수준을 객관적으로 관리하며 모수의 불확실한 성질 추정하고,
이를 근거로 특정한 진술을 받아들일지 검정하는 학문.
* 모집단(population)
: 통계분석의 대상이 되는 모든 개체들의 집합
* 모수(parameter)
: 모집단의 특성을 나타내는 수치적인 값
(모평균, 모분산, 모표준편차, 모중앙값…)
* 표본(sample)
: 모집단으로부터 무작위(random) 추출된 모집단의 부분집합
* 통계량(statistics)
: 표본을 특성을 나타내는 수치적인 값
(표본평균, 표본분산, 표본표준편차…)
왜 표본이 필요할까?
“만약 대한민국 여성의 키의 평균을 알고 싶다면, 어떻게 해야할까?”
-> 모든 여성을 찾아 키를 재고 평균을 내면 된다!
하지만 이게 가능할까?
가장 정확한 결과를 얻겠지만 모든 여성의 키를 잴 수 있을까?
만약 모든 여성을 찾아 쟀다면 들였던 시간과 비용이 합리적일까?
생산성이 매우 낮기 때문에 표본이 필요하다!
또한 표본은 모집단(전체)에서 대표할 수 있어야한다.
표본을 어떻게 추출할까?
: 확률적 추출법과 비확률적 추출법이 있다.
확률적 추출법(probability sampling)
: 무작위(확률성)이 있는 방법
1) 단순 무작위 추출법(simple random sampling)
: 모집단전체에서 일정수를 무작위로 추출
2) 층화 추출법(stratified sampling)
: 모집단을 특정한 기준에 따라 소집단을 나누고
빈도에 따라 적절한 수의 표본을 무작위로 추출
- 계층간은 이질적, 계층내는 동질적
(e.g. 1, 3, 5, 7반은 흰군! 2, 4, 6, 8반은 청군!)
3) 군집추출법(cluster sampling)
: 모집단을 군집으로 분류 후, 군집을 무작위로 추출
- 군집간은 동질적, 군집내는 이질적
(e.g. 1, 2, 3, 4반은 앞반! 5, 6, 7, 8반은 뒷반!)
4) 계통추출법(systematic sampling)
: 추출단위에 일련번호 부여 후 등간격으로 무작위 추출
- 추출 간격 = 모집단의 개수 / 뽑고자 희망하는 표본
(e.g. 1, 4, 7반 급식 먼저!)
비확률적 추출법(non-probabilistic sampling)
: 무작위성(확률성)이 배제된 방법
1) 편의에 의한 표본 추출
: 조사담당자가 임의로 정한 시간과 장소에서 표본대상을 선정
(e.g. 연구자가 ~월 ~일 오후 7시 명동에서 지나가는 행인 ~명 인터뷰)
이 방법은.. 요즘 같은 세상에 위험하다!
(해당 방법으로 실행했다가 사이비로 오해받은 적이 있다..)
2) 판단에 의한 표본 추출(Judgement sampling)
: 조사문제와 관련되어 전문적인 지식을 가진 표본대상을 선정
(e.g. 반도체 관련 지식을 가진 대상으로 설문조사나 인터뷰..)
3) 할당 표본 추출법
: 어느 한 부분에 편중되지 않는 표본대상을 선정(주관적 판단 or 편의 표본 추출법)
- 상업적 조사에서 가장 널리 활용됨
(e.g. 서울: 10명, 강원도 10명, 충북 10명으로 추출 X
-> 서울 60명, 강원도 15명, 충북 15명으로 추출 O)
표본을 선정할 때 나오는 오류는?
1. 표본 오류
: 대표성이 없는 표본을 잘못 추출하여 발생한 오류
2. 비표본 오류
: 표본오류 이외의 모든 오류
- 관찰오류: 조사현장의 오류 / 자료기록 및 처리의 오류
- 비관찰오류: 불포함오류 / 무응답오류
표본크기에 따른 오류가 달라질까?
표본크기가 많은 상황에서의 오류는 비표본오류!
표본크기가 적은 상황에서의 오류는 표본오류!
이번 글은 데이터가 무엇인지 통계학에 대한 개념을 작성하였다.
다음글은 자료수집 방법에 대해 이야기해보자!
'Sooin's Equipment > Probability & Statistics(확률과 통계)' 카테고리의 다른 글
[확률&통계] 3. 자료 수집 (feat. 디자인 필드에서) (0) | 2024.04.18 |
---|---|
[확률&통계] 1. 예술 = 디자인(?) (4) | 2024.04.18 |
[확률&통계] 회귀분석 (0) | 2024.04.03 |
[확률&통계] 상관분석 (0) | 2024.04.03 |
[확률&통계] 분산분석 (3) | 2024.04.03 |