AngzavA
[ADsP] 3-2. 통계분석(통계의 이해) 본문
01. 통계 개요
[1-1] 통계
- 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태
- 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정을 하는 과정
- 표본조사 : 표본의 대표성을 신뢰할 수 있어야 표본조사를 통계분석을 신뢰할 수 있다.. 중요
[1-2] 표본 추출 방법
- 단순 랜덤 추출법 : ㄹㅇ 단순 랜덤
- 계통 추출법 : 일정한 간격을 두고 번호를 둔 뒤 추출하는 방법
- 집락(군집: Cluster) 추출법 : 여러 집락으로 구분한 뒤, 랜덤 추출법에 의해 데이터를 추출하는 것.
- 각 집락은 동질적, 집락 내 데이터는 이질적
ex) 3-1, 2-1, 1-1 - 층화 추출법 : 집락과 유사하나 반대의 성격, 집락이 이질적, 데이터는 동질적
ex) 3학년, 2학년, 1학년
- 비례 층화 추출법 : 전체 데이터 분포를 반영하여 군집별 데이터를 추출하는 방법
- 불비례 층화 추출법 : 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출
[1-3] 측정과 척도
측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
**척도 종류
- 질적 척도
- 명목척도 : 대상이 어느 집단에 속하는지 나타내는 자료
- 순서척도(서열척도) : 대상이 명목척도이면서 서열 관계를 갖는 자료 - 양적 척도
- 구간척도(등간척도) : 측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료
- 비율척도 : 측정 대상이 구간척도면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료
[1-4] 기술통계와 추리통계
- 기술통계 : 표본 자체 속성이나 특징 파악에 중점을 두는 통계, 자료 요약/조직화/단순화
- 추리통계 : 수집한 데이터를 바탕으로 추론 및 예측하는 통계
- 표본에서 얻은 통계치를 바탕으로 오차를 고려하며 모수를 확률적으로 추정하는 통계
02. 확률과 확률분포
[1] 확률
- 독립사건 : A가 발생했을 떄 B의 확률이 변하지 않음
- 배반사건 : 공통된 부분이 없는 경우 = 동시에 일어날 수 없는 사건
- 확률 변수 : 확률이 나타날 결과를 수치적 값으로 표현하는 변수
- 이산확률변수
- 연속확률변수 - 확률분포 : 확률변수의 보든 값과 그에 대응하는 확률이 어떻게 분포하는지
- 이산확률분포 = 확률질량함수
- 연속확률분포 = 확률밀도함수
[2] 이산확률분포
- 베르누이 분포 : 한 번의 시행이 성공 아니면 실패로 나뉠수 있는 확률 p인 분포
- 이항 분포 : n번의 베르누이 실행
- 기하 분포 : 성공확률 p의 베르누이 실행해서 처음으로 성공이 될때 까지 k번 실패할 확률
- 다항 분포 : 이항 분포 확장, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률
- 포아송 분포 : 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수
- 이산확률변수 : 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수, 서로 배반인 사건들의 합집합의 확률
[3] 연속확률분포
- 균일 분포 : 연속형 확률변수인 X가 취할 수 있는 모든 값에 대해 같은 확률을 갖고 있는 분포
- 정규 분포 : 평균이 n이고, 표준편차가 q인 분포, 낮은 종 모양, 내가 잘 아는거
- t-분포 : 평균이 0이고 좌우 대칭, 자유도가 커질수록 표준정규분포와 가까워짐
** 자유도 : 모집단에 대한 정보를 주는 독립적인 자료의 개수 - 카이제곱 분포 : 자유도가 n인 카이제곱 분포, 동질성검정/모분산 검정을 위해 활용
- F 분포 : 분산분석을 위해 활용
- 두 모집단에 대해 분산이 다른지 같은지 검정하기 위한 가설검정 - 연속확률변수 : 특정 구간에 대해 셀 수 없는 변수
[4] 통계 개념
- 기댓값 : 확률변수 X가 취할 수 있는 값의 평균
- 분산 : 관측값에서 평균을 뺸 값을 제곱, 다 더하고 전체 개수로 나눈, 차이값이 제곱 평균
- 표준변차 : 분산의 제곱근, 산포도 나타내는 수치
- 첨도 : 확률분포의 뾰족한 정도 3에 가까울 수록 정규분포
- 왜도 : 비대칭 정도, 0인 경우 정규분포
- 왜도 < 0 : 평균 < 중앙값 < 최빈값
- 왜도 > 0 : 최반값 < 중앙값 < 평균 - 공분산 : 확률변수 2개의 상관정도, 양수 = 비례, 음수 = 반비례
- 상관계수 : -1 또는 1, 0이면 관계 없음
03. 추정과 가설검정
[1] 추정
- 모수 추정 : 표본조사를 실시하여 모수 추정
- 점추정 : 모평균을 하나의 특정값으로 예측
- 분편추정량 : 추정값과 실제값 차이가 0으로 이상적인 값 - 구간추정 : 모수가 특정한 구간 안에 존재할 것이라 예상, 신뢰도 95% 혹은 99%
[2] 가설검정
모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지 판정하는 과정
- 귀무가설
- 실험, 연구를 통해 기각하고자하는 가설, 대립가설과 상반 - 대립가설
- 귀무가설이 틀렸다고 판단될 경우 채택되는 가설 - 1종 오류 : 귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류
- 2종 오류 : 귀무가설이 사실이 아님에도 귀무가설이 옳다고 결정하는 오류
- 검정통계량 : 표본으로부터 얻는 값, 귀무가설 채택여부 판단하기 위해 사용
- 기각역 : 귀무가설을 기각하게 되는 검정통계량 영역, 경계값 = 임곗값
- 유의수준 : 오류를 범할 확률 최대 허용 한계, 0.01 혹은 0.05
- 유의확률 : p-value, 귀무가설을 지지하는 정도
[3] 비모수검정
모수검정 : 표본의 정규성이 확보
비모수검정 : 정규분포를 가정할 수 없을 때 사용
모수검정 | 비모수검정 |
등간척도, 비율척도 | 명목척도, 서열척도 |
평균 | 중앙값 |
피어슨 상관계수 | 스피어만 순위상관계수 |
one sample t-test, two sample t-test, paired t-test, one way anova | 부호검정, Wilcoxon 부호순위검정, Mann-Whitney 검정, Kruskai Wallis 검정 |
**비모수검정 종류
- run test(Wald-Wolfowitz runs test)
- 부호 검정(binomial sign test)
- 부호 순위 검정 (WIlcoxon signed-rank test)
- 프리드만 검정
- 순위 합 검정
- 크러스컬-월리스 검정
- 스피어만 서열상관분석
'ADsP' 카테고리의 다른 글
[ADsp] 3-2-3. 회귀분석 (0) | 2023.08.14 |
---|---|
[ADsP] 3-2. 통계분석(기초통계) (0) | 2023.08.11 |
[ADsP] 3-1. R 기초와 데이터 마트 (0) | 2023.08.09 |
[ADsP] 2-2.분석 마스터플랜 (0) | 2023.08.08 |
[ADsP] 2-1.데이터 분석 기획의 이해 (0) | 2023.08.07 |