Notice
Recent Posts
Recent Comments
Link
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
Tags more
Archives
Today
Total
관리 메뉴

AngzavA

[ADsP] 3-2. 통계분석(통계의 이해) 본문

ADsP

[ADsP] 3-2. 통계분석(통계의 이해)

이앙지 2023. 8. 10. 12:28

01. 통계 개요

[1-1] 통계

  • 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태
  • 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정을 하는 과정
  • 표본조사 : 표본의 대표성을 신뢰할 수 있어야 표본조사를 통계분석을 신뢰할 수 있다.. 중요

 

[1-2] 표본 추출 방법

  1. 단순 랜덤 추출법 : ㄹㅇ 단순 랜덤
  2. 계통 추출법 : 일정한 간격을 두고 번호를 둔 뒤 추출하는 방법
  3. 집락(군집: Cluster) 추출법 : 여러 집락으로 구분한 뒤, 랜덤 추출법에 의해 데이터를 추출하는 것.
    - 각 집락은 동질적, 집락 내 데이터는 이질적
    ex) 3-1, 2-1, 1-1
  4. 층화 추출법 : 집락과 유사하나 반대의 성격, 집락이 이질적, 데이터는 동질적
    ex) 3학년, 2학년, 1학년
    - 비례 층화 추출법 : 전체 데이터 분포를 반영하여 군집별 데이터를 추출하는 방법
    - 불비례 층화 추출법 : 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출

 

[1-3] 측정과 척도

측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것

척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

 

**척도 종류

  • 질적 척도
    - 명목척도 : 대상이 어느 집단에 속하는지 나타내는 자료
    - 순서척도(서열척도) : 대상이 명목척도이면서 서열 관계를 갖는 자료
  • 양적 척도
    - 구간척도(등간척도) : 측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료
    - 비율척도 : 측정 대상이 구간척도면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료

 

[1-4] 기술통계와 추리통계

  • 기술통계 : 표본 자체 속성이나 특징 파악에 중점을 두는 통계, 자료 요약/조직화/단순화
  • 추리통계 : 수집한 데이터를 바탕으로 추론 및 예측하는 통계
    - 표본에서 얻은 통계치를 바탕으로 오차를 고려하며 모수를 확률적으로 추정하는 통계

 

02. 확률과 확률분포

[1] 확률

  • 독립사건 : A가 발생했을 떄 B의 확률이 변하지 않음
  • 배반사건 : 공통된 부분이 없는 경우 = 동시에 일어날 수 없는 사건
  • 확률 변수 : 확률이 나타날 결과를 수치적 값으로 표현하는 변수
    - 이산확률변수
    - 연속확률변수
  • 확률분포 : 확률변수의 보든 값과 그에 대응하는 확률이 어떻게 분포하는지
    - 이산확률분포 = 확률질량함수
    - 연속확률분포 = 확률밀도함수

[2] 이산확률분포

  1. 베르누이 분포 : 한 번의 시행이 성공 아니면 실패로 나뉠수 있는 확률 p인 분포
  2. 이항 분포 : n번의 베르누이 실행
  3. 기하 분포 : 성공확률 p의 베르누이 실행해서 처음으로 성공이 될때 까지 k번 실패할 확률
  4. 다항 분포 : 이항 분포 확장, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률
  5. 포아송 분포 : 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수
  6. 이산확률변수 : 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수, 서로 배반인 사건들의 합집합의 확률

 

[3] 연속확률분포

  1. 균일 분포 : 연속형 확률변수인 X가 취할 수 있는 모든 값에 대해 같은 확률을 갖고 있는 분포
  2. 정규 분포 : 평균이 n이고, 표준편차가 q인 분포, 낮은 종 모양, 내가 잘 아는거
  3. t-분포 : 평균이 0이고 좌우 대칭, 자유도가 커질수록 표준정규분포와 가까워짐
    ** 자유도 : 모집단에 대한 정보를 주는 독립적인 자료의 개수
  4. 카이제곱 분포 : 자유도가 n인 카이제곱 분포, 동질성검정/모분산 검정을 위해 활용
  5. F 분포 : 분산분석을 위해 활용
    - 두 모집단에 대해 분산이 다른지 같은지 검정하기 위한 가설검정
  6. 연속확률변수 : 특정 구간에 대해 셀 수 없는 변수

 

[4] 통계 개념

  • 기댓값 : 확률변수 X가 취할 수 있는 값의 평균
  • 분산 : 관측값에서 평균을 뺸 값을 제곱, 다 더하고 전체 개수로 나눈, 차이값이 제곱 평균
  • 표준변차 : 분산의 제곱근, 산포도 나타내는 수치
  • 첨도 : 확률분포의 뾰족한 정도 3에 가까울 수록 정규분포
  • 왜도 : 비대칭 정도, 0인 경우 정규분포
    - 왜도 < 0 : 평균 < 중앙값 < 최빈값
    - 왜도 > 0 : 최반값 < 중앙값 < 평균
  • 공분산 : 확률변수 2개의 상관정도, 양수 = 비례, 음수 = 반비례
  • 상관계수 : -1 또는 1,  0이면 관계 없음

 

03. 추정과 가설검정

[1] 추정

  • 모수 추정 : 표본조사를 실시하여 모수 추정
  • 점추정 : 모평균을 하나의 특정값으로 예측
    - 분편추정량 : 추정값과 실제값 차이가 0으로 이상적인 값
  • 구간추정 : 모수가 특정한 구간 안에 존재할 것이라 예상, 신뢰도 95% 혹은 99%

 

[2] 가설검정

모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지 판정하는 과정

  • 귀무가설
    - 실험, 연구를 통해 기각하고자하는 가설, 대립가설과 상반
  • 대립가설
    - 귀무가설이 틀렸다고 판단될 경우 채택되는 가설
  • 1종 오류 : 귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류
  • 2종 오류 : 귀무가설이 사실이 아님에도 귀무가설이 옳다고 결정하는 오류
  • 검정통계량 : 표본으로부터 얻는 값, 귀무가설 채택여부 판단하기 위해 사용
  • 기각역 : 귀무가설을 기각하게 되는 검정통계량 영역, 경계값 = 임곗값
  • 유의수준 : 오류를 범할 확률 최대 허용 한계, 0.01 혹은 0.05
  • 유의확률 : p-value, 귀무가설을 지지하는 정도

 

[3] 비모수검정

모수검정 : 표본의 정규성이 확보

비모수검정 : 정규분포를 가정할 수 없을 때 사용

모수검정 비모수검정
등간척도, 비율척도 명목척도, 서열척도
평균 중앙값
피어슨 상관계수 스피어만 순위상관계수
one sample t-test, two sample t-test, paired t-test, one way anova 부호검정, Wilcoxon 부호순위검정, Mann-Whitney 검정, Kruskai Wallis 검정

 

**비모수검정 종류

  • run test(Wald-Wolfowitz runs test)
  • 부호 검정(binomial sign test)
  • 부호 순위 검정 (WIlcoxon signed-rank test)
  • 프리드만 검정
  • 순위 합 검정
  • 크러스컬-월리스 검정
  • 스피어만 서열상관분석

'ADsP' 카테고리의 다른 글

[ADsp] 3-2-3. 회귀분석  (0) 2023.08.14
[ADsP] 3-2. 통계분석(기초통계)  (0) 2023.08.11
[ADsP] 3-1. R 기초와 데이터 마트  (0) 2023.08.09
[ADsP] 2-2.분석 마스터플랜  (0) 2023.08.08
[ADsP] 2-1.데이터 분석 기획의 이해  (0) 2023.08.07