AngzavA
[ADsp] 3-2-3. 회귀분석 본문
01. 회귀분석
회귀분석
- 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법
- 인과관계가 있다 = 종속변수에 영향을 미친다
- 독립변수 = 원인변수/설명변수, 종속변수=결과변수/반응변수
- 독립변수가 1개 = 단순선형회귀분석, 2개 이상 = 다중선형회귀분석
회귀분석 종류
- 단순회귀 : 1개의 독립변수와 반응변수가 직선관계
- 다중회귀 : k개의 독립변수와 반응변수가 선형관계
- 다항회귀 : k개의 독립변수와 반응변수가 2차함수 이상의 관계
- 비선형회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우
회귀분석 가정
- 선형성
- 독립변수와 종속변수가 선형적
- 예외적으로 2차함수 회귀선을 갖는 다항회귀분석 = 선형성을 갖지 않아도 됨
- 상관분석이 필수적 - 독립성
- 단순회귀분석에서 잔차와 독리변수 값이 독립
- 독립변수가 여러 개인 다중회귀분석의 경우에 독립변수들 간에 상관없이 독립
- 독립변수 간 상관성이 존재하는 경우 = 다중공선성, 제거하고 수행해야함 - 등분산성
- 분산이 같다 = 잔차들이 고르게 분포하고 있다
- 잔차의 중심에서 분산이 같아야 한다, 등분산성을 만족하지 못하면 회귀선은 덩어리 모양을 함 - 정규성
- 잔차항이 정규분포 형태
- Q-Q Plot에서 잔차가 오른쪽으로 상승하는 형태 = 정규성 만족
**오차 : 예측값과 실제값의 차이
잔차 : 표본집단에 의해 추정된 회귀식의 예측값과 실제값의 차이
잔차도 : 예측값과 실제값의 차이를 나타낸 산점도
02. 단순선형회귀분석
단순선형회귀분석
독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계 분석, 두 변수 관계가 선형
최소제곱법을 활용하여 오차가 작은 직선 방정식을 찾음
최소제곱법으로 회귀계수 측정
최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것
회귀계수
SST(총제곱합) : 전체 설명이 필요
SSE(오차제곱합) : 모형이 설명하지 못하는 부분
SSR(회귀제곱합) : 모형이 설명하는 부분
**단순션형회귀 분산분석
요인 | 제곱 합 | 자유도 | 제곱평균 | F |
회귀 | SSR | 1 | MSR=SSR | MSR/MSE |
잔차 | SSE | n-2 | MSE=SSE/(n-2) | |
총 | SST = SSR+SSE | n-1 |
**다중션형회귀 분산분석
요인 | 제곱 합 | 자유도 | 제곱평균 | F |
회귀 | SSR | k | MSR=SSR | MSR/MSE |
잔차 | SSE | n-k-1 | MSE=SSE/(n-k-1) | |
총 | SST = SSR+SSE | n-1 |
**QQ-plot : 모집단 또는 표본집단의 정규분포를 따르는지 시각적으로 확인하기 위한 산점
[회귀분석 결과 보는법]
Estimate = 추정
함수의 기울기 = Estimate의 회귀계수
Std.Error = 표준오차
Pr(>|t|) = P값
P값 정리표
p<0.05 | p>0.05 | |
F값 | F값이 크다 = 집단 간 분산의 차이가 있다 | F값이 작다 = 집단 간 분산의 차이가 작다 |
회귀추세선 | 회귀추세선이 가파르다 = 기울기가 가파르다 = 회귀계수가 양 혹은 음으로 크다 |
회귀추세선이 완만하다 = 기울기가 완만하다 = 회귀계수가 양 혹은 음으로 작다 |
기각역 | 기각역 안에 있다 = 귀무가설 기각 = 대립가설 채택 |
기각역 밖에 있다 = 귀무가설 채택 = 대립가설 기각 |
독립변수 | 종속변수에 영향을 미침 | 종속변수에 영향을 미친다보기 어려움 |
우연히 발생할 확률 | 우연히 발생했다 보기 어렵다 = 무언가 이유가 있다 = 원인과 결과가 인과관계가 있다 |
우연히 발생 |
인과관계 | 유의미한 인과관계가 있다 | 없음 |
03. 다중선형회귀분석
다중선형회귀분석 : 독립변수가 2개 이상이고 종속변수가 하나일 때
다중공선성 :회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제 - 존재할 시, 회귀분석의 독립성에 위배
- 다중공신성 진단
P-value값이 커서 개별 인자가 유의하지 않은 경우 다중공선성 의심
VIF(분산팽창요인)을 구해 이 값이 10을 넘으면 다중공신성이 있다고 판단
04. 최적 회귀방정식
1개의 반응변수 y를 설명하기 위한 k개의 독립변수 후보들이 있을 때 반응변수 y를 잘 설명할 수 있는 회귀식을 찾는 것
**변수선택법의 작동 원리에 따른 분류
- 임베디드 : 부분집합 생성 및 선택 과정이 모형학습 과정에 포함
- 래퍼 : 특정 모형의 성능 향상에 가장 이상적인 변수조합을 찾는 방법
- 필터 : 모형학습과 독립적으로 변수 지합 F에서 적합도 평가 지표를 이용하여 기준 조건 충족 변수 선택
[1] 변수 선택에 사용되는 성능지표
- 벌점화 방식 AIC 와 BIC
- 변수가 증가할수록 편향은 작아지고 분산은 커짐
- 페널티가 적은 회귀모형이 좋은 회귀모형 - AIC
- 모델의 성능지표, MSE에 변수 수만큼 페널티를 줌 - BIC
- 표본이 커질때 부정확해지는 단점 보완
- 표본이 커질수록 정확한 결과가 나옴 - 멜로우 Cp
- 최소자승법으로 사용하여 추정된 회귀모형의 적합성 평가
[2] 단계적 변수 선택법
- 전진선택법 : 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하면서 모형 선택, 안정성 부족
- 후진제거법 : 가장 적은 영향을 주는 변수부터 하나씩 제거
- 단계별 방법 : 전진 + 후진
05. 고급 회귀분석
[1] 정규화 선형회귀
- 과적합과 과소적합
- 과적합 : 모델이 학습 데이터를 과하게 학습, 학습데이터에 너무 맞춰져서 일반화가 어려워진 경우 - 정규화 선형회귀 : 과적합 방지를 위해 계수 크기 제한
- 종류
- 라쏘 : L1 규제, 가중치들의 절댓값의 합을 최소화하는 것을 제약조건으로 추가하는 방법
- 릿지 : L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법
- 엘라스틱넷 : 라쏘 + 릿지
[2] 일반화 선형회귀(GLM) : 종속변수가 범주형 자료거나 정규성을 만족하지 못하는 경우 함수로 정의하여 선형결합으로 회귀분석 수행
**구성요소
- 확률 요소
- 선형 예측자
- 연결 함수
**종류
- 로지스틱 회귀 : 0또는 1 인 종속변수로 의학연구에 많이 사용, 종속변수와 독립변수간의 관계를 나타냄
- 포아송 회귀 : 특정시간동안 발생한 사건의 건수에 대한 도수 자료인 경우, 정규분포나 등분산성을 만족하지 못하는 경우
[3] 더빗 왓슨 검정
- 오차항의 상관관계 : 시계열 데이터의 경우
오차항이 연관성이 없어야함, 공분산 0
'ADsP' 카테고리의 다른 글
[ADsP] 3-2. 통계분석(기초통계) (0) | 2023.08.11 |
---|---|
[ADsP] 3-2. 통계분석(통계의 이해) (0) | 2023.08.10 |
[ADsP] 3-1. R 기초와 데이터 마트 (0) | 2023.08.09 |
[ADsP] 2-2.분석 마스터플랜 (0) | 2023.08.08 |
[ADsP] 2-1.데이터 분석 기획의 이해 (0) | 2023.08.07 |