Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags more
Archives
Today
Total
관리 메뉴

AngzavA

[ADsp] 3-2-3. 회귀분석 본문

ADsP

[ADsp] 3-2-3. 회귀분석

이앙지 2023. 8. 14. 10:50

01. 회귀분석

회귀분석

  • 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법
  • 인과관계가 있다 = 종속변수에 영향을 미친다
  • 독립변수 = 원인변수/설명변수, 종속변수=결과변수/반응변수
  • 독립변수가 1개 = 단순선형회귀분석, 2개 이상 = 다중선형회귀분석

 

회귀분석 종류

  • 단순회귀 : 1개의 독립변수와 반응변수가 직선관계
  • 다중회귀 : k개의 독립변수와 반응변수가 선형관계
  • 다항회귀 : k개의 독립변수와 반응변수가 2차함수 이상의 관계
  • 비선형회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우

 

회귀분석 가정

  • 선형성
    - 독립변수와 종속변수가 선형적
    - 예외적으로 2차함수 회귀선을 갖는 다항회귀분석 = 선형성을 갖지 않아도 됨
    - 상관분석이 필수적
  • 독립성
    - 단순회귀분석에서 잔차와 독리변수 값이 독립
    - 독립변수가 여러 개인 다중회귀분석의 경우에 독립변수들 간에 상관없이 독립
    - 독립변수 간 상관성이 존재하는 경우 =  다중공선성, 제거하고 수행해야함
  • 등분산성
    - 분산이 같다 = 잔차들이 고르게 분포하고 있다
    - 잔차의 중심에서 분산이 같아야 한다, 등분산성을 만족하지 못하면 회귀선은 덩어리 모양을 함
  • 정규성
    - 잔차항이 정규분포 형태
    - Q-Q Plot에서 잔차가 오른쪽으로 상승하는 형태 = 정규성 만족

 

**오차 : 예측값과 실제값의 차이
   잔차 : 표본집단에 의해 추정된 회귀식의 예측값과 실제값의 차이

   잔차도 : 예측값과 실제값의 차이를 나타낸 산점도

 

02. 단순선형회귀분석

단순선형회귀분석

독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계 분석, 두 변수 관계가 선형

최소제곱법을 활용하여 오차가 작은 직선 방정식을 찾음

 

최소제곱법으로 회귀계수 측정

최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것

 

회귀계수

SST(총제곱합) : 전체 설명이 필요

SSE(오차제곱합) : 모형이 설명하지 못하는 부분

SSR(회귀제곱합) : 모형이 설명하는 부분

 

**단순션형회귀 분산분석

요인 제곱 합 자유도 제곱평균 F
회귀 SSR 1 MSR=SSR MSR/MSE
잔차 SSE n-2 MSE=SSE/(n-2)
SST = SSR+SSE n-1  

**다중션형회귀 분산분석

요인 제곱 합 자유도 제곱평균 F
회귀 SSR k MSR=SSR MSR/MSE
잔차 SSE n-k-1 MSE=SSE/(n-k-1)
SST = SSR+SSE n-1  

 

**QQ-plot : 모집단 또는 표본집단의 정규분포를 따르는지 시각적으로 확인하기 위한 산점

 

[회귀분석 결과 보는법]

Estimate = 추정
함수의 기울기 = Estimate의 회귀계수

Std.Error = 표준오차

Pr(>|t|) = P값

 

P값 정리표

 

  p<0.05 p>0.05
F값 F값이 크다 = 집단 간 분산의 차이가 있다 F값이 작다 = 집단 간 분산의 차이가 작다
회귀추세선 회귀추세선이 가파르다 = 기울기가 가파르다
= 회귀계수가 양 혹은 음으로 크다
회귀추세선이 완만하다 = 기울기가 완만하다
= 회귀계수가 양 혹은 음으로 작다
기각역 기각역 안에 있다 = 귀무가설 기각
= 대립가설 채택
기각역 밖에 있다 = 귀무가설 채택
= 대립가설 기각
독립변수 종속변수에 영향을 미침 종속변수에 영향을 미친다보기 어려움
우연히 발생할 확률 우연히 발생했다 보기 어렵다
= 무언가 이유가 있다
= 원인과 결과가 인과관계가 있다
우연히 발생
인과관계 유의미한 인과관계가 있다 없음

 

03. 다중선형회귀분석

다중선형회귀분석 : 독립변수가 2개 이상이고 종속변수가 하나일 때

다중공선성 :회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제 - 존재할 시, 회귀분석의 독립성에 위배

- 다중공신성 진단 
  P-value값이 커서 개별 인자가 유의하지 않은 경우 다중공선성 의심
 VIF(분산팽창요인)을 구해 이 값이 10을 넘으면 다중공신성이 있다고 판단

 

 

04. 최적 회귀방정식

1개의 반응변수 y를 설명하기 위한 k개의 독립변수 후보들이 있을 때 반응변수  y를 잘 설명할 수 있는 회귀식을 찾는 것

 

**변수선택법의 작동 원리에 따른 분류

  • 임베디드 : 부분집합 생성 및 선택 과정이 모형학습 과정에 포함
  • 래퍼 : 특정 모형의 성능 향상에 가장 이상적인 변수조합을 찾는 방법
  • 필터 : 모형학습과 독립적으로 변수 지합 F에서 적합도 평가 지표를 이용하여 기준 조건 충족 변수 선택

 

[1] 변수 선택에 사용되는 성능지표

  • 벌점화 방식 AIC 와 BIC
    - 변수가 증가할수록 편향은 작아지고 분산은 커짐
    - 페널티가 적은 회귀모형이 좋은 회귀모형
  • AIC
    - 모델의 성능지표, MSE에 변수 수만큼 페널티를 줌
  • BIC
    - 표본이 커질때 부정확해지는 단점 보완
    - 표본이 커질수록 정확한 결과가 나옴
  • 멜로우 Cp
    - 최소자승법으로 사용하여 추정된 회귀모형의 적합성 평가

[2] 단계적 변수 선택법

  • 전진선택법 : 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하면서 모형 선택, 안정성 부족
  • 후진제거법 : 가장 적은 영향을 주는 변수부터 하나씩 제거
  • 단계별 방법 : 전진 + 후진

 

05. 고급 회귀분석

[1] 정규화 선형회귀

  • 과적합과 과소적합
    - 과적합 : 모델이 학습 데이터를 과하게 학습, 학습데이터에 너무 맞춰져서 일반화가 어려워진 경우
  • 정규화 선형회귀 : 과적합 방지를 위해 계수 크기 제한
  • 종류
    - 라쏘 : L1 규제, 가중치들의 절댓값의 합을 최소화하는 것을 제약조건으로 추가하는 방법
    - 릿지 : L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법
    - 엘라스틱넷 : 라쏘 + 릿지

[2] 일반화 선형회귀(GLM) : 종속변수가 범주형 자료거나 정규성을 만족하지 못하는 경우 함수로 정의하여 선형결합으로 회귀분석 수행
**구성요소

- 확률 요소

- 선형 예측자

- 연결 함수

 

**종류

- 로지스틱 회귀 : 0또는 1 인 종속변수로 의학연구에 많이 사용, 종속변수와 독립변수간의 관계를 나타냄

- 포아송 회귀 : 특정시간동안 발생한 사건의 건수에 대한 도수 자료인 경우, 정규분포나 등분산성을 만족하지 못하는 경우

 

[3] 더빗 왓슨 검정

- 오차항의 상관관계 : 시계열 데이터의 경우

오차항이 연관성이 없어야함, 공분산 0