Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags more
Archives
Today
Total
관리 메뉴

AngzavA

[ADsP] 3-1. R 기초와 데이터 마트 본문

ADsP

[ADsP] 3-1. R 기초와 데이터 마트

이앙지 2023. 8. 9. 11:27

02. 데이터 마트

[1] 데이터 마트

데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스

데이터를 수집하고 변형하여 모으는 작업 = 데이터 마트 개발

 

02-1. 데이터 마트 개발을 위한 R 패키지 활용

[1] reshape 패키지

데이터 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수, 유연한 데이터 재구성 및 총계 처리가 가능

  • melt : 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터 제작
  • cast : melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공

[2] sqldf 패키지

PROC SQL과 같은 역할

 

[3] plyr 패키지

apply 함수 기반

  입력 데이터 구조
데이터프레임 리스트 배열
출력 데이터 구조 데이터프레임 ddply ldply adply
리스트 dlply llply alply
배열 daply laply aaply

 

[4] data.table 패키지

데이터프레임과 유사, 인덱스 생성하여 빠른 속도로 데이터 탐색, 연산

 

 

03. 데이터 탐색

[1] 탐색적 데이터 분석(EDA)

데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석

ex) IRIS 데이터 : 종, 받침 길이, 받침 폭, 잎 길이, 잎 폭

 

[2] 결측값 : 존재하지 않는 데이터

NA로 표현, null/공백/-1 등으로도 표현

대표 프레임 : Amelia, DMwR2

 

결측값 대치 방법

  • 단순 대치법
    결측값이 존재하는 데이터를 삭제
    대량의 데이터 손실 발생 가능
    함수 : complete.cases - 존재하면 FALSE, 없으면 TRUE
  • 평균 대치법
    평균 혹은 중앙값으로 대치
    - 비조건부 평균 대치법 : 평균값으로 결측값 대치
    - 조건부 평균 대치법 : 실제 값을 분석하여 회귀분석 활용
    함수 : DMwR2 패키지 - central Imputation 함수
  • 단순 확률 대치법
    평균 대치법의 추정량 표준 오차의 과소 추정 문제 보완
    함수 :  K-Nearest Neighbor - K 최근접 이웃 알고리즘, K개 데이터 중 가장 많은 데이터로 대치
  • 다중 대치법
    여러번의 대치를 통해 n개의 임의 완전자료 구성
    대치 - 분석 - 결합 3단계

[3] 이상값 : 다른 값과 비교시 극단적으로 크거나 극단적으로 작은 값

 

이상값 판단

  • ESD(Extreme Studentized Deviation) : 표준편차 3만큼 떨어진 값을 이상값으로 인식. 0.3%
  • 사분위수 : Q1 - 1.5*1QR > X > Q3 + 1.5*1QR
    **Q2는 median