AngzavA
[ADsP] 3-1. R 기초와 데이터 마트 본문
02. 데이터 마트
[1] 데이터 마트
데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
데이터를 수집하고 변형하여 모으는 작업 = 데이터 마트 개발
02-1. 데이터 마트 개발을 위한 R 패키지 활용
[1] reshape 패키지
데이터 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수, 유연한 데이터 재구성 및 총계 처리가 가능
- melt : 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터 제작
- cast : melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공
[2] sqldf 패키지
PROC SQL과 같은 역할
[3] plyr 패키지
apply 함수 기반
입력 데이터 구조 | ||||
데이터프레임 | 리스트 | 배열 | ||
출력 데이터 구조 | 데이터프레임 | ddply | ldply | adply |
리스트 | dlply | llply | alply | |
배열 | daply | laply | aaply |
[4] data.table 패키지
데이터프레임과 유사, 인덱스 생성하여 빠른 속도로 데이터 탐색, 연산
03. 데이터 탐색
[1] 탐색적 데이터 분석(EDA)
데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석
ex) IRIS 데이터 : 종, 받침 길이, 받침 폭, 잎 길이, 잎 폭
[2] 결측값 : 존재하지 않는 데이터
NA로 표현, null/공백/-1 등으로도 표현
대표 프레임 : Amelia, DMwR2
결측값 대치 방법
- 단순 대치법
결측값이 존재하는 데이터를 삭제
대량의 데이터 손실 발생 가능
함수 : complete.cases - 존재하면 FALSE, 없으면 TRUE - 평균 대치법
평균 혹은 중앙값으로 대치
- 비조건부 평균 대치법 : 평균값으로 결측값 대치
- 조건부 평균 대치법 : 실제 값을 분석하여 회귀분석 활용
함수 : DMwR2 패키지 - central Imputation 함수 - 단순 확률 대치법
평균 대치법의 추정량 표준 오차의 과소 추정 문제 보완
함수 : K-Nearest Neighbor - K 최근접 이웃 알고리즘, K개 데이터 중 가장 많은 데이터로 대치 - 다중 대치법
여러번의 대치를 통해 n개의 임의 완전자료 구성
대치 - 분석 - 결합 3단계
[3] 이상값 : 다른 값과 비교시 극단적으로 크거나 극단적으로 작은 값
이상값 판단
- ESD(Extreme Studentized Deviation) : 표준편차 3만큼 떨어진 값을 이상값으로 인식. 0.3%
- 사분위수 : Q1 - 1.5*1QR > X > Q3 + 1.5*1QR
**Q2는 median
'ADsP' 카테고리의 다른 글
[ADsP] 3-2. 통계분석(기초통계) (0) | 2023.08.11 |
---|---|
[ADsP] 3-2. 통계분석(통계의 이해) (0) | 2023.08.10 |
[ADsP] 2-2.분석 마스터플랜 (0) | 2023.08.08 |
[ADsP] 2-1.데이터 분석 기획의 이해 (0) | 2023.08.07 |
[ADsP] 1-2.데이터의 가치와 미래 (0) | 2023.08.07 |