목록ADsP (8)
AngzavA
01. 회귀분석 회귀분석 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법 인과관계가 있다 = 종속변수에 영향을 미친다 독립변수 = 원인변수/설명변수, 종속변수=결과변수/반응변수 독립변수가 1개 = 단순선형회귀분석, 2개 이상 = 다중선형회귀분석 회귀분석 종류 단순회귀 : 1개의 독립변수와 반응변수가 직선관계 다중회귀 : k개의 독립변수와 반응변수가 선형관계 다항회귀 : k개의 독립변수와 반응변수가 2차함수 이상의 관계 비선형회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 회귀분석 가정 선형성 - 독립변수와 종속변수가 선형적 - 예외적으로 2차함수 회귀선을 갖는 다항회귀분석 = 선형성을 갖지 않아도 됨 - 상관분석이 필수적 독립성 - 단순회귀분석에서 잔차와 독리변수 값..
01. t-검정 [1] 일 표본 t-검정(one sample t-test) 가설검정의 일종, 하나의 모집단의 평균값과 특정값을 비교하는 방법 일 표본 단측 t-검정 : 모수값이 한쪽으로 방향성을 갖는 경우 일 표본 양측 t-검정 : 모수값이 방향성이 없는 경우 [2] 이(독립) 표본 t-검정(independent sample t-test) 서로 독립적인 두 개의 집단에 대해 모수의 값이 같은 값을 갖는지 통계적 검정하는 방법 = 독립표본 t-검정 등분산 검정(F 검정)을 먼저 수행 이 표본 단측 t-검정 : 두집단 모수 비교할때 대소가 있는 경우 수행 이 표본 양측 t-검정 : 두집단 모수 비교할때 대소가 없는 경우 수행 [3] 대응 표본 t-검정(paired t-test) 동일한 대상에 대해 두 가지 ..
01. 통계 개요 [1-1] 통계 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정을 하는 과정 표본조사 : 표본의 대표성을 신뢰할 수 있어야 표본조사를 통계분석을 신뢰할 수 있다.. 중요 [1-2] 표본 추출 방법 단순 랜덤 추출법 : ㄹㅇ 단순 랜덤 계통 추출법 : 일정한 간격을 두고 번호를 둔 뒤 추출하는 방법 집락(군집: Cluster) 추출법 : 여러 집락으로 구분한 뒤, 랜덤 추출법에 의해 데이터를 추출하는 것. - 각 집락은 동질적, 집락 내 데이터는 이질적 ex) 3-1, 2-1, 1-1 층화 추출법 : 집락과 유사하나 반대..
02. 데이터 마트 [1] 데이터 마트 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 데이터를 수집하고 변형하여 모으는 작업 = 데이터 마트 개발 02-1. 데이터 마트 개발을 위한 R 패키지 활용 [1] reshape 패키지 데이터 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수, 유연한 데이터 재구성 및 총계 처리가 가능 melt : 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터 제작 cast : melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공 [2] sqldf 패키지 PROC SQL과 같은 역할 [3] plyr 패키지 apply 함수..
01. 마스터플랜 수립 01-1. 마스터플랜 수립 [1] 분석 마스터플랜 : 하나의 분석 프로젝트를 위한 전체 설계도 - 하향식 접근법, 우선순위를 결정하고 상황과 방식을 결정하여 로드맵을 수립 [2] 분석 마스터플랜 수립 프레임워크 우선순위 고려 : 전략적 중요도, 비즈니스 성과/ROI, 실행 용이성 적용범위 / 방식 고려 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준 **ROI : Return On Investment = 투자 효율 평가 재무 지표 01-2. 수행 과제 도출 및 우선순위 평가 [1] 일반적 IT 프로젝트 우선순위 평가 전략적 중요도 - 전략적 필요성 : 전략적 목표 및 본원적 업무에 직접적인 연관관계 밀접 정도, 이슈 미해결 시 발생할 위험 및 손실에 대한 정도..
01-01. 분석 기획과 분석 방법론 [1] 분석 기획의 정의와 특징 정의 - 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업 특징 - 데이터 사이언티스트 요구 역량등이 요구 **분석 대상과 그 방법에 따른 4가지 분석 주제 분석의 대상 What Known Unknown 분석의 방법 How Known 최적화 Optimization 통찰력 Insight Unknown 해결책 Solution 발견 Discovery 분석 대상을 알고 + 분석 방법을 안다 = 최적화 분석 대상을 알고 + 분석 방법을 모른다 = 솔루션 분석 대상을 모르고 + 분석 방법을 모른다 = 발견 분석 대상을 모르고 + 분석 방법을 안다 = 통찰 ** 목표 시점..
01. 빅데이터의 이해 [정의] 일반적 정의 : 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합 가트너 정의 : 더 나은 의사결정을 위해 사용되는 정보 자산 매킨지 정의 : DB가 관리할 수 있는 범위를 초과하는 규모의 데이터 IDC 정의 : 낮은 비용으로 가치를 추출하고, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처 일본 노무라연구소 정의 : 정보 도출은 물론이고, 인재나 조직까지의 넓은 의미 더그 래니의 정의(3V) : 양(Volume), 다양성(Variety), 속도(Velocity) 마이어쇤베르크와 쿠키어의 정의 : 새로운 통찰이나 가치, 많은 분야에 변화를 가져오는 일 한국데이터산업진흥원 : 새로운 통찰과 가치를 창출하는 모든 것 [특..
[데이터] 데이터의 특성 존재적 특성 = 데이터란 있는 그대로의 사실 당위적 특성 = 데이터는 추론,예측,전망,추정을 위한 근거 데이터의 유형 정성적 데이터 = 기준이 명확하지 않은 데이터 정량적 데이터 = 수치, 도형, 기호 등 정형 데이터 = 고정된 틀을 가지고 있고, 연산이 가능한 데이터 / 관계형 데이터베이스 : csv, 엑셀 스프레드시트 비정형 데이터 = 고정된 틀 X, 연산 불가 / NoSQL : 댓글, 영상 등 반정형 데이터 = 고정된 틀 O, 연산 불가 / 파일 형태 저장 : xml, json 등 암묵지 : 겉으로 드러나지 않는 상태의 지식 형식지 : 매뉴얼처럼 공유할 수 있는 지식 암묵지 -> 형식지 = 표출화, 공통화 형식지 -> 암묵지 = 내면화, 연결화 데이터와 정보 [DIKW 피라..