AngzavA
[ADsP] 2-1.데이터 분석 기획의 이해 본문
01-01. 분석 기획과 분석 방법론
[1] 분석 기획의 정의와 특징
정의 - 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업
특징 - 데이터 사이언티스트 요구 역량등이 요구
**분석 대상과 그 방법에 따른 4가지 분석 주제
분석의 대상 What |
|||
Known | Unknown | ||
분석의 방법 How |
Known | 최적화 Optimization |
통찰력 Insight |
Unknown | 해결책 Solution |
발견 Discovery |
- 분석 대상을 알고 + 분석 방법을 안다 = 최적화
- 분석 대상을 알고 + 분석 방법을 모른다 = 솔루션
- 분석 대상을 모르고 + 분석 방법을 모른다 = 발견
- 분석 대상을 모르고 + 분석 방법을 안다 = 통찰
** 목표 시점별 분석 기획
- 과제 중심적인 접근 방식(당면한 분석 주제 해결), Speed&Test, Quick&Win, Problem Solving
- 장기적인 마스터플랜 방식(지속적 분석 문화 내재화), Accuracy&Deploy, Long Term View, Problem Definition
[2] 분석 기획 시 고려사항
- 가용 데이터 고려 : 데이터가 확보될 수 있는지에 대한 고려
- 적절한 활용 방안과 유스케이스의 탐색
- 장애요소에 대한 사전 계획 수립
01-02. 분석 방법론 개요
[1] 분석 방법론 개요
분석 방법론 = 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차
**방법론 구성요소의 이해
- 상세한 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
**기업의 합리적 의사결정 방해요소 : 고정 관념, 편향된 생각, 프레이밍 효과
**분석 방법론 생성 과정
암묵지 - (형식화) - 형식지 - (체계화) - 방법론 - (내재화) - 암묵지
[2] 분석 방법론이 적용되는 업무 특성에 따른 모델
- 폭포수 모델
- 프로토타입 모델
- 나선형 모델
- 계층적 프로세스 모델 - 일반적 분석 방법론
- 단계 : 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
- 태스크 : 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
- 스텝 : WBS의 워크패키지에 해당하고, 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스
01-03. 전통적인 분석 방법론 두 가지
[1] KDD 분석 방법론
데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
[1단계] 데이터셋 선택
- 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
- 분석에 필요한 데이터를 선택 - 타깃 데이터 생성
[2단계] 데이터 전처리
- 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공
- 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행
[3단계] 데이터 변환
- 변수를 생성/선택하고 데이터의 차원을 축소
- 학습용 데이터와 검증용 데이터를 분리
[4단계] 데이터 마이닝
- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용
- 필요에 따라 전처리와 변환 프로세스도 추가
[5단계] 해석과 평가
- 분석 목적과의 일치성을 확인하고 평가
- 발견한 지식을 업무에 활용하기 위한 방안 마련
[2] CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining), KDD에서 좀 더 세분화
단계 / 일반화 태스크 / 세분화 태스크 / 프로세스 실행 = 4레벨
업무 이해 / 데이터 이해 / 데이터 준비 / 모델링 / 평가 / 전개 = 6단계
[1단계] 업무 이해 - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
[2단계] 데이터 이해 - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
[3단계] 데이터 준비 - 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포매팅
[4단계] 모델링 - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
[5단계] 평가 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
[6단계] 전개 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
01-04. 빅데이터 분석 방법론
[1] 빅데이터 분석 방법론 개요
3레벨, 5단계(프로세스 그룹)
**빅데이터 분석 방법론의 계층적 프로세스
분석 기획 / 데이터 준비 / 데이터 분석 / 시스템 구현 / 평가 및 전개
**5단계 빅데이터 분석 방법론 플로우
단계 | 태스크 | 스텝 |
[1단계] 분석 기획 | 비즈니스 이해 및 범위 설정 | 비즈니스 이해, 프로젝트 범위 설정 |
프로젝트 정의 및 계획 수립 | 데이터 분석 프로젝트 정의, 프로젝트 수행 계획 수립 | |
프로젝트 위험 계획 수립 | 데이터 분석 위험 식별, 위험 대응 계획 수립 | |
[2단계] 데이터 준비 | 필요 데이터 정의 | 데이터 정의, 데이터 획득 방안 수립 |
데이터 스토어 설계 | 정형 데이터 스토어 설계, 비정형 데이터 스토어 설계 | |
데이터 수집 및 정합성 검정 | 데이터 수집 및 저장, 데이터 정합성 검정 | |
[3단계] 데이터 분석 | 분석용 데이터 준비 | 비즈니스 룰 확인, 분석용 데이터셋 준비 |
텍스트 분석 | 텍스트 데이터 확인 및 추출, 텍스트 데이터 분석 | |
탐색적 분석 | 탐색적 데이터 분석, 데이터 시각화 | |
모델링 | 데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안 | |
모델 평가 및 검증 | 모델 평가, 모델 검증 | |
[4단계] 시스템 구현 | 설계 및 구현 | 시스템 분석 및 설계, 시스템 구현 |
시스템 테스트 및 운영 | 시스템 테스트, 시스템 운영 계획 | |
[5단계] 평가 및 전개 | 모델 발전 계획 | 모델 발전 계획 |
프로젝트 평가 및 보고 | 프로젝트 성과 평가, 프로젝트 종료 |
**위험 대응 계획 수립 : 회피, 전이, 완화, 수용
**산출물
- 요구사항 정의서 : 개발이나 분석이 수행되길 원하는 고객이 무엇을 원하는지 정확히 파악하기 위해 작성하는 문서
- 업무분업구조(WBS) : 개발이나 분석을 수행하는 전체 과정을 수십 개, 수백 개 또는 수천 개의 작은 단위의 업무로 나누어 수행 담당자 및 수행 기간 등을 작성한 문서
- 프로그램 목록(명세서) : 개발이나 분석을 수행하는 중간 과정의 프로그램이나 모델을 관리하기 위한 문서
- 데이터 정의서 : 다수의 인원으로 구성된 프로젝트를 수행할 때 변수 및 데이터를 생성한 작성자의 의도를 정의한 문서, 데이터의 일관성 유지를 목표로 함
- 개체-관계 다이어그램(ERD) : 데이터와 개체의 관계를 그림과 글로 표현, 효율적인 데이터 운영으로 목적
- (클라우드) 자원 명세 : 개발이나 분석을 수행하기 위한 컴퓨팅 자원 명세
02-1. 분석 과제 발굴
분석 과제 탐색 방법
- 하향식 접근법 : 과제가 무엇인지 찾기(분석 대상을 알고있다면)
- 상향식 접근법 : 데이터의 조합 속에서 인사이트를 찾음(분석 대상을 모른다면)
**분석 대상과 그 방법에 따른 4가지 분석 주제
분석의 대상 What |
|||||
Known | Unknown | ||||
분석의 방법 How |
Known | 하향식 접근법 | 최적화 Optimization |
통찰력 Insight |
상향식 접근법 |
Unknown | 해결책 Solution |
발견 Discovery |
- 분석 대상을 알고 + 분석 방법을 안다 = 최적화 = 하향식
- 분석 대상을 알고 + 분석 방법을 모른다 = 솔루션 = 하향식
- 분석 대상을 모르고 + 분석 방법을 모른다 = 발견 = 상향식
- 분석 대상을 모르고 + 분석 방법을 안다 = 통찰 = 상향식
**분석 대상을 안다 = 하향식
- 문제 탐색 단계
- 비즈니스 모델 탐색 기법
- 분석기회 발굴 및 범위 확장
- 외부 참조 모델 기반 문제 탐색
- 분석 유스케이스 - 문제 정의 단계 : 식별된 비즈니스 문제를 데이터 문제로 변환하여 과제를 정의
- 해결 방안 탐색 단계 : 과제 정의 후 어떻게 해결한 것인지 그 방안을 탐색
- 타당성 검토 단계 : 경제적 타당성, 기술적 타당성 검토
**분석 대상을 모른다 = 상향식
- 지도, 비지도 학습 - 지도 학습 / 비지도 학습
- 프로토타입 : 시행착오 해결법
02-2. 디자인 씽킹
[1] IDEO사의 디자인 씽킹
문제 발견 + 솔루션 제시
발산(상향식) + 수렴(하향식) > 수렴과 발산 반복
[2] 스탠퍼드 대학 d.school의 디자인 씽킹 = 상향식 접근
02-3. 하향식 접근법
[1] 1단계 - 문제 탐색 단계
비즈니스 모델 탐색 기법 - 9가지 블록, 5가지 단순화 탐색 기법
업무 / 제품 / 고객 / 규제와 감사 / 자원 인프라
**분석 기회 발굴 범위의 확장
- 거시적 관점 : 문제 혹은 변화가 기업에 주는 영향 탐색
- 경쟁자 확대 관점 : 기업에 위협이 될 상황을 탐색
- 시장의 니즈 탐색 : 시장의 니즈 탐색 관점에서 문제를 탐색
- 역량의 재해석 : 역량의 재해석 관점으로 다시 기업 내부를 둘러봄
세부 과제로 도출하기 전에 '분석 유스케이스'로 정의 > 이후 풀어낼 방법과 효과 명시
[2] 2단계 - 문제 정의 단계
- 1단계를 달성하는 데 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환 수행
- 정의는 최종 사용자의 관점에서 이루어져야함
[3] 3단계 - 해결 방안 탐색 단계
[4] 4단계 - 타당성 검토 단계
- 경제적 타당성 검토
- 데이터 및 기술적 타당성 검토
02-4. 상향식 접근법
빅데이터 > 분석 > 가치
[1] 지도학습
- 정답이 있는 데이터를 활용항 분석 모델을 학습시키는 것
- 레이블 범주형 - 분류
- 레이블 연속형 - 회귀
[2] 비지도학습(일반적)
- 정답을 알려주지 않고 학습
- 비슷한 특징끼리 군집화하여 결과 예측
[3] 프로토타이핑 접근법 = 시행착오 해결법
프로세스 : 가설의 생성 - 디자인에 대한 실험 - 실제 환경에서 테스트 - 테스트 결과로부터 인사이트 도출 및 가설 확인
**필요한 경우
- 문제에 대한 인식 수준이 낮거나 불명확할 경우
- 필요 데이터의 존재 여부가 불확실할 경우
- 데이터의 사용 목적이 고정되지 않고 변화할 경우
03-1. 분석 프로젝트 관리
[1] 분석 과제의 5가지 주요 속성을 고려한 관리
- 데이터의 양
- 데이터 복잡도
- 분석의 속도
- 분석 복잡도
- 정확도 & 정밀도
[2] 분석 과제 관리 방안
관리영역 : 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통
**능력 성숙도 통합 모델(CMMI)
1단계 : 개인의 역량이 프로젝트의 성공과 실패를 나누는 주요 요인으로 프로젝트의 개발 프로세스가 거의 없다
2단계 : 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스하에서 통제되는 상태다
3단계 : 2단계에서 존재하지 않는 조직을 관리하기 위한 프로세스가 존재하는 상태다
4단계 : 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태다
5단계 : 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태다
'ADsP' 카테고리의 다른 글
[ADsP] 3-2. 통계분석(통계의 이해) (0) | 2023.08.10 |
---|---|
[ADsP] 3-1. R 기초와 데이터 마트 (0) | 2023.08.09 |
[ADsP] 2-2.분석 마스터플랜 (0) | 2023.08.08 |
[ADsP] 1-2.데이터의 가치와 미래 (0) | 2023.08.07 |
[ADsP] 1-1.데이터의 이해 (0) | 2023.07.25 |