Notice
Recent Posts
Recent Comments
Link
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
Tags more
Archives
Today
Total
관리 메뉴

AngzavA

[ADsP] 2-1.데이터 분석 기획의 이해 본문

ADsP

[ADsP] 2-1.데이터 분석 기획의 이해

이앙지 2023. 8. 7. 18:19

01-01. 분석 기획과 분석 방법론

[1] 분석 기획의 정의와 특징

정의 - 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업

특징 - 데이터 사이언티스트 요구 역량등이 요구

 

**분석 대상과 그 방법에 따른 4가지 분석 주제

  분석의 대상
What
Known Unknown
분석의 방법
How
Known 최적화
Optimization
통찰력
Insight
Unknown 해결책
Solution
발견
Discovery
  • 분석 대상을 알고 + 분석 방법을 안다 = 최적화
  • 분석 대상을 알고 + 분석 방법을 모른다 = 솔루션
  • 분석 대상을 모르고 + 분석 방법을 모른다 = 발견
  • 분석 대상을 모르고 + 분석 방법을 안다 = 통찰

** 목표 시점별 분석 기획

- 과제 중심적인 접근 방식(당면한 분석 주제 해결), Speed&Test, Quick&Win, Problem Solving

- 장기적인 마스터플랜 방식(지속적 분석 문화 내재화), Accuracy&Deploy, Long Term View, Problem Definition

 

 

[2] 분석 기획 시 고려사항

  1. 가용 데이터 고려 : 데이터가 확보될 수 있는지에 대한 고려
  2. 적절한 활용 방안과 유스케이스의 탐색
  3. 장애요소에 대한 사전 계획 수립

 

01-02. 분석 방법론 개요

[1] 분석 방법론 개요

분석 방법론 = 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차

 

**방법론 구성요소의 이해

  • 상세한 절차
  • 방법
  • 도구와 기법
  • 템플릿과 산출물

**기업의 합리적 의사결정 방해요소 : 고정 관념, 편향된 생각, 프레이밍 효과

 

**분석 방법론 생성 과정

암묵지 - (형식화) - 형식지 - (체계화) - 방법론 - (내재화) - 암묵지

 

[2] 분석 방법론이 적용되는 업무 특성에 따른 모델

  1. 폭포수 모델
  2. 프로토타입 모델
  3. 나선형 모델
  4. 계층적 프로세스 모델 - 일반적 분석 방법론
    - 단계 : 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
    - 태스크 : 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
    - 스텝 : WBS의 워크패키지에 해당하고, 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스

 

 

01-03. 전통적인 분석 방법론 두 가지

[1] KDD 분석 방법론

데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스

 

[1단계] 데이터셋 선택 
- 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수

- 분석에 필요한 데이터를 선택 - 타깃 데이터 생성

[2단계] 데이터 전처리

- 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공

- 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행

[3단계] 데이터 변환

- 변수를 생성/선택하고 데이터의 차원을 축소

- 학습용 데이터와 검증용 데이터를 분리

[4단계] 데이터 마이닝

- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용

- 필요에 따라 전처리와 변환 프로세스도 추가

[5단계] 해석과 평가

- 분석 목적과의 일치성을 확인하고 평가

- 발견한 지식을 업무에 활용하기 위한 방안 마련

 

[2] CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining), KDD에서 좀 더 세분화

단계 / 일반화 태스크 / 세분화 태스크 / 프로세스 실행 = 4레벨

업무 이해 / 데이터 이해 / 데이터 준비 / 모델링 / 평가 / 전개 = 6단계

 

[1단계] 업무 이해 - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

[2단계] 데이터 이해 - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

[3단계] 데이터 준비 - 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포매팅

[4단계] 모델링 - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

[5단계] 평가 - 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

[6단계] 전개 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

01-04. 빅데이터 분석 방법론

[1] 빅데이터 분석 방법론 개요

3레벨, 5단계(프로세스 그룹)

 

**빅데이터 분석 방법론의 계층적 프로세스

분석 기획 / 데이터 준비 / 데이터 분석 / 시스템 구현 / 평가 및 전개

**5단계 빅데이터 분석 방법론 플로우

단계 태스크 스텝
[1단계] 분석 기획 비즈니스 이해 및 범위 설정 비즈니스 이해, 프로젝트 범위 설정
프로젝트 정의 및 계획 수립 데이터 분석 프로젝트 정의, 프로젝트 수행 계획 수립
프로젝트 위험 계획 수립 데이터 분석 위험 식별, 위험 대응 계획 수립
[2단계] 데이터 준비 필요 데이터 정의 데이터 정의, 데이터 획득 방안 수립
데이터 스토어 설계 정형 데이터 스토어 설계, 비정형 데이터 스토어 설계
데이터 수집 및 정합성 검정 데이터 수집 및 저장, 데이터 정합성 검정
[3단계] 데이터 분석 분석용 데이터 준비 비즈니스 룰 확인, 분석용 데이터셋 준비
텍스트 분석 텍스트 데이터 확인 및 추출, 텍스트 데이터 분석
탐색적 분석 탐색적 데이터 분석, 데이터 시각화
모델링 데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안
모델 평가 및 검증 모델 평가, 모델 검증
[4단계] 시스템 구현 설계 및 구현 시스템 분석 및 설계, 시스템 구현
시스템 테스트 및 운영 시스템 테스트, 시스템 운영 계획
[5단계] 평가 및 전개 모델 발전 계획 모델 발전 계획
프로젝트 평가 및 보고 프로젝트 성과 평가, 프로젝트 종료

**위험 대응 계획 수립 : 회피, 전이, 완화, 수용

 

 

**산출물

  1. 요구사항 정의서 : 개발이나 분석이 수행되길 원하는 고객이 무엇을 원하는지 정확히 파악하기 위해 작성하는 문서
  2. 업무분업구조(WBS) : 개발이나 분석을 수행하는 전체 과정을 수십 개, 수백 개 또는 수천 개의 작은 단위의 업무로 나누어 수행 담당자 및 수행 기간 등을 작성한 문서
  3. 프로그램 목록(명세서) : 개발이나 분석을 수행하는 중간 과정의 프로그램이나 모델을 관리하기 위한 문서
  4. 데이터 정의서 : 다수의 인원으로 구성된 프로젝트를 수행할 때 변수 및 데이터를 생성한 작성자의 의도를 정의한 문서, 데이터의 일관성 유지를 목표로 함
  5. 개체-관계 다이어그램(ERD) : 데이터와 개체의 관계를 그림과 글로 표현, 효율적인 데이터 운영으로 목적
  6. (클라우드) 자원 명세 : 개발이나 분석을 수행하기 위한 컴퓨팅 자원 명세

 

02-1. 분석 과제 발굴

분석 과제 탐색 방법

  • 하향식 접근법 : 과제가 무엇인지 찾기(분석 대상을 알고있다면)
  • 상향식 접근법 : 데이터의 조합 속에서 인사이트를 찾음(분석 대상을 모른다면)

**분석 대상과 그 방법에 따른 4가지 분석 주제

    분석의 대상
What
 
Known Unknown
분석의 방법
How
Known 하향식 접근법 최적화
Optimization
통찰력
Insight
상향식 접근법
Unknown 해결책
Solution
발견
Discovery

 

  • 분석 대상을 알고 + 분석 방법을 안다 = 최적화 = 하향식
  • 분석 대상을 알고 + 분석 방법을 모른다 = 솔루션 = 하향식
  • 분석 대상을 모르고 + 분석 방법을 모른다 = 발견 = 상향식
  • 분석 대상을 모르고 + 분석 방법을 안다 = 통찰 = 상향식

**분석 대상을 안다 = 하향식

  1. 문제 탐색 단계
    - 비즈니스 모델 탐색 기법
    - 분석기회 발굴 및 범위 확장
    - 외부 참조 모델 기반 문제 탐색
    - 분석 유스케이스
  2. 문제 정의 단계 : 식별된 비즈니스 문제를 데이터 문제로 변환하여 과제를 정의
  3. 해결 방안 탐색 단계 : 과제 정의 후 어떻게 해결한 것인지 그 방안을 탐색
  4. 타당성 검토 단계 : 경제적 타당성, 기술적 타당성 검토

**분석 대상을 모른다 = 상향식

  1. 지도, 비지도 학습 - 지도 학습 / 비지도 학습
  2. 프로토타입 :  시행착오 해결법

 

02-2. 디자인 씽킹

[1] IDEO사의 디자인 씽킹

더블 다이아몬드 프로세스

문제 발견 + 솔루션 제시

발산(상향식) + 수렴(하향식) > 수렴과 발산 반복

 

[2] 스탠퍼드 대학 d.school의 디자인 씽킹 = 상향식 접근

 

 

02-3. 하향식 접근법

[1] 1단계 - 문제 탐색 단계

비즈니스 모델 탐색 기법 - 9가지 블록, 5가지 단순화 탐색 기법

업무 / 제품 / 고객 / 규제와 감사 / 자원 인프라

 

**분석 기회 발굴 범위의 확장

- 거시적 관점 : 문제 혹은 변화가 기업에 주는 영향 탐색

- 경쟁자 확대 관점 : 기업에 위협이 될 상황을 탐색

- 시장의 니즈 탐색 : 시장의 니즈 탐색 관점에서 문제를 탐색

- 역량의 재해석 : 역량의 재해석 관점으로 다시 기업 내부를 둘러봄

 

세부 과제로 도출하기 전에 '분석 유스케이스'로 정의 > 이후 풀어낼 방법과 효과 명시

 

[2] 2단계 - 문제 정의 단계

- 1단계를 달성하는 데 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환 수행

- 정의는 최종 사용자의 관점에서 이루어져야함

 

[3] 3단계 - 해결 방안 탐색 단계

 

[4] 4단계 - 타당성 검토 단계

- 경제적 타당성 검토

- 데이터 및 기술적 타당성 검토

 

 

02-4. 상향식 접근법

빅데이터 > 분석 > 가치

 

[1] 지도학습

- 정답이 있는 데이터를 활용항 분석 모델을 학습시키는 것

- 레이블 범주형 - 분류

- 레이블 연속형 - 회귀

 

[2] 비지도학습(일반적)

- 정답을 알려주지 않고 학습

- 비슷한 특징끼리 군집화하여 결과 예측

 

[3] 프로토타이핑 접근법 = 시행착오 해결법

프로세스 : 가설의 생성 - 디자인에 대한 실험 - 실제 환경에서 테스트 - 테스트 결과로부터 인사이트 도출 및 가설 확인

 

**필요한 경우

  • 문제에 대한 인식 수준이 낮거나 불명확할 경우
  • 필요 데이터의 존재 여부가 불확실할 경우
  • 데이터의 사용 목적이 고정되지 않고 변화할 경우

 

03-1. 분석 프로젝트 관리

[1] 분석 과제의 5가지 주요 속성을 고려한 관리

  1. 데이터의 양
  2. 데이터 복잡도
  3. 분석의 속도
  4. 분석 복잡도
  5. 정확도 & 정밀도

[2] 분석 과제 관리 방안

관리영역 : 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통

 

**능력 성숙도 통합 모델(CMMI)

1단계 : 개인의 역량이 프로젝트의 성공과 실패를 나누는 주요 요인으로 프로젝트의 개발 프로세스가 거의 없다

2단계 : 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스하에서 통제되는 상태다

3단계 : 2단계에서 존재하지 않는 조직을 관리하기 위한 프로세스가 존재하는 상태다

4단계 : 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태다

5단계 : 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태다

 

'ADsP' 카테고리의 다른 글

[ADsP] 3-2. 통계분석(통계의 이해)  (0) 2023.08.10
[ADsP] 3-1. R 기초와 데이터 마트  (0) 2023.08.09
[ADsP] 2-2.분석 마스터플랜  (0) 2023.08.08
[ADsP] 1-2.데이터의 가치와 미래  (0) 2023.08.07
[ADsP] 1-1.데이터의 이해  (0) 2023.07.25