본문 바로가기
파이썬/데이터 분석

[240925] 데이터 분석 방법론

by 황오독 2024. 9. 25.
더보기

과정 목표

분석/모델링을 위한 데이터 구조이해한다.
정보의 종류(숫자, 범주)따라 데이터의 분포확인하고 비즈니스를 파악있다.
정보를 분석할 , 적절한 도구를 사용하여 관계를 파악있다.

 

1. Business Understanding - 가설 수립

① 해결해야 할 문제가 무엇인가? (목표, 관심사, y)

② y를 설명하기 위한 요인을 찾기 (x)

③ 가설의 구조를 정의하라 (x -> y)

  - 이동전화 통신사 고객 이탈 여부(y)를 확인하기 위해서는

  - x : 통화량, 소득수준, 가입기간, 성별 등이 될 수 있다.

 

2. Data Understanding

 ① 데이터 원본 식별 취득

 ② 데이터 분석 : EDA, CDA  ==> 통계량, 시각화)

    - EDA(Exploratory Data Analysis)

      - 개별 데이터의 분포, 가설이 맞는 지 파익

      - NA, 이상치 파악

     - CDA(Comfirmatory Data Analysis)

      - 탐색으로 파악하기 애매한 정보는 통계적 분석 도구 (가설 검정) 사용

 

3. Data Understanding

① 모든 셀에 값이 있어야 한다.

② 모든 값은 숫자이어야 한다.

③ 값의 범위를 일치시켜야 한다.

  => 수행내용 : 결측치 조치, 가변수화, 스케일링, 데이터 분할

 

4. Modeling

① 데이터로부터 패턴을 찾는 과정

② 오차를 최소화하는 패턴

③ 결과물: 모델 (모델은 수학식으로 표현됨)

  => 필요사항 : 학습데이터, ML 알고리즘

 

5. Evaluation

① 모델에 대한 데이터 분석 목표와 비즈니스 목표달성에 대한 평가

② 진정한 규칙성이 있는지 확인

   => 수행내용 : 모델에 대한 최종평가(Test Set), 비즈니스 기대가치 평가

 

6. Deployment

① 프로젝트 결과물 최종확정

② 유지기준, 모니터링 계획 수립

=> 시스템 유효성 검사, 프로젝트 이전, 파이프라인 구성

 

분석을 위한 데이터 구조와 EDA & CDA

x : feature, 요인, input, 독립변수

y : target, 결과, output, 종속변수, label

 

EDA 탐색적 데이터 분석 (그래프, 통계량)

CDA 확증적 데이터 분석 (가설검정, 실험)

==> 우리가 알아야하는 내용

① [언제, 어떤] 그래프를 그리고 [어떻게] 해석

② [언제, 어떤] 통계량을 구하고 [어떻게] 해석

③ [언제, 어떤] 가설검정 방법을 사용하고 [어떻게] 해

 

EDA & CDA 진행 순서

단변량 분석 : 개별변수의 분포

 예: 타이타닉 탑승객의 나이 분석

이변량 분석1 : featuretarget간의 관계(가설을 확인하는 단계)

 예: 객실 등급 생존 여부(객실 등급에 따라 생존 여부에 차이가 있나?)

이변량 분석2: feature간의 관계