과정 목표
1. Business Understanding - 가설 수립
① 해결해야 할 문제가 무엇인가? (목표, 관심사, y)
② y를 설명하기 위한 요인을 찾기 (x)
③ 가설의 구조를 정의하라 (x -> y)
- 이동전화 통신사 고객 이탈 여부(y)를 확인하기 위해서는
- x : 통화량, 소득수준, 가입기간, 성별 등이 될 수 있다.
2. Data Understanding
① 데이터 원본 식별 취득
② 데이터 분석 : EDA, CDA ==> 통계량, 시각화)
- EDA(Exploratory Data Analysis)
- 개별 데이터의 분포, 가설이 맞는 지 파익
- NA, 이상치 파악
- CDA(Comfirmatory Data Analysis)
- 탐색으로 파악하기 애매한 정보는 통계적 분석 도구 (가설 검정) 사용
3. Data Understanding
① 모든 셀에 값이 있어야 한다.
② 모든 값은 숫자이어야 한다.
③ 값의 범위를 일치시켜야 한다.
=> 수행내용 : 결측치 조치, 가변수화, 스케일링, 데이터 분할
4. Modeling
① 데이터로부터 패턴을 찾는 과정
② 오차를 최소화하는 패턴
③ 결과물: 모델 (모델은 수학식으로 표현됨)
=> 필요사항 : 학습데이터, ML 알고리즘
5. Evaluation
① 모델에 대한 데이터 분석 목표와 비즈니스 목표달성에 대한 평가
② 진정한 규칙성이 있는지 확인
=> 수행내용 : 모델에 대한 최종평가(Test Set), 비즈니스 기대가치 평가
6. Deployment
① 프로젝트 결과물 최종확정
② 유지기준, 모니터링 계획 수립
=> 시스템 유효성 검사, 프로젝트 이전, 파이프라인 구성
분석을 위한 데이터 구조와 EDA & CDA
x : feature, 요인, input, 독립변수
y : target, 결과, output, 종속변수, label
EDA 탐색적 데이터 분석 (그래프, 통계량)
CDA 확증적 데이터 분석 (가설검정, 실험)
==> 우리가 알아야하는 내용
① [언제, 어떤] 그래프를 그리고 [어떻게] 해석
② [언제, 어떤] 통계량을 구하고 [어떻게] 해석
③ [언제, 어떤] 가설검정 방법을 사용하고 [어떻게] 해
EDA & CDA 진행 순서
① 단변량 분석 : 개별변수의 분포
예: 타이타닉 탑승객의 나이 분석
② 이변량 분석1 : feature와 target간의 관계(가설을 확인하는 단계)
예: 객실 등급 → 생존 여부(객실 등급에 따라 생존 여부에 차이가 있나?)
③이변량 분석2: feature들간의 관계
'파이썬 > 데이터 분석' 카테고리의 다른 글
[240927] 데이터 분석 #5 이변량 - 범주 vs 숫자 (0) | 2024.09.27 |
---|---|
[240927] 데이터 분석 #4 평균에 대하여 (0) | 2024.09.27 |
[240926] 데이터 분석 #3 이변량 - 숫자 vs 숫자 (0) | 2024.09.27 |
[240926] 데이터 분석 #2 개별 변수 분석 - 범주형 변수 (1) | 2024.09.27 |
[240925] 데이터 분석 #1 개별 변수 분석 - 숫자형 변수 (0) | 2024.09.25 |