1. 교차표
pd.crosstab(data[feature], data[target])
normalize = 'columns' / 'index' 로 열 기준으로 할 것인지, 행 기준으로 할 것인지 정할 수 있다.
2. 시각화
mosaic(data, [feature, target])
plt.axhline(data[target].mean(), color = 'r')
3. 수치화 : 카이제곱검정 (실제데이터와 기대빈도의 차이값)
- 자유도 (범주의 수 - 1)의 약 2배보다 크면, 차이가 있다고 봄.
- 교차표로 집계하여 저장 후, 카이제곱 검정을 진행한다.
table = pd.crosstab(df[feature], df[target])
spst.chi2_contingency(table)
'파이썬 > 데이터 분석' 카테고리의 다른 글
[240930] 데이터 분석 #7 이변량 - 숫자 vs 범주 (2) | 2024.10.01 |
---|---|
[240927] 데이터 분석 #5 이변량 - 범주 vs 숫자 (0) | 2024.09.27 |
[240927] 데이터 분석 #4 평균에 대하여 (0) | 2024.09.27 |
[240926] 데이터 분석 #3 이변량 - 숫자 vs 숫자 (0) | 2024.09.27 |
[240926] 데이터 분석 #2 개별 변수 분석 - 범주형 변수 (1) | 2024.09.27 |