본문 바로가기
파이썬/데이터 분석

[240930] 데이터 분석 #6 이변량 - 범주 vs 범주

by 황오독 2024. 10. 1.

1. 교차표

pd.crosstab(data[feature], data[target])

normalize = 'columns' / 'index' 로 열 기준으로 할 것인지, 행 기준으로 할 것인지 정할 수 있다.

 

2. 시각화

mosaic(data, [feature, target])

plt.axhline(data[target].mean(), color = 'r')

 

3. 수치화 : 카이제곱검정 (실제데이터와 기대빈도의 차이값)

- 자유도 (범주의 수 - 1)의 약 2배보다 크면, 차이가 있다고 봄.

- 교차표로 집계하여 저장 후, 카이제곱 검정을 진행한다.

table = pd.crosstab(df[feature], df[target])
spst.chi2_contingency(table)