1. 숫자형 변수 - 정리하는 두가지 방법
① 숫자로 요약하기 : 정보의 대푯값 => 기초 통계량
② 구간을 나누고 빈도수(frequency) 계 => 도수분포표
평균(mean) | 중앙값(median) | 최빈값(mode) | 사분위수(Quantile) | |
넘파이 | np.mean(df['name']) | np.median (df['name']) | mode(df['name']) | - |
판다스 | df['name'] .mean() | df['name'] .mean() | df['name'] .mode() | df['name'].describe() |
2. 숫자형 변수 시각화 하기 - Histogram
matplotlib : plt.hist(변수명, bins = 구간 수)
seaborn : sns.histplot(x='name', data = df, bins = 구간 수)
* bins의 수에 따라 그래프의 모양이 달라짐. (단점)
3. 숫자형 변수 시각화하기 - Density Plot (KDE Plot)
- 구간의 너비를 정하지 않아도 되고, 데이터의 밀도를 추정하고 면적으로 구간에 대한 확률을 추정할 수 있다.
sns.kdeplot(변수명)
4. 숫자형 변수 시각화하기 - Box Plot
plt.boxplot()
sns.boxplot
- 사전에 반드시 NaN을 제외 (seaborn은 알아서 제거해 줌)
IQR : 3사분위수 ~ 1사분위수
* 요약
'파이썬 > 데이터 분석' 카테고리의 다른 글
[240927] 데이터 분석 #5 이변량 - 범주 vs 숫자 (0) | 2024.09.27 |
---|---|
[240927] 데이터 분석 #4 평균에 대하여 (0) | 2024.09.27 |
[240926] 데이터 분석 #3 이변량 - 숫자 vs 숫자 (0) | 2024.09.27 |
[240926] 데이터 분석 #2 개별 변수 분석 - 범주형 변수 (1) | 2024.09.27 |
[240925] 데이터 분석 방법론 (1) | 2024.09.25 |