본문 바로가기
파이썬/데이터 분석

[240925] 데이터 분석 #1 개별 변수 분석 - 숫자형 변수

by 황오독 2024. 9. 25.

1. 숫자형 변수 - 정리하는 두가지 방법

  ① 숫자로 요약하기 : 정보의 대푯값 => 기초 통계량

  ② 구간을 나누고 빈도수(frequency) 계 => 도수분포표

  평균(mean) 중앙값(median) 최빈값(mode) 사분위수(Quantile)
넘파이 np.mean(df['name']) np.median (df['name']) mode(df['name']) -
판다스 df['name'] .mean() df['name'] .mean() df['name'] .mode() df['name'].describe()

 

2. 숫자형 변수 시각화 하기 - Histogram

matplotlib : plt.hist(변수명, bins = 구간 수)

seaborn : sns.histplot(x='name', data = df, bins = 구간 수)

* bins의 수에 따라 그래프의 모양이 달라짐. (단점)

 

3. 숫자형 변수 시각화하기 - Density Plot (KDE Plot)

  - 구간의 너비를 정하지 않아도 되고, 데이터의 밀도를 추정하고 면적으로 구간에 대한 확률을 추정할 수 있다.

  sns.kdeplot(변수명)

 

4. 숫자형 변수 시각화하기 - Box Plot

 plt.boxplot()

 sns.boxplot

  - 사전에 반드시 NaN을 제외 (seaborn은 알아서 제거해 줌)

 

IQR : 3사분위수 ~ 1사분위수

 

* 요약