본문 바로가기
파이썬/데이터 분석

[240926] 데이터 분석 #2 개별 변수 분석 - 범주형 변수

by 황오독 2024. 9. 27.

범주형 범수는 범주별 빈도수와 비율을 확인하여 수치화를 시킨다.

 

1. 수치화 : 기초 통계량

  (1) 범주별 빈도수 : df['name'].value_counts()

  (2) 범주열 비율 : df['name'].value_counts(normalize=True)

var = 'Survived'

print(titanic[var].value_counts())
print()
print(titanic[var].value_counts(normalize=True))

# 결과
value_counts(): 생존 342, 생존X 549
0 549
1 342 

value_counts(normalize=True) : 생존율 0.383838
# *100을 하면 38.3838로 비율에 대해 보기좋게 만들 수 있다.

 

2. 시각화

 (1) bar chart

   - sns.countplot(x='name1', data=df)

 

(2) (참고) pie chart

temp = titanic['Pclass'].valure_counts()

plt.pie(temp.values, labels = temp.index, autopct = '%.2f%%')
plt.show()

 

  - 각도와 방향 조정

    - startangle = 90 => 90도 부터 시작

    - counterclock = False : 시계 방향으로 

 

  - 간격 띄우고, 그림자 넣기

    - explode = [0.05, 0.05, 0.05] 중심으로부터 1,2,3을 얼마만큼 띄울지

    - shadow = True : 그림자 추가