범주형 범수는 범주별 빈도수와 비율을 확인하여 수치화를 시킨다.
1. 수치화 : 기초 통계량
(1) 범주별 빈도수 : df['name'].value_counts()
(2) 범주열 비율 : df['name'].value_counts(normalize=True)
var = 'Survived'
print(titanic[var].value_counts())
print()
print(titanic[var].value_counts(normalize=True))
# 결과
value_counts(): 생존 342, 생존X 549
0 549
1 342
value_counts(normalize=True) : 생존율 0.383838
# *100을 하면 38.3838로 비율에 대해 보기좋게 만들 수 있다.
2. 시각화
(1) bar chart
- sns.countplot(x='name1', data=df)
(2) (참고) pie chart
temp = titanic['Pclass'].valure_counts()
plt.pie(temp.values, labels = temp.index, autopct = '%.2f%%')
plt.show()
- 각도와 방향 조정
- startangle = 90 => 90도 부터 시작
- counterclock = False : 시계 방향으로
- 간격 띄우고, 그림자 넣기
- explode = [0.05, 0.05, 0.05] 중심으로부터 1,2,3을 얼마만큼 띄울지
- shadow = True : 그림자 추가
'파이썬 > 데이터 분석' 카테고리의 다른 글
[240927] 데이터 분석 #5 이변량 - 범주 vs 숫자 (0) | 2024.09.27 |
---|---|
[240927] 데이터 분석 #4 평균에 대하여 (0) | 2024.09.27 |
[240926] 데이터 분석 #3 이변량 - 숫자 vs 숫자 (0) | 2024.09.27 |
[240925] 데이터 분석 #1 개별 변수 분석 - 숫자형 변수 (0) | 2024.09.25 |
[240925] 데이터 분석 방법론 (1) | 2024.09.25 |