본문 바로가기

파이썬/데이터 분석8

[240930] 데이터 분석 #7 이변량 - 숫자 vs 범주 1. 시각화sns.kdeplot(x=feature, data=data, y=target, common_norm=False)sns.kdeplot(x=feature, data=data, y=target, multiple='fill') 2. 수치화=> 따로 없고, 그래프로 해석하면 됨.ex) 위 그래프를 보면 평균 사망율(빨간선)을 기준으로,      25-39세 사망율이 평균보다 크고, 60-80세 사망율이 평균보다 크다는 것을 알 수 있다. 2024. 10. 1.
[240930] 데이터 분석 #6 이변량 - 범주 vs 범주 1. 교차표pd.crosstab(data[feature], data[target])normalize = 'columns' / 'index' 로 열 기준으로 할 것인지, 행 기준으로 할 것인지 정할 수 있다. 2. 시각화mosaic(data, [feature, target])plt.axhline(data[target].mean(), color = 'r') 3. 수치화 : 카이제곱검정 (실제데이터와 기대빈도의 차이값)- 자유도 (범주의 수 - 1)의 약 2배보다 크면, 차이가 있다고 봄.- 교차표로 집계하여 저장 후, 카이제곱 검정을 진행한다.table = pd.crosstab(df[feature], df[target])spst.chi2_contingency(table) 2024. 10. 1.
[240927] 데이터 분석 #5 이변량 - 범주 vs 숫자 1. 시각화  (1) 평균 비교 : bar plotsns.barplot(x="Survived", y="Age", data=titanic)plt.grid()plt.show()sns.barplot(x="Survived", y="Age", data=titanic)sns.barplot(x='Sex', y='Fare', data=titanic)  2. 수치화   (1) t-test : spst.ttest_ind(df1, df2)       - t 통계량 : 두 평균의 차이 (정확하게는 두 평균의 차이를 표준오차로 나눈 값)       - 보통 t 값이 절댓값 2보다 크면 차이가 있다고 본다.더보기가설Age : 생존여부 별로 나이에 차이가 있을 것이다.# NaN 값 확인titanic.insull().sum()# N.. 2024. 9. 27.
[240927] 데이터 분석 #4 평균에 대하여 고등학교 이후로 진짜 오랜만에 듣는 평균, 분산, 표준편차 어쩌구들..분명 이과가 아니었던 적이 없는데,, 기본 개념들을 다시 마주하니 익숙한듯 익숙하지 않다ㅜ_ㅜ 1. 분산과 표준편차 (분산 = (표준편차)**2)- 값들이 평균으로부터 얼마나 벗어나 있는지 (이탈도, deviation)를 나타내는 값- 평균 : .mean() / 분산 : .var() / 표준편차 : .std()a = np.array([180,173,165,166,171])print(f'평균 : {a.mean()}')print(f'분산 : {a.var()}')print(f'표준편차 : {a.std()}') 2. 평균 비교  (1) 표준오차 (SE, standard error)    - 표준오차는 표준편차와 아예! 다른 개념 (표준편차와 .. 2024. 9. 27.