본문 바로가기

전체 글104

[240926] 데이터 분석 #3 이변량 - 숫자 vs 숫자 상관 분석이란?더보기- 상관 분석은 연속형 변수 x에 대한 연속형 변수 y의 관계를 분석할 때 사용된다.- Scatter를 통해 시각화 가설 : 온도(x)가 상승하면 아이스크림 판매량(y)을 증가할까? 숫자 vs 숫자를 비교할 때 중요한 관점이 '직선' (Linearity)!!1. 시각화 : 산점도 (1) 산점도    - sns.scatterplot(x='name1', y='name2', data=dataframe )    - plt.scatter('x변수', 'y변수', data=dataframe)  (2) 한꺼번에 시각화 (pairplot)   - sns.pairplot(df, kind='reg') (3) (추가) jointplot : 산점도와 각각의 히스토그램을 함께 보여준다.sns.jointplo.. 2024. 9. 27.
[240926] 데이터 분석 #2 개별 변수 분석 - 범주형 변수 범주형 범수는 범주별 빈도수와 비율을 확인하여 수치화를 시킨다. 1. 수치화 : 기초 통계량  (1) 범주별 빈도수 : df['name'].value_counts()  (2) 범주열 비율 : df['name'].value_counts(normalize=True)var = 'Survived'print(titanic[var].value_counts())print()print(titanic[var].value_counts(normalize=True))# 결과value_counts(): 생존 342, 생존X 5490 5491 342 value_counts(normalize=True) : 생존율 0.383838# *100을 하면 38.3838로 비율에 대해 보기좋게 만들 수 있다. 2. 시각화 (1) bar ch.. 2024. 9. 27.
[240925] 데이터 분석 #1 개별 변수 분석 - 숫자형 변수 1. 숫자형 변수 - 정리하는 두가지 방법  ① 숫자로 요약하기 : 정보의 대푯값 => 기초 통계량  ② 구간을 나누고 빈도수(frequency) 계 => 도수분포표 평균(mean)중앙값(median)최빈값(mode)사분위수(Quantile)넘파이np.mean(df['name'])np.median (df['name'])mode(df['name'])-판다스df['name'] .mean()df['name'] .mean()df['name'] .mode()df['name'].describe() 2. 숫자형 변수 시각화 하기 - Histogrammatplotlib : plt.hist(변수명, bins = 구간 수)seaborn : sns.histplot(x='name', data = df, bins = 구간 수).. 2024. 9. 25.
[240925] 데이터 분석 방법론 더보기과정 목표① 분석/모델링을 위한 데이터 구조를 이해한다.② 정보의 종류(숫자, 범주)에 따라 데이터의 분포를 확인하고 비즈니스를 파악할 수 있다.③ 두 정보를 분석할 때, 적절한 도구를 사용하여 관계를 파악해낼 수 있다. 1. Business Understanding - 가설 수립① 해결해야 할 문제가 무엇인가? (목표, 관심사, y)② y를 설명하기 위한 요인을 찾기 (x)③ 가설의 구조를 정의하라 (x -> y)  - 이동전화 통신사 고객 이탈 여부(y)를 확인하기 위해서는  - x : 통화량, 소득수준, 가입기간, 성별 등이 될 수 있다. 2. Data Understanding ① 데이터 원본 식별 취득 ② 데이터 분석 : EDA, CDA  ==> 통계량, 시각화)    - EDA(Explor.. 2024. 9. 25.