본문 바로가기

파이썬31

[240920] 데이터다듬기#7 - 판다스 데이터프레임 변경 (3) 1. 데이터프레임 합치기 (Concat) => '인덱스 값'을 기준# 가로로 합치기 (axis=1) # 실무에서 쓰일 일은 많이 없음. pop = pd.concat([pop01, pop02], join='outer', axis=1) pop = pd.concat([pop01, pop02], join='inner', axis=1) # 세로로 합치기 (axis=0) pop = pd.concat([pop01. pop02], join='outer', axis=0) pop = pd.concat([pop01. pop02], join='inner', axis=0) => 인덱스 값이 중복되므로 인덱스를 초기화 pop.reset_index(drop=Ture, inplace=True) 2. 데이터프레임 합치기 (Merge).. 2024. 9. 21.
[240920] 데이터다듬기#6 - 판다스 데이터프레임 변경 (2) 1. 결측치 처리 (info(), isna(), isnull(), notnull(), isna().sum()) - 결측치는 NaN 값으로, 누락된 데이터를 처리하기 위한 전처리 작업이 필요함. - 제거를 하거나, 다른 값(평균값, 최빈값 등)으로 채워야 함. 1) 결측치 찾기# info() df.info() # Non-Null Count를 확인하여, Null 값을 찾는다. # isna(), isnull(), notnull() df.isnull() # Null 값을 True나 False로 반환 (결측치를 True로 반환) # isna().sum() df.isna().sum() # 열의 결측치 개수 확인 2) 결측치 제거 (dropna())# dropna() df.dropna(axis=0, inplace=T.. 2024. 9. 21.
[240920] 데이터다듬기 #5 판다스 데이터프레임 변경(1) 학생때 열심히 공부하라는 말 좀 들을걸.. 지나고나서야 깨닫습니다..ㅠ 1. 열 이름 변경 1) 일부 열 이름 변경 : rename() 메서드 ex) total_bill_amount => total_bill male_female => sex 2) 모든 열 이름 변경 : colunms 속성 변경tip.rename(columns = {'total_bill_amount':'total_bill', 'male_female':'sex'}, inplace=True) tip.columns = { 바꾸려는 열 이름 모두 } 2. 열 추가# tip이라는 데이터프레임에 # final_amt 열 추가: final_amt = total_bill + tip tip['final_amt'] = tip['total_bill'] + t.. 2024. 9. 21.
[240913] 데이터다듬기#4 - 판다스 데이터프레임 집계 집계된 데이터에 대한 분석 방법을 배웠다.그래프를 그려 시각화하는 것도 배웠는데 드디어 뭔가 공부했던 것들이 눈 앞에 실현되는 기분이라 뿌듯하였다. 들어가기 앞서 연속값, 범주값의 용어에 대한 설명을 들었다.집계기준이 될 범주값과, 집계 대상 열이 되는 연속값 (합,평균등 집계)은데예를 들어 OOO별 OOO값 처럼 OOO별이 범주값, OOO값이 연속값이다. 1. 데이터 집계'day'별 'tip' 의 합을 알고 싶으면tip.groupby(by='day', as_index=False)[['tip]].sum()tip.groupby(by='day', as_index=False)as_index=True가 디폴트 값이며,as_index=True 'day'가 인덱스값이 되어 열이 1개가 됨 ==> 시리즈로 나타남.a.. 2024. 9. 13.