본문 바로가기

파이썬/데이터 다듬기8

[240920] 데이터다듬기#8 - 판다스 데이터프레임 변경(4) 1. Rolling (rolling()메서드)) - 일정 기간에 대한 집계를 수행할 수 있음 - ex) 최근 3일간, 일주일간의 평균이나 합을 집계# 최근 3일간 Ozone 열 평균 air['Ozone'].rolling(window=3, min_periods=1).mean() # window=생략가능 # 최근 7일간 Ozone 열 평균 air['Ozone'].rolling(window=7, min_periods=1).mean() # 새로운 열 추가 air['OZ_mean_3'] = round(air['Ozone'].rolling(window=3, min_periods=1).mean(), 1) air['OZ_mean_7'] = round(air['Ozone'].rolling(window=7, min_per.. 2024. 9. 21.
[240920] 데이터다듬기#7 - 판다스 데이터프레임 변경 (3) 1. 데이터프레임 합치기 (Concat) => '인덱스 값'을 기준# 가로로 합치기 (axis=1) # 실무에서 쓰일 일은 많이 없음. pop = pd.concat([pop01, pop02], join='outer', axis=1) pop = pd.concat([pop01, pop02], join='inner', axis=1) # 세로로 합치기 (axis=0) pop = pd.concat([pop01. pop02], join='outer', axis=0) pop = pd.concat([pop01. pop02], join='inner', axis=0) => 인덱스 값이 중복되므로 인덱스를 초기화 pop.reset_index(drop=Ture, inplace=True) 2. 데이터프레임 합치기 (Merge).. 2024. 9. 21.
[240920] 데이터다듬기#6 - 판다스 데이터프레임 변경 (2) 1. 결측치 처리 (info(), isna(), isnull(), notnull(), isna().sum()) - 결측치는 NaN 값으로, 누락된 데이터를 처리하기 위한 전처리 작업이 필요함. - 제거를 하거나, 다른 값(평균값, 최빈값 등)으로 채워야 함. 1) 결측치 찾기# info() df.info() # Non-Null Count를 확인하여, Null 값을 찾는다. # isna(), isnull(), notnull() df.isnull() # Null 값을 True나 False로 반환 (결측치를 True로 반환) # isna().sum() df.isna().sum() # 열의 결측치 개수 확인 2) 결측치 제거 (dropna())# dropna() df.dropna(axis=0, inplace=T.. 2024. 9. 21.
[240920] 데이터다듬기 #5 판다스 데이터프레임 변경(1) 학생때 열심히 공부하라는 말 좀 들을걸.. 지나고나서야 깨닫습니다..ㅠ 1. 열 이름 변경 1) 일부 열 이름 변경 : rename() 메서드 ex) total_bill_amount => total_bill male_female => sex 2) 모든 열 이름 변경 : colunms 속성 변경tip.rename(columns = {'total_bill_amount':'total_bill', 'male_female':'sex'}, inplace=True) tip.columns = { 바꾸려는 열 이름 모두 } 2. 열 추가# tip이라는 데이터프레임에 # final_amt 열 추가: final_amt = total_bill + tip tip['final_amt'] = tip['total_bill'] + t.. 2024. 9. 21.