Road to Data Scientist

데이터 전처리_Data Preprocessing(get_dummies)_IBM DATA SCIENCE 본문

코딩 테스트/Python

데이터 전처리_Data Preprocessing(get_dummies)_IBM DATA SCIENCE

ShazelP 2024. 1. 28. 17:07

IBM DATA SCIENCE 내용 정리

데이터셋의 카테고리값을 갖고 있는 열 전처리

#df 라는 데이터 셋의 fuel-type 열
dummy_variable_1 = pd.get_dummies(df['fuel-type}])

- 예시:

  disel gas
0 0 1
1 0 1
2 0 1

 

dummy_variabel_1 을 원래 데이터셋 (df) 에 추가하고 원래 열 삭제하기

df = pd.concat([df, dummy_variable_1], axis=1

df.drop("fuel-type", axis=1, inplace=True)

- axis=1 : 열 기준으로. 즉, dummy_variabl_1 의 disel, gas 열이 기존 데이터셋에 추가로 생김

 

수정된 데이터셋 최종본 저장하기

df.to_csv('clean_df.csv')

- clean_df 라는 이름으로 새로운 최종 전처리된 데이터 저장