Road to Data Scientist

데이터 불러오기_Data Load/Read_IBM DATA SCIENCE 본문

코딩 테스트/Python

데이터 불러오기_Data Load/Read_IBM DATA SCIENCE

ShazelP 2024. 1. 27. 14:40

IBM DATA SCIENCE 수업 내용 정리

 csv 파일 pandas 이용하여 dataframe 으로 불러오기

import pandas as pd  #pandas 설치

df = pd.read_csv(path, header=None) #path: 파일 경로 / header=None : header 없이 불러오기
df.head() #첫 5열만 보여준다.

- df 라는 이름으로 데이터 불러오고 (헤더 없이), 첫 5열 반환하여 데이터 살펴볼 수 있다.

 

Header 있는 데이터로 수정하기

#수업에서 사용한 자동차 데이터에 맞게 헤더 설정
headers = ["Manufacturer", "Category", "Screen", "GPU", "OS", "CPU_core", "Screen_Size_inch", "CPU_frequency", "RAM_GB", "Storage_GB_SSD", "Weight_kg", "Price"]

df.columns = headers #df.columns = [] 를 사용하여 칼럼 수정 및 반환 가능

- headers 라는 변수 이름으로 데이터프레임에 추가할 헤더 이름 리스트 설정

- df.columns =[] 사용하여 헤더 추가  : 이미 headers 라는 변수에 리스트 설정하였으므로 df.columns=headers 로 헤더 설정 가능

- df.rename(columns={}, inplace= True/False) : columns={'현재 이름':'바꾸고 싶은 이름', ......} 사용하여 변경 가능

  >>inplace=True 원본 데이터에 수정 사항이 적용되어 저장

  >>inplace=False 원본 데이터가 아닌 복제된 데이터에 적용되는 것으로 이해. 즉, 원본과 복제가 같이 있기 때문에 메모리를 상대적으로 더 차지하게 된다.

 

해당 데이터에 '?'로 출력되는 값은 NaN으로 수정하기

df.replace('?', np.nan, inplace=True)

- df.replace('수정하고 싶은 값', 수정하고 싶은 형태, inplace=True/False)

 

데이터 타입 살펴보기 (각 열의 데이터 타입)

df.dtypes

 

해당 데이터의 모든 값을 고려하여 통계 정보 요약본 보기

df.describe(include='all')

- describe 의 기본 값은 object 타입의 값은 스킵하여 알려줌.

 >> include='all': object 타입의 데이터가 있는 열도 포함하여 통계 데이터 보여줌 ( NaN 값으로 나옴)

 >>include=object object 타입의 데이터가 있는 열도 보여줌

 

해당 데이터 요약 정보 보기

df.info()