데이터 불러오기_Data Load/Read

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Road to Data Scientist

데이터 불러오기_Data Load/Read_IBM DATA SCIENCE 본문

코딩 테스트/Python

데이터 불러오기_Data Load/Read_IBM DATA SCIENCE

ShazelP 2024. 1. 27. 14:40

IBM DATA SCIENCE 수업 내용 정리

csv 파일 pandas 이용하여 dataframe 으로 불러오기

import pandas as pd  #pandas 설치

df = pd.read_csv(path, header=None) #path: 파일 경로 / header=None : header 없이 불러오기
df.head() #첫 5열만 보여준다.

- df 라는 이름으로 데이터 불러오고 (헤더 없이), 첫 5열 반환하여 데이터 살펴볼 수 있다.

Header 있는 데이터로 수정하기

#수업에서 사용한 자동차 데이터에 맞게 헤더 설정
headers = ["Manufacturer", "Category", "Screen", "GPU", "OS", "CPU_core", "Screen_Size_inch", "CPU_frequency", "RAM_GB", "Storage_GB_SSD", "Weight_kg", "Price"]

df.columns = headers #df.columns = [] 를 사용하여 칼럼 수정 및 반환 가능

- headers 라는 변수 이름으로 데이터프레임에 추가할 헤더 이름 리스트 설정

- df.columns =[] 사용하여 헤더 추가 : 이미 headers 라는 변수에 리스트 설정하였으므로 df.columns=headers 로 헤더 설정 가능

- df.rename(columns={}, inplace= True/False) : columns={'현재 이름':'바꾸고 싶은 이름', ......} 사용하여 변경 가능

>>inplace=True 원본 데이터에 수정 사항이 적용되어 저장

>>inplace=False 원본 데이터가 아닌 복제된 데이터에 적용되는 것으로 이해. 즉, 원본과 복제가 같이 있기 때문에 메모리를 상대적으로 더 차지하게 된다.

해당 데이터에 '?'로 출력되는 값은 NaN으로 수정하기

df.replace('?', np.nan, inplace=True)

- df.replace('수정하고 싶은 값', 수정하고 싶은 형태, inplace=True/False)

데이터 타입 살펴보기 (각 열의 데이터 타입)

df.dtypes

해당 데이터의 모든 값을 고려하여 통계 정보 요약본 보기

df.describe(include='all')

- describe 의 기본 값은 object 타입의 값은 스킵하여 알려줌.

>> include='all': object 타입의 데이터가 있는 열도 포함하여 통계 데이터 보여줌 ( NaN 값으로 나옴)

>>include=object object 타입의 데이터가 있는 열도 보여줌

해당 데이터 요약 정보 보기

df.info()

'코딩 테스트 > Python' 카테고리의 다른 글

데이터 탐색 및 시각화_EDA_Visualization (0)	2024.03.26
데이터 탐색_EDA_.head/.describe/.info/.dtype/.isna/.unique/.nunique (0)	2024.03.26
데이터 전처리_Data Preprocessing(get_dummies)_IBM DATA SCIENCE (0)	2024.01.28
데이터 전처리_Data Preprocessing_IBM DATA SCIENCE (1)	2024.01.27

'코딩 테스트/Python' Related Articles