Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- 데이터사이언스
- pandas
- EDA
- 머신러닝
- 불리언
- 전처리
- data science
- 캐글
- 파이썬
- 데이터전처리
- 시각화
- get_dummies
- Python
- code
- 데이터구조
- 연산자
- 데이터분석
- kaggle
- numpy
- 코딩테스트
- Data Analysis
- SQL
- 프로그래머스
- mysql
- dataframe
- machinelearning
- 아마존
- 데이터과학
- 데이터 전처리
- 코테
Archives
- Today
- Total
Road to Data Scientist
데이터 불러오기_Data Load/Read_IBM DATA SCIENCE 본문
IBM DATA SCIENCE 수업 내용 정리
csv 파일 pandas 이용하여 dataframe 으로 불러오기
import pandas as pd #pandas 설치
df = pd.read_csv(path, header=None) #path: 파일 경로 / header=None : header 없이 불러오기
df.head() #첫 5열만 보여준다.
- df 라는 이름으로 데이터 불러오고 (헤더 없이), 첫 5열 반환하여 데이터 살펴볼 수 있다.
Header 있는 데이터로 수정하기
#수업에서 사용한 자동차 데이터에 맞게 헤더 설정
headers = ["Manufacturer", "Category", "Screen", "GPU", "OS", "CPU_core", "Screen_Size_inch", "CPU_frequency", "RAM_GB", "Storage_GB_SSD", "Weight_kg", "Price"]
df.columns = headers #df.columns = [] 를 사용하여 칼럼 수정 및 반환 가능
- headers 라는 변수 이름으로 데이터프레임에 추가할 헤더 이름 리스트 설정
- df.columns =[] 사용하여 헤더 추가 : 이미 headers 라는 변수에 리스트 설정하였으므로 df.columns=headers 로 헤더 설정 가능
- df.rename(columns={}, inplace= True/False) : columns={'현재 이름':'바꾸고 싶은 이름', ......} 사용하여 변경 가능
>>inplace=True 원본 데이터에 수정 사항이 적용되어 저장
>>inplace=False 원본 데이터가 아닌 복제된 데이터에 적용되는 것으로 이해. 즉, 원본과 복제가 같이 있기 때문에 메모리를 상대적으로 더 차지하게 된다.
해당 데이터에 '?'로 출력되는 값은 NaN으로 수정하기
df.replace('?', np.nan, inplace=True)
- df.replace('수정하고 싶은 값', 수정하고 싶은 형태, inplace=True/False)
데이터 타입 살펴보기 (각 열의 데이터 타입)
df.dtypes
해당 데이터의 모든 값을 고려하여 통계 정보 요약본 보기
df.describe(include='all')
- describe 의 기본 값은 object 타입의 값은 스킵하여 알려줌.
>> include='all': object 타입의 데이터가 있는 열도 포함하여 통계 데이터 보여줌 ( NaN 값으로 나옴)
>>include=object object 타입의 데이터가 있는 열도 보여줌
해당 데이터 요약 정보 보기
df.info()'코딩 테스트 > Python' 카테고리의 다른 글
| 데이터 탐색 및 시각화_EDA_Visualization (0) | 2024.03.26 |
|---|---|
| 데이터 탐색_EDA_.head/.describe/.info/.dtype/.isna/.unique/.nunique (0) | 2024.03.26 |
| 데이터 전처리_Data Preprocessing(get_dummies)_IBM DATA SCIENCE (0) | 2024.01.28 |
| 데이터 전처리_Data Preprocessing_IBM DATA SCIENCE (1) | 2024.01.27 |