| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 파이썬
- 데이터사이언스
- 데이터과학
- 전처리
- 캐글
- numpy
- 코딩테스트
- Python
- get_dummies
- SQL
- machinelearning
- 코테
- code
- 시각화
- 데이터 전처리
- 데이터구조
- kaggle
- 연산자
- dataframe
- 불리언
- 아마존
- 데이터전처리
- 프로그래머스
- EDA
- Data Analysis
- data science
- 데이터분석
- pandas
- mysql
- 머신러닝
- Today
- Total
목록data science (6)
Road to Data Scientist
Kaggle Competition : Spaceship Titanic Spaceship Titanic | Kaggle www.kaggle.com Kaggle의 기본 예측 데이터셋인 "Titanic 생존자 예측" 과 같이 "우주선 탑승객 예측"을 하는 기본 대회 데이터셋으로, 우주선 탑승객의 환승여부를 예측하는 것을 목표로 함. 1. SET UP - Import library: 데이터 탐색, 엔지니어링, 시각화, 머신러닝 등등을 위한 기본 라이브러리 다운 import numpy as np import pandas as pd #for visualization(그래프 그리기 위한 라이브러리 다운로드) import matplotlib.pyplot as plt import seaborn as sns 2. LOAD..
Kaggle Titanic Data 활용 막대 그래프 Bar Chart data['Sex'].value_counts().plot(kind='bar') 히스토그램 Histogram data['Age'].plot.hist() 박스 그래프 Box Plot data['Fare'].plot.box() - 이상치 Outlier 를 확인할 수 있음 산점도 그래프 Scatter Plot import matplotlib.pyplot as plt plt.scatter(x='Age', y='Fare', data=data) plt.xlabel("Age") plt.ylabel("Fare") - X, Y 의 상관관계를 확인할 수 있음 - 위의 케이스의 경우 나이와 요금에 대해 관계가 있어보이지 않음 상관관계 Correlation..
IBM DATA SCIENCE 내용 정리 데이터셋의 카테고리값을 갖고 있는 열 전처리 #df 라는 데이터 셋의 fuel-type 열 dummy_variable_1 = pd.get_dummies(df['fuel-type}]) - 예시: disel gas 0 0 1 1 0 1 2 0 1 dummy_variabel_1 을 원래 데이터셋 (df) 에 추가하고 원래 열 삭제하기 df = pd.concat([df, dummy_variable_1], axis=1 df.drop("fuel-type", axis=1, inplace=True) - axis=1 : 열 기준으로. 즉, dummy_variabl_1 의 disel, gas 열이 기존 데이터셋에 추가로 생김 수정된 데이터셋 최종본 저장하기 df.to_csv('cl..
IBM DATA SCIENCE 내용 정리 '?' 데이터 NaN으로 바꾸기 import numpy as np df.replace('?',np.nan, inplace=True) - numpy 설치 - 데이터셋 앞에서 df 로 저장했다는 가정하에 진행 데이터가 존재하지 않는 (Null) 셀 찾기 missing_data = df.isnull() #missing_data 변수에 해당 데이터셋을 NUll값 존재 유무로 보여줌 missing_data.head() - df.isnull() : 해당 셀이 Null --> True / not Null --> False 반환 Null 값인 데이터 개수 알아보기 for column in missing_data.columns.values.tolist(): print(column..
IBM DATA SCIENCE 수업 내용 정리 csv 파일 pandas 이용하여 dataframe 으로 불러오기 import pandas as pd #pandas 설치 df = pd.read_csv(path, header=None) #path: 파일 경로 / header=None : header 없이 불러오기 df.head() #첫 5열만 보여준다. - df 라는 이름으로 데이터 불러오고 (헤더 없이), 첫 5열 반환하여 데이터 살펴볼 수 있다. Header 있는 데이터로 수정하기 #수업에서 사용한 자동차 데이터에 맞게 헤더 설정 headers = ["Manufacturer", "Category", "Screen", "GPU", "OS", "CPU_core", "Screen_Size_inch", "CPU..
1. 변수(variables) x = 3 %whos # what variable is saved so far print(type(x)) del x - %whos : 지금까지 설정된 모든 변수를 아래와 같이 보여줌 Variable Type Data/Info ---------------------------- x int 3 - type(x) : 변수의 타입을 알려줌. (int,str,compex,......) - del x : 변수 삭제 2. 연산자(Operaters)&불리언(Boolean) 연산자 및 불리언 a+b 더하기 a-b 빼기 a*b 곱하기 a/b 나누기 a//b 몫 구하기 a%b 나머지 구하기 a==b 일치 a!=b 불일치 a > b a = b a b: print(a) print("I..