'data science' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록data science (6)

Road to Data Scientist

[Spaceship Titanic] 1st : XGBooster, Light GBM, Logistic Regression, Decision Tree, Random Forest - part1 : 데이터 불러오기& 데이터 탐색

Kaggle Competition : Spaceship Titanic Spaceship Titanic | Kaggle www.kaggle.com Kaggle의 기본 예측 데이터셋인 "Titanic 생존자 예측" 과 같이 "우주선 탑승객 예측"을 하는 기본 대회 데이터셋으로, 우주선 탑승객의 환승여부를 예측하는 것을 목표로 함. 1. SET UP - Import library: 데이터 탐색, 엔지니어링, 시각화, 머신러닝 등등을 위한 기본 라이브러리 다운 import numpy as np import pandas as pd #for visualization(그래프 그리기 위한 라이브러리 다운로드) import matplotlib.pyplot as plt import seaborn as sns 2. LOAD..

Kaggle 2024. 4. 12. 23:05

데이터 탐색 및 시각화_EDA_Visualization

Kaggle Titanic Data 활용 막대 그래프 Bar Chart data['Sex'].value_counts().plot(kind='bar') 히스토그램 Histogram data['Age'].plot.hist() 박스 그래프 Box Plot data['Fare'].plot.box() - 이상치 Outlier 를 확인할 수 있음 산점도 그래프 Scatter Plot import matplotlib.pyplot as plt plt.scatter(x='Age', y='Fare', data=data) plt.xlabel("Age") plt.ylabel("Fare") - X, Y 의 상관관계를 확인할 수 있음 - 위의 케이스의 경우 나이와 요금에 대해 관계가 있어보이지 않음 상관관계 Correlation..

코딩 테스트/Python 2024. 3. 26. 14:01

데이터 전처리_Data Preprocessing(get_dummies)_IBM DATA SCIENCE

IBM DATA SCIENCE 내용 정리 데이터셋의 카테고리값을 갖고 있는 열 전처리 #df 라는 데이터 셋의 fuel-type 열 dummy_variable_1 = pd.get_dummies(df['fuel-type}]) - 예시: disel gas 0 0 1 1 0 1 2 0 1 dummy_variabel_1 을 원래 데이터셋 (df) 에 추가하고 원래 열 삭제하기 df = pd.concat([df, dummy_variable_1], axis=1 df.drop("fuel-type", axis=1, inplace=True) - axis=1 : 열 기준으로. 즉, dummy_variabl_1 의 disel, gas 열이 기존 데이터셋에 추가로 생김 수정된 데이터셋 최종본 저장하기 df.to_csv('cl..

코딩 테스트/Python 2024. 1. 28. 17:07

데이터 전처리_Data Preprocessing_IBM DATA SCIENCE

IBM DATA SCIENCE 내용 정리 '?' 데이터 NaN으로 바꾸기 import numpy as np df.replace('?',np.nan, inplace=True) - numpy 설치 - 데이터셋 앞에서 df 로 저장했다는 가정하에 진행 데이터가 존재하지 않는 (Null) 셀 찾기 missing_data = df.isnull() #missing_data 변수에 해당 데이터셋을 NUll값 존재 유무로 보여줌 missing_data.head() - df.isnull() : 해당 셀이 Null --> True / not Null --> False 반환 Null 값인 데이터 개수 알아보기 for column in missing_data.columns.values.tolist(): print(column..

코딩 테스트/Python 2024. 1. 27. 15:44

데이터 불러오기_Data Load/Read_IBM DATA SCIENCE

IBM DATA SCIENCE 수업 내용 정리 csv 파일 pandas 이용하여 dataframe 으로 불러오기 import pandas as pd #pandas 설치 df = pd.read_csv(path, header=None) #path: 파일 경로 / header=None : header 없이 불러오기 df.head() #첫 5열만 보여준다. - df 라는 이름으로 데이터 불러오고 (헤더 없이), 첫 5열 반환하여 데이터 살펴볼 수 있다. Header 있는 데이터로 수정하기 #수업에서 사용한 자동차 데이터에 맞게 헤더 설정 headers = ["Manufacturer", "Category", "Screen", "GPU", "OS", "CPU_core", "Screen_Size_inch", "CPU..

코딩 테스트/Python 2024. 1. 27. 14:40

[파이썬 기초] Python basic_변수 variables/연산자 operators/불리언 boolean/함수 function/데이터구조 data structure

1. 변수(variables) x = 3 %whos # what variable is saved so far print(type(x)) del x - %whos : 지금까지 설정된 모든 변수를 아래와 같이 보여줌 Variable Type Data/Info ---------------------------- x int 3 - type(x) : 변수의 타입을 알려줌. (int,str,compex,......) - del x : 변수 삭제 2. 연산자(Operaters)&불리언(Boolean) 연산자 및 불리언 a+b 더하기 a-b 빼기 a*b 곱하기 a/b 나누기 a//b 몫 구하기 a%b 나머지 구하기 a==b 일치 a!=b 불일치 a > b a = b a b: print(a) print("I..

코딩 테스트 2023. 10. 3. 19:29

이전 Prev 1 Next 다음

목록data science (6)

Road to Data Scientist

티스토리툴바