Road to Data Scientist

데이터 탐색 및 시각화_EDA_Visualization 본문

코딩 테스트/Python

데이터 탐색 및 시각화_EDA_Visualization

ShazelP 2024. 3. 26. 14:01

Kaggle Titanic Data 활용

 

막대 그래프 Bar Chart

data['Sex'].value_counts().plot(kind='bar')

히스토그램 Histogram

data['Age'].plot.hist()

박스 그래프 Box Plot

data['Fare'].plot.box()

- 이상치 Outlier 를 확인할 수 있음

산점도 그래프 Scatter Plot

import matplotlib.pyplot as plt

plt.scatter(x='Age', y='Fare', data=data)
plt.xlabel("Age")
plt.ylabel("Fare")

- X, Y 의 상관관계를 확인할 수 있음

- 위의 케이스의 경우 나이와 요금에 대해 관계가 있어보이지 않음

상관관계 Correlation

cor = data.corr(numeric_only=True)
cor

- 상관관계 확인할 수 있음

- 1 : 강한 양의 상관관계

- -1 : 강한 음의 상관관계

- 0 : 상관관계 없음

상관관계 히트맵 Correlation Heatmap

import matplotlib.pyplot as plt
import seaborn as sns

cor = data.corr(numeric_only=True)

plt.figure(figsize=(10,10), dpi=200)
sns.heatmap(cor, cmap='Blues', annot=True)