상관분석 correlation analysis 은 두 변수 사이에 어떤 관계가 있는지를 분석하는 방법이다. 상관계수는 -1에서 1 사이의 값을 갖게 된다. 다만 상관계수는 인과관계를 나타내지는 않는다.
5개의 변수를 가진 30개의 데이터가 있다. 이름을 나타내는 첫 번째 변수를 제외하고 나머지 4개의 변수에 대해 상관관계가 있는지 알아보자.
우선 데이터의 전체적인 모양을 한번 보자.
chicks.head()
chicks.info()
첫번째 열은 이름이므로 제외하고 새로운 데이터를 만들자.
chicks_dataset=chicks.ilic[:,1:5]
나머지 4개의 변수들 간에 어떤 상관관계가 있을지 그래프로 시각화해보자.
import matplotlib.pyplot as plt
import seaborn as sns
sns.pairplot(chicks_dataset)
변수들 간의 상관계수를 구해보자.
chicks_dataset.corr(method='pearson')
위에서 구한 상관계수를 히트맵으로 그려보자.
plt.figure(figsize=(10,6))
sns.heatmap(chicks_dataset.corr(method='pearson'),annot=True,cmap='Blues')
plt.show()
'공부' 카테고리의 다른 글
파이썬 비선형 회귀분석 (0) | 2022.11.21 |
---|---|
파이썬 단순선형회귀분석 (feat. 다중회귀분석) (0) | 2022.11.20 |
파이썬 히스토그램과 박스플롯 그리기 (0) | 2022.11.12 |
파이썬 데이터프레임을 딕셔너리로 변환하기 (0) | 2022.11.09 |
파이썬 기초 통계량 구하기와 바차트, 파이차트 그리기 (0) | 2022.11.07 |