공부

파이썬 상관분석

김파파 2022. 11. 18. 20:14

상관분석 correlation analysis 은 두 변수 사이에 어떤 관계가 있는지를 분석하는 방법이다. 상관계수는 -1에서 1 사이의 값을 갖게 된다. 다만 상관계수는 인과관계를 나타내지는 않는다.

 

 

5개의 변수를 가진 30개의 데이터가 있다. 이름을 나타내는 첫 번째 변수를 제외하고 나머지 4개의 변수에 대해 상관관계가 있는지 알아보자.

 

 

 

 

우선 데이터의 전체적인 모양을 한번 보자.

 

 

chicks.head()

chicks.info()

 

 

첫번째 열은 이름이므로 제외하고 새로운 데이터를 만들자.

 

 

chicks_dataset=chicks.ilic[:,1:5]

 

 

 

나머지 4개의 변수들 간에 어떤 상관관계가 있을지 그래프로 시각화해보자.

 

 

import matplotlib.pyplot as plt

import seaborn as sns

sns.pairplot(chicks_dataset)

 

 

변수들 간의 상관계수를 구해보자.

 

 

chicks_dataset.corr(method='pearson')

 

 

위에서 구한 상관계수를 히트맵으로 그려보자.

 

 

plt.figure(figsize=(10,6))

sns.heatmap(chicks_dataset.corr(method='pearson'),annot=True,cmap='Blues')

plt.show()

 

 

 

 

 

 

GitHub - gimpapa/Data_analysis_that_can_be_used_right_in_the_field_with_Python

Contribute to gimpapa/Data_analysis_that_can_be_used_right_in_the_field_with_Python development by creating an account on GitHub.

github.com