두 컬럼간의 관계(비례, 반비례, 관계없음)를 파악하는데 유용하게 사용할 수 있는 산점도 사용법을 알아보자.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
%matplotlib inline
df = pd.read_csv('../data/fuel_econ.csv')
df
1. matplotlib.pyplot.scatter
# 배기량(displ)과 연비(comb)의 관계
plt.scatter(data= df, x= 'displ', y= 'comb')
plt.title('Displ vs Comb')
plt.xlabel('Displacement (L)')
plt.ylabel('Combined Fuel Eff (mpg)')
plt.show()
※ 상관계수(correlation coefficient)
상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로 나타낸 계수이다.
여러 유형의 상관계수가 존재하는데, 모두 값의 범위가 -1에서 +1 사이에 속하며
+1에 가까우면 강한 양의 상관관계, -1에 가까우면 강한 음의 상관관계, 0에 가까우면 상관관계 없음으로 볼 수 있다.
판다스에 있는 corr() 함수로 상관계수를 구할 수 있다.
method 파라미터로 상관계수의 종류를 정할 수 있는데 default 값은 피어슨 상관계수이다.
Method of correlation:
- 'pearson' : standard correlation coefficient
- 'kendall' : Kendall Tau correlation coefficient
- 'spearman' : Spearman rank correlation
# 상관계수 구하기
df.corr()
# displ과 comb의 상관계수
df[ ['displ', 'comb'] ].corr()
배기량이 커지면 연비가 낮아지는, 강한 음의 상관관계가 있다고 볼 수 있다.
2. seaborn.regplot
scatter에 추가로 데이터 fitting되는(regression) 선을 찾는다.
sb.regplot(data= df, x='displ', y= 'comb')
plt.show()
3. seaborn.pairplot
데이터의 각 숫자 변수에 대한 교차도표를 생성한다.
대각선 축에 표시될 차트는 diag_kind 파라미터를 사용해 바꿀 수 있다.
sb.pairplot(data= df, vars= ['displ', 'comb'])
plt.show()
sb.pairplot(data= df, vars= ['displ', 'comb', 'co2'])
plt.show()
산점도의 점 하나는 데이터 하나를 의미하기 때문에
점의 갯수는, 데이터의 갯수와 같다.
'Python > Pandas' 카테고리의 다른 글
pandas.read_csv() 콤마( , ) 가 포함된 수치형 컬럼 불러오기 (1) | 2022.12.01 |
---|---|
matplotlib, seaborn 을 활용한 데이터 시각화(4) - 히트맵, 한글처리 (0) | 2022.11.30 |
matplotlib, seaborn 을 활용한 데이터 시각화(2) - hist, subplot (0) | 2022.11.30 |
matplotlib, seaborn 을 활용한 데이터 시각화(1) - plot, countplot, pie (0) | 2022.11.29 |
Python 비트연산자 ~ 의 활용 (0) | 2022.11.29 |