드레:
코딩 뿌시기
드레:
전체 방문자
오늘
어제
  • 분류 전체보기 (268)
    • Python (74)
      • Python 기초 (42)
      • Numpy (8)
      • Pandas (22)
    • Machine Learning (31)
      • Machine Learning (1)
      • Deep Learning (27)
    • AWS (22)
      • RDS (3)
      • EC2 (9)
      • Lambda (8)
      • S3 (2)
    • MySQL (24)
    • Git (8)
    • Streamlit (12)
    • REST API (22)
    • Java (24)
    • Android (36)
    • Debugging (15)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 서버리스
  • rest api
  • 안드로이드 스튜디오
  • github
  • Callback
  • Transfer Learning
  • flask
  • volley
  • API
  • Lambda
  • CNN
  • JWT
  • 깃이그노어
  • 네이버 API
  • 액션바
  • AWS Lambda
  • aws s3
  • 딥러닝
  • Ann
  • pandas
  • AWS
  • Streamlit
  • GET
  • Retrofit2
  • Java
  • EC2
  • fine tuning
  • tensorflow
  • serverless
  • Python

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
드레:

코딩 뿌시기

matplotlib, seaborn 을 활용한 데이터 시각화(3) - scatter, regplot, pairplot, 상관계수
Python/Pandas

matplotlib, seaborn 을 활용한 데이터 시각화(3) - scatter, regplot, pairplot, 상관계수

2022. 11. 30. 16:26

두 컬럼간의 관계(비례, 반비례, 관계없음)를 파악하는데 유용하게 사용할 수 있는 산점도 사용법을 알아보자.

fuel_econ.csv
0.56MB

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
%matplotlib inline

df = pd.read_csv('../data/fuel_econ.csv')
df

 

1. matplotlib.pyplot.scatter

 

# 배기량(displ)과 연비(comb)의 관계
plt.scatter(data= df, x= 'displ', y= 'comb')
plt.title('Displ vs Comb')
plt.xlabel('Displacement (L)')
plt.ylabel('Combined Fuel Eff (mpg)')
plt.show()

 

 

※ 상관계수(correlation coefficient)

 

상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로 나타낸 계수이다.

여러 유형의 상관계수가 존재하는데, 모두 값의 범위가 -1에서 +1 사이에 속하며

+1에 가까우면 강한 양의 상관관계, -1에 가까우면 강한 음의 상관관계, 0에 가까우면 상관관계 없음으로 볼 수 있다.

 

판다스에 있는 corr() 함수로 상관계수를 구할 수 있다.

method 파라미터로 상관계수의 종류를 정할 수 있는데 default 값은 피어슨 상관계수이다.

 

Method of correlation:

  • 'pearson' : standard correlation coefficient
  • 'kendall' : Kendall Tau correlation coefficient
  • 'spearman' : Spearman rank correlation

 

# 상관계수 구하기
df.corr()

 

 

# displ과 comb의 상관계수
df[ ['displ', 'comb'] ].corr()

배기량이 커지면 연비가 낮아지는, 강한 음의 상관관계가 있다고 볼 수 있다.

 

 

 

2. seaborn.regplot

 

scatter에 추가로 데이터 fitting되는(regression) 선을 찾는다.

sb.regplot(data= df, x='displ', y= 'comb') 
plt.show()

 

 

 

3. seaborn.pairplot

 

데이터의 각 숫자 변수에 대한 교차도표를 생성한다.

대각선 축에 표시될 차트는 diag_kind 파라미터를 사용해 바꿀 수 있다.

sb.pairplot(data= df, vars= ['displ', 'comb'])
plt.show()

sb.pairplot(data= df, vars= ['displ', 'comb', 'co2'])
plt.show()

 

 

산점도의 점 하나는 데이터 하나를 의미하기 때문에

점의 갯수는, 데이터의 갯수와 같다.

 

 

'Python > Pandas' 카테고리의 다른 글

pandas.read_csv() 콤마( , ) 가 포함된 수치형 컬럼 불러오기  (1) 2022.12.01
matplotlib, seaborn 을 활용한 데이터 시각화(4) - 히트맵, 한글처리  (0) 2022.11.30
matplotlib, seaborn 을 활용한 데이터 시각화(2) - hist, subplot  (0) 2022.11.30
matplotlib, seaborn 을 활용한 데이터 시각화(1) - plot, countplot, pie  (0) 2022.11.29
Python 비트연산자 ~ 의 활용  (0) 2022.11.29
    'Python/Pandas' 카테고리의 다른 글
    • pandas.read_csv() 콤마( , ) 가 포함된 수치형 컬럼 불러오기
    • matplotlib, seaborn 을 활용한 데이터 시각화(4) - 히트맵, 한글처리
    • matplotlib, seaborn 을 활용한 데이터 시각화(2) - hist, subplot
    • matplotlib, seaborn 을 활용한 데이터 시각화(1) - plot, countplot, pie
    드레:
    드레:

    티스토리툴바