Python
pandas.read_csv() 콤마( , ) 가 포함된 수치형 컬럼 불러오기
판다스로 csv 파일을 불러오다 보면 숫자 데이터인데 콤마가 포함되어 있어서 object 타입이 된 경우를 많이 볼 수 있다. 그러면 각종 연산이 불가능하기 때문에, 타입을 바꿔줘야 하는데 read_csv() 로 불러오는 과정에서 파라미터로 쉽게 할 수 있다. import pandas as pd df = pd.read_csv('../data/age.csv', encoding='cp949') df.head() df.describe() df.info() >>> RangeIndex: 3817 entries, 0 to 3816 Columns: 104 entries, 행정구역 to 2019년07월_계_100세 이상 dtypes: int64(1), object(103) memory usage: 3.0+ MB 숫자 ..
matplotlib, seaborn 을 활용한 데이터 시각화(4) - 히트맵, 한글처리
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('../data/fuel_econ.csv') df 히트맵(Heat Maps) 산점도는 여러 데이터가 한 군데 뭉치면 보기 힘들다. 이를 해결하기 위해 밀도를 나타내는데 좋은 히트맵을 사용할 수 있다. plt.hist2d(data=df, x='displ', y='comb', cmin=0.5, cmap='viridis_r', bins=20) # cmin=0.5 : 데이터가 없는 부분을 색을 넣지 않는다 # cmap='viridis_r' : 데이터가 많을수록 어둡게 plt.color..
matplotlib, seaborn 을 활용한 데이터 시각화(3) - scatter, regplot, pairplot, 상관계수
두 컬럼간의 관계(비례, 반비례, 관계없음)를 파악하는데 유용하게 사용할 수 있는 산점도 사용법을 알아보자. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('../data/fuel_econ.csv') df 1. matplotlib.pyplot.scatter # 배기량(displ)과 연비(comb)의 관계 plt.scatter(data= df, x= 'displ', y= 'comb') plt.title('Displ vs Comb') plt.xlabel('Displacement (L)') plt.ylabel('Combined F..
matplotlib, seaborn 을 활용한 데이터 시각화(2) - hist, subplot
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline histogram 구간(bin)을 설정하여, 해당 구간에 포함괴는 데이터가 몇개인지 세는 차트를 히스토그램이라고 한다. 히스토그램은 똑같은 데이터를 가지고 bin을 어떻게 잡느냐에 따라 차트 모양이 달라져서 해석을 다르게 할 수도 있다. matplotlib.pyplot에 있는 hist() 로 히스토그램을 만들어보자. df = pd.read_csv('../data/pokemon.csv') df plt.hist(data= df, x= 'speed') plt.show() # bin의 범위값을 지정하는 경우 my_..
matplotlib, seaborn 을 활용한 데이터 시각화(1) - plot, countplot, pie
데이터 시각화(Visualization) 는 데이터 분석 결과를 쉽게 이해할 수 있도록, 차트, 그래프, 맵 같은 요소를 사용해 시각적으로 표현하는 프로세스이다. 파이썬에서 많이 쓰이는 matplotlib과 seaborn 라이브러리를 활용한, 간단한 데이터 시각화에 대해 알아보자. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline # 도표, 그림, 소리 같은 결과물들을 코드를 실행한 브라우저에서 바로 볼 수 있게 해주는 코드 plot 가장 기본적인 그래프 그래프들을 출력할땐 코드 마지막에 plt.show() 를 입력해야한다. x = np.arange(0, 9..
Python 비트연산자 ~ 의 활용
'df의 데이터 중 choice_description 값에 Vegetables 들어가지 않는 데이터를 출력하라' 는 문제를 풀기 위해 ~를 사용해봤다. ~ 는 비트연산자로 not을 의미하고 True, False의 결과를 뒤집는다. # Vegetables를 포함하는 경우 df['choice_description'].str.contains('Vegetables', case=False) >>> 0 False 1 False 2 False 3 False 4 False ... 4617 False 4618 False 4619 True 4620 True 4621 True Name: choice_description, Length: 4622, dtype: bool # Vegetables를 포함하지 않는 경우 ~df['c..
Pandas 활용(10) - 데이터프레임 합치기(concat, merge)
pandas의 concat() 과 merge() 는 둘 다 데이터프레임을 합치는 함수이지만 약간의 차이가 있는데 concat() 은 단순히 여러 개의 데이터프레임을 합치는 것에 중점을 두고 있고, merge() 는 2개의 데이터프레임을 설정한 기준대로 합치는 것이다. 아래 예제들을 통해 사용법을 알아보자. raw_data = { 'Employee ID': ['1', '2', '3', '4', '5'], 'first name': ['Diana', 'Cynthia', 'Shep', 'Ryan', 'Allen'], 'last name': ['Bouchard', 'Ali', 'Rob', 'Mitch', 'Steve']} df_Engineering_dept = pd.DataFrame(raw_data, column..
Pandas 활용(9) - 데이터프레임 정렬하기 sort_values, sort_index
데이터프레임 정렬 value를 정렬할 땐 sort_values(), index를 정렬할 땐 sort_index() 를 사용한다. import pandas as pd df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df # 경력을 오름차순으로 정렬 df.sort_values('Years of Experience') # 경력을 내림차순으로 정렬 df.sort_values('Years of Experience', ascending=False)..