분류 전체보기

    오픈API Goolglemaps Geocode로 위치정보 받아오기

    import pandas as pd df = pd.read_csv('../data/crime_in_Seoul.csv', encoding='euc-kr', thousands=',') df 이 데이터프레임에 있는 관서명을 토대로 어느 구에 속해있는지 찾아 새로운 컬럼으로 만들려한다. 위치정보를 받아오기 위해 오픈 api인 Googlemaps를 사용해 보겠다. https://cloud.google.com/maps-platform/?h1=ko Google Maps Platform - Location and Mapping Solutions Create real world and real time experiences for your customers with dynamic maps, routes & places ..

    Pandas의 DataFrame.plot() 으로 시각화하기

    판다스 데이터프레임의 plot 메소드는 x축에 인덱스를 셋팅하고, y축에는 모든 컬럼의 데이터를 셋팅해준다.(모든 컬럼을 차트로 그려준다) import pandas as pd import matplotlib.pyplot as plt # 한글처리코드 import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/Windows/Fonts/malgun.ttf" font_name = font_ma..

    pandas.read_csv() 콤마( , ) 가 포함된 수치형 컬럼 불러오기

    판다스로 csv 파일을 불러오다 보면 숫자 데이터인데 콤마가 포함되어 있어서 object 타입이 된 경우를 많이 볼 수 있다. 그러면 각종 연산이 불가능하기 때문에, 타입을 바꿔줘야 하는데 read_csv() 로 불러오는 과정에서 파라미터로 쉽게 할 수 있다. import pandas as pd df = pd.read_csv('../data/age.csv', encoding='cp949') df.head() df.describe() df.info() >>> RangeIndex: 3817 entries, 0 to 3816 Columns: 104 entries, 행정구역 to 2019년07월_계_100세 이상 dtypes: int64(1), object(103) memory usage: 3.0+ MB 숫자 ..

    matplotlib, seaborn 을 활용한 데이터 시각화(4) - 히트맵, 한글처리

    import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('../data/fuel_econ.csv') df​ 히트맵(Heat Maps) 산점도는 여러 데이터가 한 군데 뭉치면 보기 힘들다. 이를 해결하기 위해 밀도를 나타내는데 좋은 히트맵을 사용할 수 있다. plt.hist2d(data=df, x='displ', y='comb', cmin=0.5, cmap='viridis_r', bins=20) # cmin=0.5 : 데이터가 없는 부분을 색을 넣지 않는다 # cmap='viridis_r' : 데이터가 많을수록 어둡게 plt.color..

    matplotlib, seaborn 을 활용한 데이터 시각화(3) - scatter, regplot, pairplot, 상관계수

    두 컬럼간의 관계(비례, 반비례, 관계없음)를 파악하는데 유용하게 사용할 수 있는 산점도 사용법을 알아보자. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline df = pd.read_csv('../data/fuel_econ.csv') df 1. matplotlib.pyplot.scatter # 배기량(displ)과 연비(comb)의 관계 plt.scatter(data= df, x= 'displ', y= 'comb') plt.title('Displ vs Comb') plt.xlabel('Displacement (L)') plt.ylabel('Combined F..

    matplotlib, seaborn 을 활용한 데이터 시각화(2) - hist, subplot

    import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline​ histogram 구간(bin)을 설정하여, 해당 구간에 포함괴는 데이터가 몇개인지 세는 차트를 히스토그램이라고 한다. 히스토그램은 똑같은 데이터를 가지고 bin을 어떻게 잡느냐에 따라 차트 모양이 달라져서 해석을 다르게 할 수도 있다. matplotlib.pyplot에 있는 hist() 로 히스토그램을 만들어보자. df = pd.read_csv('../data/pokemon.csv') df plt.hist(data= df, x= 'speed') plt.show() # bin의 범위값을 지정하는 경우 my_..

    matplotlib, seaborn 을 활용한 데이터 시각화(1) - plot, countplot, pie

    데이터 시각화(Visualization) 는 데이터 분석 결과를 쉽게 이해할 수 있도록, 차트, 그래프, 맵 같은 요소를 사용해 시각적으로 표현하는 프로세스이다. 파이썬에서 많이 쓰이는 matplotlib과 seaborn 라이브러리를 활용한, 간단한 데이터 시각화에 대해 알아보자. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb %matplotlib inline # 도표, 그림, 소리 같은 결과물들을 코드를 실행한 브라우저에서 바로 볼 수 있게 해주는 코드 plot 가장 기본적인 그래프 그래프들을 출력할땐 코드 마지막에 plt.show() 를 입력해야한다. x = np.arange(0, 9..

    Python 비트연산자 ~ 의 활용

    'df의 데이터 중 choice_description 값에 Vegetables 들어가지 않는 데이터를 출력하라' 는 문제를 풀기 위해 ~를 사용해봤다. ~ 는 비트연산자로 not을 의미하고 True, False의 결과를 뒤집는다. # Vegetables를 포함하는 경우 df['choice_description'].str.contains('Vegetables', case=False) >>> 0 False 1 False 2 False 3 False 4 False ... 4617 False 4618 False 4619 True 4620 True 4621 True Name: choice_description, Length: 4622, dtype: bool # Vegetables를 포함하지 않는 경우 ~df['c..