목록python (36)
Hayden's Archive
먼저 텐서플로우(Tensorflow)와 Graphviz 의 설치가 필요하다. ( 참고 : Graphviz는 운영체제와 연결되는 라이브러리가 들어가야 하므로 파이썬으로 못 만든다. 파이썬에서 사용할 수 있는 라이브러리지만 파이썬으로 만들어진 건 아니고 C++로 만들어져있음. ) DataLoader 어떤 데이터를 다루는지에 대해 데이터에 대한 정확한 이해를 해야 함. 사전적인 데이터에 대한 이해는 필수적. DataFrame Visualization Seaborn Visualization Shuffle & Split 1. 현실적으로 데이터의 수가 부족해서 테스트를 마음껏 못 돌림. 학습의 데이터로 80%로 가져가고 테스트 데이터로 20% 가져감. 2. 섞어준다. 셔플 Model Generator and Tra..
seaborn은 matplot과 함께 Graph Visualization을 하기 위한 파이썬 API 먼저 seaborn을 쓰기 위해 아래와 같이 import한다. import seaborn as sns 시작하기 전에 아래처럼 기본적으로 적어주면 편함 import matplotlib.pyplot as plt import numpy as np import pandas as pd from pandas import DataFrame, Series import seaborn as sns seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.10.1 documentation Seaborn is a Python data visualizatio..
* 히스토그램 Histogram 그리기 count는 전체의 count가 될 수 있음 value_counts()-> x축 각 값마다의 count를 센다. 히스토그램은 계급별 도수의 개수 plt.hist? 에서 Returns 보면 n과 bins, patches가 리턴되는 것을 알 수 있음 * 그래프에서 한글 깨지는 현상 방지 코드 import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/..
matplot 시작 Plot 직선 그리기 Plot 그래프에 옵션 추가하기 겹쳐진 그래프 그리기 파도 모양의 그래프 Pandas 데이터를 이용한 Visualization 산점도(Scatter) 그래프 그리기 Subplot 으로 plot(), scatter(), bar() 동시 이용하기 * matplot 시작 matplotlib cmap 검색하고, matplotlib.org/3.1.0/tutorials/colors/colormaps.html 데이터 분석한 다음에 시각화할 때 그래프 적용 tutorial 참고하면 됨. examples에 들어가면 이 안에 거의 모든 그래프가 있음. 문법은 API에 다 있음. 위로↑ * Plot 직선 그리기 위로↑ * Plot 그래프에 옵션 추가하기 위로↑ * 겹쳐진..
데이터 그룹연산 - groupby() 실전데이터 응용하기 알아두어야 할 함수들 피벗 테이블 pivot_table() 실전데이터 Pivot_Table 응용 문제1 문제2 사용자 함수 정의 * 데이터 그룹연산 - groupby() 위로↑ * 실전데이터 응용하기 위로↑ * 알아두어야 할 함수들 argmin(), argmax() => 굉장히 중요한 함수. 최솟값, 최댓값을 가지고 있는 인덱스를 반환 describe 통계적인 정보를 요약해서 출력해줌 위로↑ * 피벗 테이블 pivot_table() ★중요(엑셀 다룬 사람들은 피벗 테이블 많이 봤을 것) 기존 데이터를 DataFrame으로 받아오면 그걸 변형해서 써야 하는데 그걸 Pivot Table이라고 함 -> 주로 인덱스를 재조정(일종의 그룹핑) ..
데이터 분석 이전에 데이터 전처리 과정이 중요 -> 누락 데이터를 어떻게 처리할 것인가가 중요. NaN이라고 함. 누락된 데이터 관련 함수 -> isnull / notnull 판다스에서 누락데이터 값은 배제하고 기술 통계 처리. drop은 그냥 없애는 것 dorpna는 누락데이터를 없애는 것 fillna는 누락데이터를 다른 값으로 채우는 것
DataFrame 생성하기 DataFrame - 구조 확인 DataFrame - 컬럼명 변경 및 추가 DataFrame - 조회하기 (인덱싱, 슬라이싱) drop() - 삭제하기 DataFrame - 정렬하기 실전데이터로 응용하기 알아두면 유용한 함수들 * DataFrame 생성하기 데이터를 로드해올 때 서두르지 말 것. 데이터가 어떻게 생겼는지 먼저 알고 들어가야 함. 그 데이터를 모르면 데이터 분석이 안 됨. 모델을 구축하는 것도 좋지만 어떤 데이터를 input으로 받아들이는지 알고 들어갈 것. 내가 분석하고자 하는, 학습시키고자 하는, 끌어오고자 하는 데이터가 어떤 모양인지 반드시 먼저 확인하고 코드 작성하기! 이 데이터가 어떤 데이터의 성격인지 알려면 이 데이터의 feature(특징=..
판다스(Pandas) 도입 시리즈(Series) 생성, 구조 확인 시리즈 값 조회하기 응용해서 조회하기 시리즈 간의 연산과 누락 데이터 처리 Series 값을 이용한 시각화 * 판다스(Pandas) 도입 판다스에서 하는 수학적인 계산들을 넘파이꺼 씀. Series(1차원) -> 벡터구조. DataFrame(2차원) -> 행과 열. 행렬(매트릭스)로 자료 보관 Panel(3차원) 데이터 분석에서 인덱스는 행! 판다스의 시리즈(Series)는 일련의 객체를 담을 수 있는 1차원 배열 구조(넘파이 배열과 같음). 값에는 내부적으로 인덱싱이 매겨져있다. 위로↑ * 시리즈(Series) 생성, 구조 확인 위로↑ * 시리즈 값 조회하기 위로↑ * 응용해서 조회하기 위로↑ * 시리즈 간의 연산과 누락 데이터 처리 위..