목록데이터분석 (15)
Hayden's Archive
관련 포스팅 : hayden-arch\ive.tistory.com/151 [R] R Gui 통계 관련 코드 및 시각화 R Gui에 관한 간단한 설명 : https://www.youtube.com/watch?v=pGhjRJ9le7g 방통대 데이터정보처리입문 강의를 들으면서 R을 다운받고 간단한 코드를 작성하였다. R 프로그래밍에서 주로 사용되는 IDE는 R Stud. hayden-archive.tistory.com 작년 데이터정보처리입문 수업을 들으면서 RGui 프로그램을 사용하였고 R 프로그래밍으로 그래프를 작성해보았다. 이번 학기에는 데이터시각화 수업을 듣게 되었는데, R과 RStudio를 사용한다. 그래서 R을 새롭게 다시 설치하고 RStudio도 설치해보겠다. 1) R 설치 아래의 R 프로젝트 홈페..
R Gui에 관한 간단한 설명 : https://www.youtube.com/watch?v=pGhjRJ9le7g 방통대 데이터정보처리입문 강의를 들으면서 R을 다운받고 간단한 코드를 작성하였다. R 프로그래밍에서 주로 사용되는 IDE는 R Studio지만 R을 설치하면서 기본적으로 설치되는 RGui를 먼저 사용해보았다. R만 공부할 당시에는 잘 몰랐는데 파이썬을 공부하고 R을 다시 보니까 데이터 분석을 할 때 왜 파이썬을 사용하는지 너무도 잘 알겠다. 데이터 분석에서 R도 많이 쓰지만 파이썬은 라이브러리가 R과 비교할 수 없을만큼 매우 강력하다. 파이썬에 비하면 R이 비교적 쉽게 느껴지지만 그러기엔 파이썬의 장점이 너무도 뚜렷하다. 여하튼 R을 간단하게 공부했었는데 그 때의 코드를 포스팅한다. 현재 1학..
seaborn은 matplot과 함께 Graph Visualization을 하기 위한 파이썬 API 먼저 seaborn을 쓰기 위해 아래와 같이 import한다. import seaborn as sns 시작하기 전에 아래처럼 기본적으로 적어주면 편함 import matplotlib.pyplot as plt import numpy as np import pandas as pd from pandas import DataFrame, Series import seaborn as sns seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.10.1 documentation Seaborn is a Python data visualizatio..
* 히스토그램 Histogram 그리기 count는 전체의 count가 될 수 있음 value_counts()-> x축 각 값마다의 count를 센다. 히스토그램은 계급별 도수의 개수 plt.hist? 에서 Returns 보면 n과 bins, patches가 리턴되는 것을 알 수 있음 * 그래프에서 한글 깨지는 현상 방지 코드 import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/..
matplot 시작 Plot 직선 그리기 Plot 그래프에 옵션 추가하기 겹쳐진 그래프 그리기 파도 모양의 그래프 Pandas 데이터를 이용한 Visualization 산점도(Scatter) 그래프 그리기 Subplot 으로 plot(), scatter(), bar() 동시 이용하기 * matplot 시작 matplotlib cmap 검색하고, matplotlib.org/3.1.0/tutorials/colors/colormaps.html 데이터 분석한 다음에 시각화할 때 그래프 적용 tutorial 참고하면 됨. examples에 들어가면 이 안에 거의 모든 그래프가 있음. 문법은 API에 다 있음. 위로↑ * Plot 직선 그리기 위로↑ * Plot 그래프에 옵션 추가하기 위로↑ * 겹쳐진..
데이터 그룹연산 - groupby() 실전데이터 응용하기 알아두어야 할 함수들 피벗 테이블 pivot_table() 실전데이터 Pivot_Table 응용 문제1 문제2 사용자 함수 정의 * 데이터 그룹연산 - groupby() 위로↑ * 실전데이터 응용하기 위로↑ * 알아두어야 할 함수들 argmin(), argmax() => 굉장히 중요한 함수. 최솟값, 최댓값을 가지고 있는 인덱스를 반환 describe 통계적인 정보를 요약해서 출력해줌 위로↑ * 피벗 테이블 pivot_table() ★중요(엑셀 다룬 사람들은 피벗 테이블 많이 봤을 것) 기존 데이터를 DataFrame으로 받아오면 그걸 변형해서 써야 하는데 그걸 Pivot Table이라고 함 -> 주로 인덱스를 재조정(일종의 그룹핑) ..
데이터 분석 이전에 데이터 전처리 과정이 중요 -> 누락 데이터를 어떻게 처리할 것인가가 중요. NaN이라고 함. 누락된 데이터 관련 함수 -> isnull / notnull 판다스에서 누락데이터 값은 배제하고 기술 통계 처리. drop은 그냥 없애는 것 dorpna는 누락데이터를 없애는 것 fillna는 누락데이터를 다른 값으로 채우는 것
DataFrame 생성하기 DataFrame - 구조 확인 DataFrame - 컬럼명 변경 및 추가 DataFrame - 조회하기 (인덱싱, 슬라이싱) drop() - 삭제하기 DataFrame - 정렬하기 실전데이터로 응용하기 알아두면 유용한 함수들 * DataFrame 생성하기 데이터를 로드해올 때 서두르지 말 것. 데이터가 어떻게 생겼는지 먼저 알고 들어가야 함. 그 데이터를 모르면 데이터 분석이 안 됨. 모델을 구축하는 것도 좋지만 어떤 데이터를 input으로 받아들이는지 알고 들어갈 것. 내가 분석하고자 하는, 학습시키고자 하는, 끌어오고자 하는 데이터가 어떤 모양인지 반드시 먼저 확인하고 코드 작성하기! 이 데이터가 어떤 데이터의 성격인지 알려면 이 데이터의 feature(특징=..
판다스(Pandas) 도입 시리즈(Series) 생성, 구조 확인 시리즈 값 조회하기 응용해서 조회하기 시리즈 간의 연산과 누락 데이터 처리 Series 값을 이용한 시각화 * 판다스(Pandas) 도입 판다스에서 하는 수학적인 계산들을 넘파이꺼 씀. Series(1차원) -> 벡터구조. DataFrame(2차원) -> 행과 열. 행렬(매트릭스)로 자료 보관 Panel(3차원) 데이터 분석에서 인덱스는 행! 판다스의 시리즈(Series)는 일련의 객체를 담을 수 있는 1차원 배열 구조(넘파이 배열과 같음). 값에는 내부적으로 인덱싱이 매겨져있다. 위로↑ * 시리즈(Series) 생성, 구조 확인 위로↑ * 시리즈 값 조회하기 위로↑ * 응용해서 조회하기 위로↑ * 시리즈 간의 연산과 누락 데이터 처리 위..