목록pandas (6)
Hayden's Archive
* 히스토그램 Histogram 그리기 count는 전체의 count가 될 수 있음 value_counts()-> x축 각 값마다의 count를 센다. 히스토그램은 계급별 도수의 개수 plt.hist? 에서 Returns 보면 n과 bins, patches가 리턴되는 것을 알 수 있음 * 그래프에서 한글 깨지는 현상 방지 코드 import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': rc('font', family='AppleGothic') elif platform.system() == 'Windows': path = "c:/..
데이터 그룹연산 - groupby() 실전데이터 응용하기 알아두어야 할 함수들 피벗 테이블 pivot_table() 실전데이터 Pivot_Table 응용 문제1 문제2 사용자 함수 정의 * 데이터 그룹연산 - groupby() 위로↑ * 실전데이터 응용하기 위로↑ * 알아두어야 할 함수들 argmin(), argmax() => 굉장히 중요한 함수. 최솟값, 최댓값을 가지고 있는 인덱스를 반환 describe 통계적인 정보를 요약해서 출력해줌 위로↑ * 피벗 테이블 pivot_table() ★중요(엑셀 다룬 사람들은 피벗 테이블 많이 봤을 것) 기존 데이터를 DataFrame으로 받아오면 그걸 변형해서 써야 하는데 그걸 Pivot Table이라고 함 -> 주로 인덱스를 재조정(일종의 그룹핑) ..
데이터 분석 이전에 데이터 전처리 과정이 중요 -> 누락 데이터를 어떻게 처리할 것인가가 중요. NaN이라고 함. 누락된 데이터 관련 함수 -> isnull / notnull 판다스에서 누락데이터 값은 배제하고 기술 통계 처리. drop은 그냥 없애는 것 dorpna는 누락데이터를 없애는 것 fillna는 누락데이터를 다른 값으로 채우는 것
DataFrame 생성하기 DataFrame - 구조 확인 DataFrame - 컬럼명 변경 및 추가 DataFrame - 조회하기 (인덱싱, 슬라이싱) drop() - 삭제하기 DataFrame - 정렬하기 실전데이터로 응용하기 알아두면 유용한 함수들 * DataFrame 생성하기 데이터를 로드해올 때 서두르지 말 것. 데이터가 어떻게 생겼는지 먼저 알고 들어가야 함. 그 데이터를 모르면 데이터 분석이 안 됨. 모델을 구축하는 것도 좋지만 어떤 데이터를 input으로 받아들이는지 알고 들어갈 것. 내가 분석하고자 하는, 학습시키고자 하는, 끌어오고자 하는 데이터가 어떤 모양인지 반드시 먼저 확인하고 코드 작성하기! 이 데이터가 어떤 데이터의 성격인지 알려면 이 데이터의 feature(특징=..
판다스(Pandas) 도입 시리즈(Series) 생성, 구조 확인 시리즈 값 조회하기 응용해서 조회하기 시리즈 간의 연산과 누락 데이터 처리 Series 값을 이용한 시각화 * 판다스(Pandas) 도입 판다스에서 하는 수학적인 계산들을 넘파이꺼 씀. Series(1차원) -> 벡터구조. DataFrame(2차원) -> 행과 열. 행렬(매트릭스)로 자료 보관 Panel(3차원) 데이터 분석에서 인덱스는 행! 판다스의 시리즈(Series)는 일련의 객체를 담을 수 있는 1차원 배열 구조(넘파이 배열과 같음). 값에는 내부적으로 인덱싱이 매겨져있다. 위로↑ * 시리즈(Series) 생성, 구조 확인 위로↑ * 시리즈 값 조회하기 위로↑ * 응용해서 조회하기 위로↑ * 시리즈 간의 연산과 누락 데이터 처리 위..