Hayden's Archive

[Python-pandas] 데이터프레임(DataFrame) 생성 / 구조 / 컬럼명 변경 및 추가 / 조회(인덱싱, 슬라이싱) / 삭제 / 정렬 / 유용한 함수 본문

Study/Data

[Python-pandas] 데이터프레임(DataFrame) 생성 / 구조 / 컬럼명 변경 및 추가 / 조회(인덱싱, 슬라이싱) / 삭제 / 정렬 / 유용한 함수

_hayden 2020. 7. 13. 20:43

< 차례 >

DataFrame 생성하기
DataFrame - 구조 확인
DataFrame - 컬럼명 변경 및 추가
DataFrame - 조회하기 (인덱싱, 슬라이싱)
drop() - 삭제하기
DataFrame - 정렬하기
실전데이터로 응용하기
알아두면 유용한 함수들

 

* DataFrame 생성하기

 

 

데이터를 로드해올 때 서두르지 말 것.  데이터가 어떻게 생겼는지 먼저 알고 들어가야 함. 그 데이터를 모르면 데이터 분석이 안 됨. 
모델을 구축하는 것도 좋지만 어떤 데이터를 input으로 받아들이는지 알고 들어갈 것. 
내가 분석하고자 하는, 학습시키고자 하는, 끌어오고자 하는 데이터가 어떤 모양인지 반드시 먼저 확인하고 코드 작성하기! 
이 데이터가 어떤 데이터의 성격인지 알려면 이 데이터의 feature(특징=컬럼)이 무엇으로 이루어져있는지 알아야 함. 
분석 전의 전략이 중요함. 기술이 고도화되면서 더 중요해진 건 인간적인 능력. 분석에 진입하기 전이 아이디어 싸움.

 

tips.csv ( https://www.kaggle.com/ranjeetjain3/seaborn-tips-dataset ) -> 데이터 분석할 때 거쳐가게 되는 유명한 데이터.

팁에 영향을 끼치는 요인... size => 몇명 왔는지

위로↑


* DataFrame - 구조 확인

이 외에 T라는 속성이 있는데 T 속성은 DataFrame을 Transpose 한다.

(딥러닝에서 가중치(weight)라는 값이 중요함.

weight 값이 내가 의도하지 않았는데 T가 적용되어 나오는 경우가 생김. -> Transpose 되어서 나온 것. 

출력 될 때 항상 Transpose돼서 출력됨. 행과 열이 뒤바껴서 출력.

데이터 분석할 때 Transpose를 쓸 일은 잘 없는데 인공지능에서 어떤 행과 열이 출력될 때 내부적으로 바뀌어서 나옴.)

 

위로↑


* DataFrame - 컬럼명 변경 및 추가

리스트는 중복이 되므로 컬럼이 될 수 없음.
하지만 튜플은 컬럼이 될 수 있음.
Hierarchical Indexes -> 나중에 하게 될 것.

위로↑


* DataFrame - 조회하기 (인덱싱, 슬라이싱)

 

* 굉장히 많이 씀. 알아야 함. 
loc는 라벨(L)로 검색하는 것 
iloc 인덱스로 검색하는 것 
at 라벨로 스칼라값 검색 
iat 인덱스로 스칼라값 검색 

위로↑


* drop() - 삭제하기

위로↑


* DataFrame - 정렬하기

위로↑


* 실전데이터로 응용하기

위로↑


* 알아두면 유용한 함수들

위로↑

 

참고 : 데이터프레임 스타일 주기 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.set_properties.html