목록머신러닝 (14)
Hayden's Archive
www.aiexpo.co.kr/page/sub1_1 국제인공지능대전 전시회 안내 전시회 안내AI EXPO KOREA 2020 www.aiexpo.co.kr 오늘 점심 먹고 코엑스에서 하는 국제인공지능대전에 다녀왔다. 2020 국제인공지능대전은 오늘부터 목요일까지 3일에 걸쳐서 개최되며 코엑스 D홀에서 열린다. 온라인사전등록의 경우 무료로 입장 가능하지만 현장등록일 경우에는 10,000원을 내고 입장 가능하다. 현장 등록을 하면 목걸이를 주는데 부스를 방문할 때마다 저 목걸이를 보여주면서 바코드를 찍으면 된다 (코로나 때문인 듯하다) 현장에서 나눠준 엑스포 및 관심있는 부스 팜플렛도 하나씩 챙겨왔다. 사진을 여러장 찍었는데 인상 깊었던 부스 위주로 포스팅해보겠다. 들어가자마자 입구에서 봤던 사물 인식 AI..
데이터 출처 : grouplens.org/datasets/movielens/ MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. … grouplens.org 1. DataLoading and Data PreProcessing 데이터를 가져와서 필요에 맞게 가공한다. 데이터 전처리 과정. 2. 영화와 영화들 간의 유사도 산출 - 코사인 유사도 활용 앞선 포스팅에서는 함수를 직접 구현했지만 여기서는 코사..
Configuration Notation / Calculate Similarity (사용자 기반 / 상품 기반) 위의 코드들을 바탕으로 코사인 유사도를 리턴하는 함수를 만듦. 모든 사람의 유사도 검색 itertools를 통해 조합을 만든다. 모든 조합에 대한 유사도를 리턴하는 함수 평점 예측하기 사용자와 상품을 입력했을 때 평점을 예상하는 함수 모든 사용자와 상품에 대한 평점 검색
추천 협업 시스템 -> 근래에 많이 오르내리고 있음. 협업 필터링은 비지도학습. 지도학습은 Feature와 Label을 같이 주지만 비지도학습은 Feature만 준다. 이 때의 데이터는 그룹 데이터. Clustering, Grooping된 데이터. 넷플릭스가 성장하게 된 가장 큰 배경 -> AI 기술, 그 중에서도 추천 협업 시스템. 참고1 : 1boon.kakao.com/scientist/700 참고2 : www.epnc.co.kr/news/articleView.html?idxno=83033 아이템 기반 추천(Item Based Recommendation) 영화들끼리의 유사도를 측정한 것을 바탕으로 사용자가 본 영화들을 바탕으로 영화들 사이의 유사도 검증 -> 그 사람이 보지 않은 영화 중에서 동일한 ..
최소 제곱법(Least Square Method) 평균 제곱 오차(Mean Square Error = MSE) 예측값과 결과값 사이의 차이(오차)에 대한 제곱의 평균 Mean Square Error (MSE) 실습
선형 회귀(Linear Regression) 회귀(Regression) - 선형 회귀( Linear Regression ) - 보통 회귀(Regression)은 선형회귀(Linear Regression)을 의미함. - 로지스틱 회귀( Logistic Regression ) - 회귀로 풀 수 없는 문제. 분류로 풀어야 함 => 0 아니면 1로 분류. 여기서 Signoid 함수가 나옴(뉴럴 네트워크에서 인간 생체에서 나옴...) 로지스틱 회귀( Logistic Regression ) 선형 회귀( Linear Regression ) Linear Regression에서는 Traing Data에서 보여지듯 공부시간에 대한 값 입력에 대해서 결과값인 시험성적이 연속적인 반면, Rogistic Regression에서..
편향(Bias)과 분산(Variance) 앙상블 학습(Ensemble Learning) - 그레디언트 부스팅 머신(Gradient Boosting Machine) 그레디언트 부스팅 머신 관련 코드 Grid Search 굉장히 중요한 2개념 머신러닝의 에러 크게 2가지. Bias, Variance 편향(Bias) : 학습데이터를 충분히 표현할 수 없기 때문에 발생함. bias가 높다는 건 학습을 덜했다. underfitting 되어있다는 얘기 -> 학습 더 시키면 됨. 데이터 더 넣으면 됨. (근데 데이터가 없어서 못 넣으면... transform 해서 변형해서라도 넣어야 함. 그러면 기존의 데이터 가지고 데이터를 늘리는 효과를 얻을 수 있음. 딥러닝에서 배..
앙상블(Ensemble) 랜덤 포레스트(Random Forest) 랜덤 포레스트(Random Forest) 코드 보기 오차행렬(Confusion Matrix) 앙상블(Ensemble) 앙상블과 랜덤포레스트 구분할 수 있어야 함. Random Forest is a Ensemble. 앙상블 알고리즘 중에서 가장 대표적인 게 랜덤포레스트 앙상블 알고리즘은 여러 개가 있는데 그 중 Random Forest 랜덤 포레스트(Bagging 방식), 그레디언트 부스팅 머신 Gradient Boosting Machines(Boosting 기법) 앙상블 러닝 참고 : https://brunch.co.kr/@chris-song/98 Ensemble: bagging, boosting.. 앙상블 학습의 핵심 아이디어들을 이해해..
stratify 바이너리 데이터일 때 (0과 1로 구성된 데이터일 때) target이 25%(0에 해당하는 데이터), 75%(1에 해당하는 데이터) 이 비율로 유지한채로 라벨 데이터를 분할할 때 사용 정확도 출력 가지치기(Pruning) 특성 중요도(Feature Importance) 특성 중요도 시각화 결정트리 시각화