목록ai (22)
Hayden's Archive
Configuration Notation / Calculate Similarity (사용자 기반 / 상품 기반) 위의 코드들을 바탕으로 코사인 유사도를 리턴하는 함수를 만듦. 모든 사람의 유사도 검색 itertools를 통해 조합을 만든다. 모든 조합에 대한 유사도를 리턴하는 함수 평점 예측하기 사용자와 상품을 입력했을 때 평점을 예상하는 함수 모든 사용자와 상품에 대한 평점 검색
추천 협업 시스템 -> 근래에 많이 오르내리고 있음. 협업 필터링은 비지도학습. 지도학습은 Feature와 Label을 같이 주지만 비지도학습은 Feature만 준다. 이 때의 데이터는 그룹 데이터. Clustering, Grooping된 데이터. 넷플릭스가 성장하게 된 가장 큰 배경 -> AI 기술, 그 중에서도 추천 협업 시스템. 참고1 : 1boon.kakao.com/scientist/700 참고2 : www.epnc.co.kr/news/articleView.html?idxno=83033 아이템 기반 추천(Item Based Recommendation) 영화들끼리의 유사도를 측정한 것을 바탕으로 사용자가 본 영화들을 바탕으로 영화들 사이의 유사도 검증 -> 그 사람이 보지 않은 영화 중에서 동일한 ..
최소 제곱법(Least Square Method) 평균 제곱 오차(Mean Square Error = MSE) 예측값과 결과값 사이의 차이(오차)에 대한 제곱의 평균 Mean Square Error (MSE) 실습
선형 회귀(Linear Regression) 회귀(Regression) - 선형 회귀( Linear Regression ) - 보통 회귀(Regression)은 선형회귀(Linear Regression)을 의미함. - 로지스틱 회귀( Logistic Regression ) - 회귀로 풀 수 없는 문제. 분류로 풀어야 함 => 0 아니면 1로 분류. 여기서 Signoid 함수가 나옴(뉴럴 네트워크에서 인간 생체에서 나옴...) 로지스틱 회귀( Logistic Regression ) 선형 회귀( Linear Regression ) Linear Regression에서는 Traing Data에서 보여지듯 공부시간에 대한 값 입력에 대해서 결과값인 시험성적이 연속적인 반면, Rogistic Regression에서..
편향(Bias)과 분산(Variance) 앙상블 학습(Ensemble Learning) - 그레디언트 부스팅 머신(Gradient Boosting Machine) 그레디언트 부스팅 머신 관련 코드 Grid Search 굉장히 중요한 2개념 머신러닝의 에러 크게 2가지. Bias, Variance 편향(Bias) : 학습데이터를 충분히 표현할 수 없기 때문에 발생함. bias가 높다는 건 학습을 덜했다. underfitting 되어있다는 얘기 -> 학습 더 시키면 됨. 데이터 더 넣으면 됨. (근데 데이터가 없어서 못 넣으면... transform 해서 변형해서라도 넣어야 함. 그러면 기존의 데이터 가지고 데이터를 늘리는 효과를 얻을 수 있음. 딥러닝에서 배..
앙상블(Ensemble) 랜덤 포레스트(Random Forest) 랜덤 포레스트(Random Forest) 코드 보기 오차행렬(Confusion Matrix) 앙상블(Ensemble) 앙상블과 랜덤포레스트 구분할 수 있어야 함. Random Forest is a Ensemble. 앙상블 알고리즘 중에서 가장 대표적인 게 랜덤포레스트 앙상블 알고리즘은 여러 개가 있는데 그 중 Random Forest 랜덤 포레스트(Bagging 방식), 그레디언트 부스팅 머신 Gradient Boosting Machines(Boosting 기법) 앙상블 러닝 참고 : https://brunch.co.kr/@chris-song/98 Ensemble: bagging, boosting.. 앙상블 학습의 핵심 아이디어들을 이해해..
stratify 바이너리 데이터일 때 (0과 1로 구성된 데이터일 때) target이 25%(0에 해당하는 데이터), 75%(1에 해당하는 데이터) 이 비율로 유지한채로 라벨 데이터를 분할할 때 사용 정확도 출력 가지치기(Pruning) 특성 중요도(Feature Importance) 특성 중요도 시각화 결정트리 시각화
1. Load DataSet Cancer Data Analysis 2. Training, Test Data Split 3. 모델의 생성과 학습 4. 예측하기 5. Model Evaluate
먼저 텐서플로우(Tensorflow)와 Graphviz 의 설치가 필요하다. ( 참고 : Graphviz는 운영체제와 연결되는 라이브러리가 들어가야 하므로 파이썬으로 못 만든다. 파이썬에서 사용할 수 있는 라이브러리지만 파이썬으로 만들어진 건 아니고 C++로 만들어져있음. ) DataLoader 어떤 데이터를 다루는지에 대해 데이터에 대한 정확한 이해를 해야 함. 사전적인 데이터에 대한 이해는 필수적. DataFrame Visualization Seaborn Visualization Shuffle & Split 1. 현실적으로 데이터의 수가 부족해서 테스트를 마음껏 못 돌림. 학습의 데이터로 80%로 가져가고 테스트 데이터로 20% 가져감. 2. 섞어준다. 셔플 Model Generator and Tra..
결정 트리(Decision Tree) 의사를 결정. - Tree를 거꾸로 뒤집으면 이 모양이 됨. * 분류의 방법 => 분류한다는 것은 나눈다는 얘기 이진 분류(Binary Classification) => 이거 아니면 저거. 다중 분류(Multi-label Classification) => A,B,C 중 어디야? 회귀(Regression) => x가 90~10 사이니? y값이 어디보다 크니 작니 자료 출처 : https://towardsai.net/p/programming/decision-trees-explained-with-a-practical-example-fe47872d3b53 맨 위를 Root Node라고 하고 맨 끝을 Leaf Node / Terminal Node 라고 함. 중간 마디를 Int..