목록분류 전체보기 (282)
Hayden's Archive
최소 제곱법(Least Square Method) 평균 제곱 오차(Mean Square Error = MSE) 예측값과 결과값 사이의 차이(오차)에 대한 제곱의 평균 Mean Square Error (MSE) 실습
https://www.edwith.org/boostcourse-cs-050 [부스트코스] 모두를 위한 컴퓨터 과학 (CS50 2019) 강좌소개 : edwith - 부스트코스 www.edwith.org 요즘 하버드대학교 2019 CS50 강의를 듣고 있다. 이 강의는 컴퓨터 사이언스의 기본기를 다질 수 있는 명강의로 알려져 있는데 통학시간을 활용해서 재미있게 듣고 있다. 이 강의는 C 언어로 진행된다. C 언어는 2년 전에 잠깐 기초적인 부분만 배웠던 적이 있는데, 아무래도 C 언어보다는 자바, 파이썬을 훨씬 많이 사용해서 그 쪽이 더 손에 익다. 하지만 C 언어는 컴퓨터 과학의 뿌리가 되는 언어이기에, 비록 지금은 이외에도 할 일이 많고 배울 것도 많으니까 가볍게 배우고 있지만, 언젠간 C++과 함께 ..
선형 회귀(Linear Regression) 회귀(Regression) - 선형 회귀( Linear Regression ) - 보통 회귀(Regression)은 선형회귀(Linear Regression)을 의미함. - 로지스틱 회귀( Logistic Regression ) - 회귀로 풀 수 없는 문제. 분류로 풀어야 함 => 0 아니면 1로 분류. 여기서 Signoid 함수가 나옴(뉴럴 네트워크에서 인간 생체에서 나옴...) 로지스틱 회귀( Logistic Regression ) 선형 회귀( Linear Regression ) Linear Regression에서는 Traing Data에서 보여지듯 공부시간에 대한 값 입력에 대해서 결과값인 시험성적이 연속적인 반면, Rogistic Regression에서..
편향(Bias)과 분산(Variance) 앙상블 학습(Ensemble Learning) - 그레디언트 부스팅 머신(Gradient Boosting Machine) 그레디언트 부스팅 머신 관련 코드 Grid Search 굉장히 중요한 2개념 머신러닝의 에러 크게 2가지. Bias, Variance 편향(Bias) : 학습데이터를 충분히 표현할 수 없기 때문에 발생함. bias가 높다는 건 학습을 덜했다. underfitting 되어있다는 얘기 -> 학습 더 시키면 됨. 데이터 더 넣으면 됨. (근데 데이터가 없어서 못 넣으면... transform 해서 변형해서라도 넣어야 함. 그러면 기존의 데이터 가지고 데이터를 늘리는 효과를 얻을 수 있음. 딥러닝에서 배..
앙상블(Ensemble) 랜덤 포레스트(Random Forest) 랜덤 포레스트(Random Forest) 코드 보기 오차행렬(Confusion Matrix) 앙상블(Ensemble) 앙상블과 랜덤포레스트 구분할 수 있어야 함. Random Forest is a Ensemble. 앙상블 알고리즘 중에서 가장 대표적인 게 랜덤포레스트 앙상블 알고리즘은 여러 개가 있는데 그 중 Random Forest 랜덤 포레스트(Bagging 방식), 그레디언트 부스팅 머신 Gradient Boosting Machines(Boosting 기법) 앙상블 러닝 참고 : https://brunch.co.kr/@chris-song/98 Ensemble: bagging, boosting.. 앙상블 학습의 핵심 아이디어들을 이해해..
stratify 바이너리 데이터일 때 (0과 1로 구성된 데이터일 때) target이 25%(0에 해당하는 데이터), 75%(1에 해당하는 데이터) 이 비율로 유지한채로 라벨 데이터를 분할할 때 사용 정확도 출력 가지치기(Pruning) 특성 중요도(Feature Importance) 특성 중요도 시각화 결정트리 시각화
1. Load DataSet Cancer Data Analysis 2. Training, Test Data Split 3. 모델의 생성과 학습 4. 예측하기 5. Model Evaluate
먼저 텐서플로우(Tensorflow)와 Graphviz 의 설치가 필요하다. ( 참고 : Graphviz는 운영체제와 연결되는 라이브러리가 들어가야 하므로 파이썬으로 못 만든다. 파이썬에서 사용할 수 있는 라이브러리지만 파이썬으로 만들어진 건 아니고 C++로 만들어져있음. ) DataLoader 어떤 데이터를 다루는지에 대해 데이터에 대한 정확한 이해를 해야 함. 사전적인 데이터에 대한 이해는 필수적. DataFrame Visualization Seaborn Visualization Shuffle & Split 1. 현실적으로 데이터의 수가 부족해서 테스트를 마음껏 못 돌림. 학습의 데이터로 80%로 가져가고 테스트 데이터로 20% 가져감. 2. 섞어준다. 셔플 Model Generator and Tra..
결정 트리(Decision Tree) 의사를 결정. - Tree를 거꾸로 뒤집으면 이 모양이 됨. * 분류의 방법 => 분류한다는 것은 나눈다는 얘기 이진 분류(Binary Classification) => 이거 아니면 저거. 다중 분류(Multi-label Classification) => A,B,C 중 어디야? 회귀(Regression) => x가 90~10 사이니? y값이 어디보다 크니 작니 자료 출처 : https://towardsai.net/p/programming/decision-trees-explained-with-a-practical-example-fe47872d3b53 맨 위를 Root Node라고 하고 맨 끝을 Leaf Node / Terminal Node 라고 함. 중간 마디를 Int..
머신러닝이란? 머신러닝을 하기 위한 핵심적인 3가지 요소 AI / Machine Learning / Deep Learning 지도학습 / 비지도학습 / 강화학습 Training Model / Inference Model(Test Model) / Underfitting / Overfitting Forward Propagation Back Propagation 하이퍼 매개 변수(Hyperparameter) 머신러닝 하면서 쓰게 되는 파이썬 오픈소스 데이터셋 사람이 프로그램을 짤 때는 explicit하게(명료하게, 명시적으로) 짜야 함. 기계가 학습할 수 있는 능력을 부여. 우리 입장에서는 기계가 어떻게 학습하는지 explicit하게 알 수 없음. 기계가 어떻게 하는지 모르겠..