목록python (36)
Hayden's Archive
참고 : 파이썬 엑셀 쓰기 라이브러리 비교 참고 : 큰 엑셀 파일 내용 읽기 파이썬으로 엑셀 파일을 쓸 수 있는 라이브러리는 많다. 그 중에서도 가장 많이 쓰이는 openpyxl 라이브러리를 써볼까 한다. 윈도우에서 실행하였으며 openpyxl.readthedocs.io/en/latest/ 을 참고하여 실습하였다. 1. Anaconda Prompt 에서 다음 명령어로 openpyxl을 설치한다. $ pip install openpyxl 이미 설치되어 있을 경우 다음 명령어로 업그레이드한다. $ pip install --upgrade openpyxl 2. Jupyter Notebook에서 다음 코드가 실행되는지 확인한다. from openpyxl import Workbook 에러 없이 잘 실행된다. 3. ..
1) 우분투에 아나콘다 설치 참고 : greedywyatt.tistory.com/107 [Ubuntu 18.04] Anaconda 설치 및 가상환경 구축 ■ 참고문헌 ● https://enant.tistory.com/10 ● https://antilibrary.org/1746 ■ 본문 아나콘다 홈페이지에 들어가서 LInux 버전을 다운 받는다. 저는 Python 3.7 64-Bit(x86) Installer (654 MB) 를 다운.. greedywyatt.tistory.com 아나콘다 홈페이지에서 리눅스용으로 직접 다운받거나 아래의 명령어로 설치 wget https://repo.continuum.io/archive/Anaconda3-2020.07-Linux-x86_64.sh 다운받은 경로에 찾아가서 설..
코랩 설치 및 설명 참고 : https://theorydb.github.io/dev/2019/08/23/dev-ml-colab [Colab] Google Colab (코랩) 환경설정 및 사용법 개요 파이썬을 활용한 머신러닝의 첫 관문! 구글 Colab(코랩)의 환경구성 및 기본 사용법을 다룬 포스트입니다. 목차 Colab이란 무엇인가? Colab 환경설정 Colab을 활용한 간단한 예제 작성 Colab & Markdow theorydb.github.io 환경 설정 코드를 보기 전 이해를 돕기 위한 그림 Loss Function - MSE (정량화된 값일 때) - Cross Entropy Loss (분류일 때) 1장도 시간 엄청 많이 걸리는데 6만장 동시에 못함. 그래서 쪼개서 돌려야 하는데 그게 batc..
↑ 0번째 이미지에 대한 정보값임. 0~49999번째 이미지(총 5만개)가 있음. [3, 32, 32]을 [32, 32, 3]으로 바꿔줘야 위와 같이 이미지가 나타남. 0번째 이미지는 라벨이 6이었는데 CIFAR-10에서 6번째 인덱스는 개구리인 것을 알 수 있다. Batch Size를 정해서 돌려보기 - Batch Size 개념 그런데 50000을 64로 나누면 나누어 떨어지지 않음. 나머지가 존재하게 되는데 이걸 버릴 것인지 함께 돌릴 것인지는 drop_last로 정함.(False가 디폴트. 버리지 않고 함께 돌림)
파이토치(Pytorch) 설치 참고 enjoysomething.tistory.com/40 파이토치 문서 참고 pytorch.org/docs/stable/index.html 딥러닝 라이브러리는 텐서플로우, 파이토치 두 축. 파이토치는 2017년에 나왔는데, 텐서플로우보다 파이토치가 더 최근에 나왔고 개발자 포럼도 활발하다. 파이토치가 텐서플로우보다 더 속도가 빠르고 직관적이다. 케라스를 많이 쓰는데 케라스는 쉽고 간단함. 전문가용으로는 부족. CPU에서 돌릴 때 시간 오래 걸릴 경우 GPU로 돌려야 함. 추후 구글에서 무료로 제공하는 GPU를 쓸 것. Pytorch 에서의 Gradient Descent Tensor Type - tensor(), as_tensor() Numpy 배열을 Tensor 타입으로 ..
데이터 출처 : grouplens.org/datasets/movielens/ MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. … grouplens.org 1. DataLoading and Data PreProcessing 데이터를 가져와서 필요에 맞게 가공한다. 데이터 전처리 과정. 2. 영화와 영화들 간의 유사도 산출 - 코사인 유사도 활용 앞선 포스팅에서는 함수를 직접 구현했지만 여기서는 코사..
Configuration Notation / Calculate Similarity (사용자 기반 / 상품 기반) 위의 코드들을 바탕으로 코사인 유사도를 리턴하는 함수를 만듦. 모든 사람의 유사도 검색 itertools를 통해 조합을 만든다. 모든 조합에 대한 유사도를 리턴하는 함수 평점 예측하기 사용자와 상품을 입력했을 때 평점을 예상하는 함수 모든 사용자와 상품에 대한 평점 검색
최소 제곱법(Least Square Method) 평균 제곱 오차(Mean Square Error = MSE) 예측값과 결과값 사이의 차이(오차)에 대한 제곱의 평균 Mean Square Error (MSE) 실습
stratify 바이너리 데이터일 때 (0과 1로 구성된 데이터일 때) target이 25%(0에 해당하는 데이터), 75%(1에 해당하는 데이터) 이 비율로 유지한채로 라벨 데이터를 분할할 때 사용 정확도 출력 가지치기(Pruning) 특성 중요도(Feature Importance) 특성 중요도 시각화 결정트리 시각화