일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 혼공단
- REACT
- 혼자공부하는머신러닝딥러닝
- 머신러닝
- 혼자공부하는머신러닝
- 구조분해할당
- 딥러닝
- 에러해결방안
- 백준
- 알고리즘
- js
- clipboardapi
- typeScript
- axios
- TS
- reactmemo
- error맛집
- 혼공챌린지
- 타입스크립트
- 백준 #코딩테스트 #코테 #알고리즘
- 유니티 #게임개발
- CSS
- 백준 #코딩테스트
- Redux
- 리액트
- 혼공머신
- 코딩테스트
- useEffect
- styledcomonents
- 초기값 설정하기
- Today
- Total
목록혼자공부하는머신러닝 (9)
좌충우돌 개발자의 길
점진적 학습 이전에 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 더 훈련하기 확률적 경사 하강법 점진적 학습의 알고리즘 경사를 따라 내려가는 방법이라는 뜻으로 훈련세트에서 랜덤하게 하나의 샘플을 골라 가장 가파른 길을 찾아 내려오는 것을 확률적 경사 하강법이라고 한다. IF) 다 내려오지 않았는데 모든 샘플을 다 썼다면? 다시 처음부터 시작하면 된다 훈련 세트에 모든 샘플을 다시 채워 넣고 다시 랜덤하게 하나의 샘플을 선택해 이어서 경사를 내려감 ⇒ 에포크 : 확률적 경사 하강법에서 훈련 세트를 한 번 모두 사용하는 과정을 말함 에포크 확률적 경사 하강법에서 훈련 세트를 한 번 모두 사용하는 과정을 말함 일반적으로 경사 하강법은 수십, 수백 번 이상 에포크를 수행함 미니배치 경사 하강법 한..
데이터 준비하기 unique 함수 사용하기 Species 열에서 고유한 값을 추출해보기 - unique 함수 사용 to_numpy() 데이터 프레임에서 여러 열을 선택하면 새로운 데이터프레임이 반환되는데 이를 to_numpy매서드로 넘파이 배열로 바꾸어 fish_input에 저장 (+ fish_target에 저장) 5개 행을 출력해봄 훈련세트와 테스트세트로 나누기 사이킷런의 StandardScaler 클래스를 사용해 훈련 세트와 테스트 세트를 표준화 전처리하기 훈련세트의 통계값으로 테스트 세트 변환하기 k-최근접 이웃 분류기의 확률 예측 다중 분류 : 타깃 데이터에 2개 이상의 클래스가 포함된 문제 이진분류와 모델을 만들고 훈련한느 방식은 동일함 사이킷런에선느 편리하게 문자열로 된 타깃값을 그대로 사용 ..
다중 회귀 여러개의 특성을 사용함 (↔ 다항 회귀) 특성 공학 새로운 특성을 추가하거나 특성을 발견하거나 특성끼리 조합을 하는 것 머신러닝 알고리즘은 특성공학의 영향을 많이 받음 판다스 데이터로 준비 데이터 프레임으로 되어 있는데 이는 다른 종류의 데이터 타입을 받을 수 있는 특징이 있다. 엑셀과 비슷하다 판다스로 원격에 있는 파일을 불러와서 넘파이 배열로 만들기 csv 파일 한줄에 샘플 하나가 들어있음 (length, height, wiedth) 콤마로 나눠진 열마다 특성 데이터가 들어있음 read_csv() : 파일 불러오기 to_numpy() : 넘파이 배열로 만들기 다항 특성 만들기 form sklearn.preprocessing import PolynomialFeatures # degree = ..
최근접 이웃의 문제점 : 50cm-1kg 농어를 1.5kg 이 아닌 1kg으로 판단한다?? → 위 그래프 : 다이아몬드가 이웃인데 아래 그래프인 이웃으로만 나타낸 그래프를 보면 길이가 차이가 나도 이웃들로 판단하기 때문에 정확한 값이 예측되지 않음 선형회귀 위의 문제를 해결할 수 있는 방법 → 세번째 직선이 가장 좋은 직선 선형회귀 - 사이킷런에서 사용법 → y = ax +b 꼴의 직선 방정식으로 이루어짐 → from sklearn.linear_model import LinerRegression을 이용해 불러옴 → ls.coef_ 처럼 _ 를 사용하는 이유 : 사이킷런에서는 학습한 어떤 데이터들을 저장시, 다른 속성과 구분하기 위해 사용 ⇒ 아 이 모델은 내가 작성한 것이 아닌 어떤 학습을 해서 나온 데..
농어의 무게를 예측하라 회귀 : 임의의 숫자를 예측하는 것 (타깃==임의의 숫자 == 농어의 무게) 지도학습에 회귀와 분류가 있는 것 → 분류 : 주변 이웃의 클래스를 보고 네모이다! → 회귀 : 주변 이웃의 타깃을 보고 평균 내서 구하기! 농어의 길이만 사용 → perch_weight가 타깃값 → 분류일 때는 클래스(별, 네모, 마름모..)로 구별이 가능하기에 특성을 두개로 해도 괜찮 → 회귀일 때는 분류처럼 구별하기 힘들어서(임의의 숫자로 구분하기에) 특성 1개, 타깃1개로 구분 (특성 : 길이, 타깃: 무게) 훈련 세트 준비하기 stratify가 없는 이유 : stratify 매개변수(지정안하면 false라서 지정해줘야함)에 타깃값을 넣었는데 이유는 클래스별로 골고루 훈련세트랑 테스트 세트랑 나누라..
도미? 빙어? 길이가 25cm이고 무게가 150g인 도미를 빙어로 예측한다??? → 확인해보자 넘파이로 데이터 준비 fish_data = np.column_stack((fish_length, fish_weight)) .column_stack((fish_length, fish_weight)) : 두 배열을 나란히 세운 다음, 열로 붙여주기 → fish_length가 첫번째 열(세로로 첫번째)로 들어가고, fish_weight가 두번째 열로 들어감 .row_stack( ) : column_stack과 반대로 붙여줌 concatenate( ) : 일렬로 붙여줌 fish_target = np.concatenate((np.ones(35), np.zeros(14))) np.ones(35) == [1]*35 : 1로..
지난 3장의 머신러닝 모델 문제점 마치 수학 연습 문제에서 나왔던 문제가 그대로 수학시험 문제로 나오는 것과 동일하다!! 머신러닝 분류 지도 학습 : 입력과 타깃 데이터를 사용해 학습하는 알고리즘 훈련데이터에 입력, 타깃이 포함됨 비지도 학습 : 타깃 데이터만 있고 입력은 없을 때 강화 학습 : 모델이 어떤 행동을 수행한 후 주변의 환경에서 피드백을 받아 개선해 나감 평가를 위한 데이터 만들기 또다른 데이터 준비하기 이미 준비된 데이터 중 일부 떼어내서 활용하기 ( 일반적으로 가장 많이 사용되는 유형) 테스트 세트(평가에 사용하는 데이터)와 훈련 세트(훈련에 사용되는 데이터)로 나눠서 구하기 #슬라이싱으로 데이터 나눠서 훈련과 테스트 데이터로 나누기 train_input = fish_data[:35] t..
기본 용어 샘플 : 각각의 데이터들 (ex/ 25.4cm, 500g) 특성 : 데이터의 속성 (ex/길이, 무게) scatter 연속 사용 scatter 연속 사용시, 하나의 산점도에 중첩하여 나타나게 되어 있음 즉, 하나의 그래프에 두개의 데이터가 동시에 들어간다 각 데이터마다 색깔을 달리해서 보여준다 smelt_length = [9.8, 10.5, 10.6] smelt_weight = [9.7, 9.5, 7.2] plt.scatter(bream_length, bream_weight) plt.scatter(smelt_length, smelt_weight) plt.xlabel('length') plt.ylabel('weight') plt.show() 출력결과 도미와 빙어 데이터 합치기 사이킷런이 기대하는..
코랩은 무엇인가? 코랩은 파이썬으로 입력된거 실행시켜 볼 수 있는 구글 프로그램 장점 뭐 설치하지 않고 웹으로 들어가서 확인이 가능하다 colab에서 라이브러리 대부분 다 지원해주고 있음 import tensorflow import sklearn 사이트 : https://colab.research.google.com/notebooks/intro.ipynb?utm_source=scs-index# Google Colaboratory colab.research.google.com 여러가지 기능 control + enter : 코드 실행 alt + enter : 코드 실행 후 새로운 셀이 뜸 shift _ enter : 새로운 셀을 실행하지 않고 그냥 아래로 내려감 드라이브 저장 하면 구글 드라이브에 텍스트와 ..