본문 바로가기

AI/머신러닝&딥러닝

진짜 나를 위한 머신러닝 #훈련 세트와 테스트 세트

나의 이해는 주관적인 저의 이해를 적어놓은 글입니다. 개념을 쉽게 이해해보고자 서술해본 글이지만 알고리즘이나 용어의 개념과 100% 일치하지 못할 수 있습니다.

지도 학습

- 입력과 타깃(정답)을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측

 

나의 이해 : 디아2에서 파이어볼은 소서리스만 사용한다고 알려주는 것

 

비지도 학습

- 타깃(정답) 데이터가 없음, 무엇을 예측하는 것이 아니라 입력 데이터에서 어떤 특징을 찾는 데 주로 활용

 

나의 이해 :  디아2에서 각각 다른 5명의 케릭이 스킬을 난사하는 걸 보여줌. 추후 그걸로 케틱터의 직업을 특정하거나, 스킬의 종류를 특정하거나... 어떤 특징을 찾기 위한 학습방법

 

훈련 세트

- 모델을 훈련할 때 사용하는 데이터. 훈련 세트가 클수록 좋음

 

나의 이해 : 디아2에서 다른 직업들이 사용하는 스킬들도 다양하게 알려주는 것

 

테스트 세트

- 전체 데이터에서 20~30%를 테스트 세트로 보통 사용, 전체 데이터가 아주 크다면 1%만 사용해도 유의미한 결과 도출 가능

 

나의 이해 : 시험 문제는 배운거 안에서 출제해야지, 배운거 밖에서 출제하면 욕먹음(추후 비지도학습으로...). 그렇다고 배운거 다 시험문제로 내도 욕먹음. 

 

 

샘플링 편향

- 훈련 세트와 테스트 세트에 샘플이 골고루 섞여있지 않으면 샘플링이 한쪽으로 치우치게 되는 것

 

나의 이해 : 스타크래프트에서 scv만 엄청 보여주고 프로토스 일꾼이 뭐냐고 물어보면??

 


핵심 패키지와 함수

 

넘파이

seed()

- 넘파이에서 난수(랜덤수)를 생성하기 위한 정수 초깃값을 지정, (동일한 난수를 재현하고 싶을 때)

 

arange()

- 일정한 간격의 정수 또는 실수 배열을 만듬, 기본 간격은 1 

ex) np.arange(3) ->>> [0,1,2],  np.arange(1,3) ->>> [1,2], np.arange(1,3,0.2) ->>>[1., 1.2, 1.4, 1.6, 1.8, 2., 2.2, 2.4, 2.6, 2.8]

 

shuffle()

- 주어진 배열을 댄덤하게 섞음, 다차원 배열일 경우 첫 번째 축(행)만 섞음

 

 

 

 


참고

http://www.yes24.com/Product/Goods/96024871

 

혼자 공부하는 머신러닝+딥러닝 - YES24

- 혼자 해도 충분하다! 1:1 과외하듯 배우는 인공지능 자습서 이 책은 수식과 이론으로 중무장한 머신러닝, 딥러닝 책에 지친 ‘독학하는 입문자’가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있

www.yes24.com

반응형