Training Dataset으로 가설을 세우고 Cost를 줄이고 나서 이걸로 또 Test를 하면 프로그램은 100% 정확도로 맞출 수도 있다.
올바른 평가가 아닐 수 있어서 제대로 하려면 데이터셋의 어느 정도를 Training Set, 나머지를 Testing Set으로 놓고 검증을 해야 한다.
전체 데이터셋을 Training Dataset, Testing Dataset으로 구분하고 Training Dataset 을 또 구분해서 Validation Dataset을 이용해서 Cost를 조정한다. (Validation은 모의고사 라고 봐도 된다. 꼭 있어야 되는 건 아니다.)
데이터셋이 굉장히 많은 경우 Online Learning 방식을 이용할 수 있다.
예를 들면 Training Dataset이 100만개라서 10만개씩 잘라서 학습시키는 것이다.
있는 데이터에 추가로 학습하는 방식
정확도 측정 : 예측값과 실제 데이터(Y)를 비교해서 맞는 게 얼마나 되는지 확인한다.