(출처 www.udacity.com)
이전 페이지에서 나온 Y 의 값을 0에서 1사이의 값으로 나오게 해서 그 값에 따라 A, B, C로 분류되도록 하면 Sigmoid를 적용할 수 있다.
그리고 위의 이미지처럼 0.7 + 0.2 + 0.1 = 1 이런 식으로 합쳐서 확률이 1이 되게 하려면 Softmax를 쓰면 된다.
Softmax를 통해 값을 0.7, 0.2, 0.1 (확률) 로 계산해서 One-Hot Encoding 을 통해 확률이 제일 높은 것을 선택할 수 있다.
여러 개의 Training Dataset이 있을 때는 Cross Entropy 방식으로 Cost를 구해서 평균을 구한다.