목록혼자 공부하는 머신러닝+딥러닝 (2)
Scientia Conditorium
혼자공부하는 머신러닝+딥러닝/혼공단 5기 - 5주차 K-평균 알고리듬은 주어진 데이터를 k개의 클러스터, 군집으로 묶는 알고리듬으로 각 군집간의 거리 차이의 분산을 최소화하는 방식으로 동작한다. 위 애니메이션은 k-평균 알고리듬 위키피디아 페이지에 있는 자료로서 직관적으로 이해하기 쉽게 표현하였다. 작동하는 방식을 설명하자면 다음과 같다. 1. 주어진 데이터에서 k개 평균값(중심점)을 생성한다. 여기서 보통은 랜덤 초기화 알고리듬이 사용된다. 2. 데이터들은 가장 가까이 있는 평균값을 기준으로 클러스터,군집이 나뉜다. 3. 나뉘어진 클러스트,군집에 속한 데이터들의 평균값으로 클러스터 중심점을 변경한다. 4. 데이터들의 소속 클러스터가 바뀌지 않을 때까지 2,3번 과정을 반복한다. 다시 말해, k-평균 알..
혼자공부하는 머신러닝+딥러닝 / 혼공단 5기 - 4주차 머신러닝 학습 모델을 만들 때, 테스트 세트를 자주 사용하면 모델의 성능이 점점 테스트 세트에 맞추어지게 됩니다. 가능하면 테스트 세트는 모델을 만들고 난 후 마지막에 딱 한 번만 사용하는 것이 가장 좋습니다. 허나 테스트 세트를 사용하지 않으면 모델이 과대/과소적합인지 판단하기 어렵습니다. 따라서 훈련 세트를 여러 개로 잘게 나누어서 그 중 하나를 검증 세트(validation set) 혹은 개발 세트(dev set)로 사용합니다. 검증 세트를 번갈아가면서 모델을 평가하고 얻은 검증 점수를 평균하는 방법을 교차 검증(Cross Validation)이라고 부릅니다. 위 그림은 교차 검증의 대표적인 예인 k-폴드 교차 검증(k-fold cross va..