티스토리 뷰

et cetera

[Pattern] KNN Clustering

Mr.SIM 2014. 2. 23. 17:29

KNN 이란 무엇일까. KNN은 K-Nearest Neighbor의 줄인말이다. 라벨링 되어있는 데이터를 기준으로 어떤 데이터가 어떤 군집에 속하는지 알 수 있다. 즉, KNN은 거리를 통한 군집알고리즘이라고 할 수 있다.


위 이미지는 위키에 있는 KNN알고리즘을 설명하기 위한 그림이다.

위 그림을 보면 무엇이 보이는가, 파랑색 네모와 빨간색 삼각형이 보이고, 가운데 녹색 원이 보인다.

녹색 원은 추가하고자 하는 데이터이며, 파랑색네모와 빨간삼각형은 이미 등록된 데이터이다. 이 데이터들은 이미 데이터 거리 기준으로 라벨링 된 것이다.

 



라벨링 된 데이터에 새로운 데이터를 추가하면, K값에 따라, 그 거리에서 가장 가까운 K개의 데이터의 라벨을 확인한다. K개의 값을 모두 확인하여 데이터 특성이 가장 많은 쪽으로 새로운 데이터의 라벨이 결정된다.

위의 그림은 K가 3일 때, 가장 가까운 데이터를 비교하며, 녹색이 2개, 파랑색이 1개 이기 때문에, 새로 추가된 데이터는 녹색특성을 갖게 된다.


이런 방식으로 군집화되고, 군집화를 통해서 여러 분야에서 사용되고있다.

'et cetera' 카테고리의 다른 글

GIT LFS 사용 관련 TIP  (0) 2018.07.25
html5 태그 선언  (0) 2013.09.26
html5의 웹 워커사용하기 ( thread )  (0) 2013.09.17
html5가 제공하는 localStorage 자바스크립트 API  (0) 2013.09.17
댓글
최근에 올라온 글
최근에 달린 댓글
글 보관함
Total
Today
Yesterday