군집분석 2

빅데이터 결과해석 - 분석모형평가(군집분석 및 기타 성능지표)

군집분석 평가지표 군집 내 데이터는 거리가 짧아야 하고, 군집 간 거리는 멀어야 함- 던지수 : (군집간 거리의 최소값) / (군집 내 거리의 최대값), 값이 클수록 좋음- 실루엣 계수는 -1~1 값을 가지며 1에 가까울수록 좋은 군집 모형 카파 상관계수- 두 평가자의 결과값이 일치하는지에 대한 척도로 개발되었다- 0~1사이 값을 가지며 1에 가까울수록 모델의 성능이 좋다고 할 수 있다- 모델의 예측값과 실제값이 얼마나 일치하는지 확인할 수 있는 지표이다- 모형의 평가결과가 우연히 나온 결과가 아니라는 것을 보여주는 지표이다- 범주형 데이터에 사용- k값에 따라(0~1사이 값)   0.8~1.0 : 매우 높은 일치   0.6~0.8 : 높은 일치   0.4~0.6 : 보통 일치   0.2~0.4 : 어느..

빅데이터 모델링 - 분석기법적용 (군집분석)

군집분석(비지도학습) 계층적 군집(군집개수 미리지정(X), 군집간 거리척도/연결법)합병형(Agglomerative) "Bottom-up"- 단일(최단)연결법- 완전(최장)연결법- 평균연결법- 중심연결법- 와드연결법 분리형(Divisive) "Top-down"- 다이아나 방법 비계층적(분할적) 군집(군집개수 미리지정(O))프로토타입 기반- K-중심군집 * K-평균군집 * K-중앙값군집 * K-메도이드군집 분포기반- 혼합분포군집 밀도기반- DBSCAN(군집수 미리지정(X)) 기타- SOM(자기조직화지도) #밀도기반군집 - 임의적인 모양의 군집#SOM(자기조직화지도) - kohenen map이라고도 부름  - 전방패스 알고리즘  - 고차원 데이터를 저차원의 지도 형태로 형상화  - 변수위치관계 보존  - 경쟁..