[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석기법적용 (군집분석)

indongspace 2024. 3. 17. 15:32

군집분석(비지도학습)

 

계층적 군집(군집개수 미리지정(X), 군집간 거리척도/연결법)

Agglomerative

합병형(Agglomerative) "Bottom-up"

- 단일(최단)연결법

- 완전(최장)연결법

- 평균연결법

- 중심연결법

- 와드연결법

 

Divisive

분리형(Divisive) "Top-down"

- 다이아나 방법

 

비계층적(분할적) 군집(군집개수 미리지정(O))

프로토타입 기반

- K-중심군집

 * K-평균군집

 * K-중앙값군집

 * K-메도이드군집

 

분포기반

- 혼합분포군집

 

밀도기반

- DBSCAN(군집수 미리지정(X))

 

기타

- SOM(자기조직화지도)

 

#밀도기반군집 - 임의적인 모양의 군집

#SOM(자기조직화지도) - kohenen map이라고도 부름

  - 전방패스 알고리즘

  - 고차원 데이터를 저차원의 지도 형태로 형상화

  - 변수위치관계 보존

  - 경쟁학습(2차원 형태의 경쟁층)

 

1. 계층적 군집분석(군집의 개수 미리지정 X)

- 군집 분석의 결과는 덴드로그램으로 확인하고 군집의 수를 결정

- 한 번 군집이 형성되면 다른 군집으로 이동할 수 없음

- 군집간 거리측정 방법

 

- 군집 간 거리계산

 

2. 비 계층적(분할적) 군집분석(군집의 개수 미리 지정 O)

K-means

1) 진행되는 과정

  a. 군집수(k) / 초기값(Seed) 임의선정

  b. 데이터를 가장 가까운 Seed에 배치 (초기 Seed를 기준으로 군집이 형성)

  c. 각 군집의 중심을 다시 업데이터 함

  d. 각 군집의 중심이 변하지 않을 때까지 b,c 반복

2) 군집 수 k를 결정하는 방법

  a. 엘보우(Elbow) 기법

Elbow 포인트 : 기울기가 급격히 감소하는 부분

  

  b. 실루엣 기법

   - 군집 내 응집도, 군집 간 분리도를 사용

   - 실루엣 계수 : -1~1 사이값, 1에 가까울수록 Good

 

#참고사항

 - 요인분석 : 유사한 변수를 함께 묶어주는 것

 - 판별분석 : 사전에 집단이 나누어져 있음 -> 새로운 데이터는 어떤 집단인지