[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM)

indongspace 2024. 3. 16. 20:23

지도학습 - 분류(Y:범주형)

 

로지스틱 회귀분석 (지도학습/분류)

- 종속변수(Y) 가 범주형인 경우 사용, 이진분류(0 아니면 1로 분류)

- 시그모이드 함수(S자형 곡선) : Y가 1일 확률값을 구해준다(0~1 사이 값)

  * 임계값은 보통 p=0.5

  * 확률값이 0.5보다 크면 1로 분류, 그렇지 않으면 0으로 분류

 

 

 

지도학습 - 회귀/분류

 

서포트 벡터 머신(지도학습/ 회귀,분류)  Support Vector Machine(SVM)

- 데이터 세트를 분할하기 위한 최상의 초평면(Hyperplane)을 구함

- 특징 : 비선형 데이터 분류시 커널 함수를 통해 다른차원(차원증가)으로 맵핑하여 해결

            성능이 좋으나 하이퍼파라미터(초매개변수) 영향을 많이 받는다.

            계산량이 많아서 시간소요

- 하이퍼파라미터 C값 증가 = 하드마진(타이트하게) = 성능 상승 = 과적합 위험

  하이퍼파라미터 C값 감소 = 소프트마진(루즈하게) = 성능 다운 = 과소적합 위험

보통은 일반옵션으로 둘 경우, margin을 최대로하는 초평면을 구함

 

#margin : 초평면으로부터 서포트벡터까지의 거리

#support vectors : hyperplane을 결정해주는 포인트 

 

#참고사항

- 매개변수 : 학습된 모델의 일부로 저장, 데이터로부터 산출

- 초매개변수(하이퍼파라미터) : 분석가가 설정하는 파라미터