빅데이터 모델링 - 분석모형 설계

[데이터자격시험용-필수요약정리]

빅데이터 모델링 - 분석모형 설계

indongspace 2024. 3. 16. 19:15

기계학습(머신러닝)

지도학습

회귀 : 선형회귀

분류 : 로지스틱회귀/ 판별분석/ 나이브베이즈

회귀/분류 모두 가능 : 의사결정나무/ 랜덤포레스트/ K-NN/ SVM(서포트벡터머신)/ 인공신경망/ 앙상블(배깅,부스팅)

비지도학습

군집화 : 계층적(최단/최장/평균/와드)/ 비계층적(K-means등) #군집개수 정하면 비계층적

차원축소 : 주성분분석(PCA)

연관규칙

자기조직화지도(SOM)

강화학습

Q-러닝

분석모형설계

데이터분할

1) 하는 이유 : 분석 모델의 일반화 성능을 좋게!(과적합X)

- 일반화 성능 : 훈련모델의 실제 사용시 성능

- 과적합(Overfitting) : 학습(Train) 데이터를 과하게 학습하여 평가(Test) 데이터 입력시 성능이 떨어지는 것

2) 데이터 설명

Train(훈련) : 알고리즘 학습

Validation(검증) : 중간에 검증, 모형 미세조정

Test(평가) : 성능평가

3) 데이터 분할 종류

- 홀드아웃 : 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할

- k-fold 교차검증 : k개의 집단으로 나누고 k-1개로 학습, 1개로 평가

- LpOCV : 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가/ 평가데이터 경우의수 - nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다.

- LOOCV : LpOCV에서 p=1인 경우

- 붓스트랩 : 단순랜덤 복원추출, 특정데이터가 학습데이터에 한번도 포함되지 않을 확률(약 36.8%), 반대로 학습데이터에 포함될 확률(약 63.2%)

'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글

빅데이터 모델링 - 분석기법적용 (군집분석) (0)	2024.03.17
빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수) (0)	2024.03.17
빅데이터 모델링 - 분석기법적용 (의사결정나무/앙상블모형/K-NN) (0)	2024.03.17
빅데이터 모델링 - 분석기법적용 (Logistic Regression / SVM) (0)	2024.03.16
빅데이터 모델링 - 분석기법적용 (회귀분석/다중회귀분석) (0)	2024.03.16

현재글빅데이터 모델링 - 분석모형 설계

인동머스크

" 우리에게는 존재하지 않는 것들을 꿈꿀 수 있는 사람들이 필요하다. " (ADsP / 빅데이터분석기사 / SQLD) https://github.com/Indongspace

빅분기, 오블완, 메타코드, 태블로, ADsP, 빅데이터분석기사, 데이터자격검정, hackerrank, 복습, vizlab, 프로그래머스, tableau, 시각화, leetcode, 코딩테스트, 티스토리챌린지, 통계기초, 카일스쿨, mysql, 인프런,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인동머스크