분류 전체보기 196

빅데이터 탐색 - 통계기법이해(확률표본과 비확률표본/데이터의 중심)

확률표본과 비확률표본 확률표본                                                    비확률표본- 단순랜덤추출                                                            - 편의 표본추출- 층화추출                                                                    - 유의 표본추출- 계통추출                                                                    - 지원자 표본추출- 집락추출                                                                    - 눈덩이 표..

빅데이터 탐색 - 통계기법이해(표본추출 방법)

표본추출 방법 1. 단순랜덤추출(Simple Random Sampling)모집단에서 샘플링을 무작위로 함. 규칙없이 랜덤으로 2. 층화추출(Stratified Random Sampling)각각의 층에서 일정비율로 뽑음. ex) 50:50으로 4개 sampling -> 초2 빨2 3. 계통추출(Systematic Sampling)일정한 간격을 두고 데이터를 추출하는 방법 4. 집락추출(Cluster Random Sampling)특정 집락을 선택해서 그 집락을 전수조사 or 일부를 sampling 하는 방법   표본추출 방법(예시)완제품 표본을 10개 뽑는다고 생각해보자.1. 단순랜덤추출 : 무작위로 10개 샘플링2. 층화추출 : 생산 1라인에서 5개, 생산 2라인에서 5개3. 계통추출 : 생산품 5개 당 ..

빅데이터 탐색 - 통계기법이해

기술통계와 추론통계 1) 기술통계 : 데이터의 모습을 정리/요약/묘사2) 추론통계 : 표본의 통계량을 기초로 모집단의 특성을 추론/검정 기술통계(descriptive statistics)데이터의 중심(중심경향도)- 평균(mean)- 중앙값(median)- 최빈값(mode) 데이터의 산포(산포도)- 분산- 표준편차- 사분위범위(IQR)- 범위- 변동계수 데이터의 퍼진 모양- 왜도(비대칭도)- 첨도(뾰족한 정도)  추론통계(Inferential statistics)추정- 점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등  모집단과 표본대표성 : 표본이 모집단을 잘 대표하려면 대표성을 가져야 함1. 표본의 수 ↑2. 표본추출 방법    1) 단순랜덤추출(Simple..

빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용)

분석결과 해석 1. 비즈니스 기여도 평가기법- 비즈니스 기여도 : 데이터분석 결과 활용을 통해 실질적으로 얻게 되는 효과- 평가기법   1) 총소유비용(TCO) : 하나의 자산을 획득하려 할 때 주어진 기간동안 모든 연관비용을 고려할 수 있도록 확인하기 위해사용   2) 투자대비효과(ROI) : 자본 투자대비 순 효과 비율   3) 순현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율까지 고려하여 계산한 값   4) 내부수익률(IRR) : 순현재가치를 "0"으로 만드는 할인율   5) 투자회수기간(PP) : 흑자 전환 시점   분석결과 활용 1. 분석결과 모니터링- 신규 분석 모델이 시스템에 도입되면 원하는 성능이 나오는지 모니터링 해야 함- 데이터의 수명은 유한함(여러 원인들에 의해 ..

빅데이터 결과해석 - 분석결과해석 및 활용(시각화)

1. 데이터 시각화(Data Visualization) : 데이터를 이해하기 쉽게 표현- 기능 : 설명, 탐색, 표현- 목적 : 정보전달, 설득하기 2. 시각화 절차 : 구조화 - 시각화 - 시각표현 3. 데이터 시각화 유형(★) : 시간/ 공간/ 관계/ 비교/ 분포/ 인포그래픽   1) 시간 시각화 : 시간에 따른 Trend 변화       - 이산형 : 막대/ 누적막대/ 점그래프       - 연속형 : 선그래프/ 영역차트/ 계단식차트    2) 공간 시각화 : 위도&경도 사용, 지도를 통해 경향과 차이를 표현       - 등치지역도, 등치선도(등치지역도 단점개선), 도트/버블맵, 카토그램(면적왜곡)   3) 관계 시각화 : 집단 간 상관관계, 연관성, 분포, 패턴 등을 찾음      - 산점도, ..

빅데이터 결과해석 - 분석모형개선(분석모형융합)

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 1) 배깅(bagging)- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정* 붓스트랩 : 단순랜덤 복원추출(샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있음, 약 36.8% 숫자기억) 2) 부스팅(Boosting)- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순- 종류 : GBM, XGBoost, Adaboost, LightGBM(LGBM) 3) 랜덤포레스트(배깅 + 변수선택)- 다수의 의사결정나무를 랜..

빅데이터 결과해석 - 분석모형개선(매개변수 최적화)

1. 손실함수 : 모델의 예측값( ŷ )과 실제값(y)의 차이(오차) 2. 모델의 학습 목적 : 오차(손실함수)를 가장 작게 만드는 매개변수(가중치,편향)를 찾는 것 -> 매개변수 최적화 3. 매개변수 최적화 알고리즘(경사하강법 기반)* 경사하강법 : 손실함수의 기울기를 이용하여 손실함수가 최소가 되도록 매개변수 갱신 SGD- 데이터 전체를 한번에 학습(X), 부분을 무작위(확률적)로 학습(O)- 손실함수 기울기를 따라 조금씩 최적점으로 이동- 지그재그로 크게 변함, 최적점 근처에서 느림 Adagrad- 진행할수록 학습률 ↓- 처음에 학습률이 크고 최적점에 가까워지면 학습률 감소- 지그재그 움직임이 크게 줄어든다(효율적 움직임) Momentum(SGD + 속도) - 누적된 기울기 값에 의해 빠르게 최적점..

빅데이터 결과해석 - 분석모형평가(교차검증 & 분석모형개선-과적합방지)

교차검증 1. 홀드아웃- 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할 2. k-fold 교차검증- k개의 집단으로 나누고 k-1개로 학습, 1개로 평가 3. LpOCV- 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가  * 평가데이터 경우의 수 : nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다4. LOOCV는 LpOCV에서 p=1인 경우 5. 붓스트랩 : 단순랜덤 복원추출- 학습데이터에 한번도 포함되지 않을 확률(약 36.8%)- 반대로 학습데이터에 포함될 확률(약 63.2%)   분석모형개선 - 과적합방지 1. 편향(Bias) : 예측값과 실제값의 차이-> 편향이 크면 오차가 크다 2. 분산(Variance) : 예측값들의 흩어진 정도-> 분산이 크면 예측값이 예측값의 ..

빅데이터 결과해석 - 분석모형평가(분석모형진단)

회귀모형 진단 1. 회귀모형에 대한 진단- 회귀모형 : F검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : 회귀계수(𝛽i) 는 0이다- 회귀계수 : t검정, p-value가 0.05보다 작아야 함(유의확률   H0(귀무가설) : i번째 회귀계수는 0이다 2. 잔차에 대한 가정 : 정규성 / 등분산성 / 독립성[잔차의 등분산성 예시] - 잔차에 대해서 산점도로 그려봤을때 X에 따라서 분산이 경향을 띄는 것이 아니라 0을 기준으로 위아래로 고르게 분포되어 있는 것 복습) 회귀분석의 가정1. 선형성 : 독립변수(X)와 종속변수(Y)간의 선형성2. 잔차의 3가지 가정(등분산성, 정규성, 독립성)   a. 등분산성 : 산점도   b. 정규성       - H0(귀무가설) : 정규분포..

빅데이터 결과해석 - 분석모형평가(군집분석 및 기타 성능지표)

군집분석 평가지표 군집 내 데이터는 거리가 짧아야 하고, 군집 간 거리는 멀어야 함- 던지수 : (군집간 거리의 최소값) / (군집 내 거리의 최대값), 값이 클수록 좋음- 실루엣 계수는 -1~1 값을 가지며 1에 가까울수록 좋은 군집 모형 카파 상관계수- 두 평가자의 결과값이 일치하는지에 대한 척도로 개발되었다- 0~1사이 값을 가지며 1에 가까울수록 모델의 성능이 좋다고 할 수 있다- 모델의 예측값과 실제값이 얼마나 일치하는지 확인할 수 있는 지표이다- 모형의 평가결과가 우연히 나온 결과가 아니라는 것을 보여주는 지표이다- 범주형 데이터에 사용- k값에 따라(0~1사이 값)   0.8~1.0 : 매우 높은 일치   0.6~0.8 : 높은 일치   0.4~0.6 : 보통 일치   0.2~0.4 : 어느..