[데이터자격시험용-필수요약정리] 44

빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행)

9. 확률변수 : 표본공간이 정의역, 실수값이 치역인 함수 10. 확률분포- 확률변수의 값과 확률을 대응시켜 표나 그래프로 표현한 것* 확률의 합은 1 11. 이산확률변수/연속확률변수 : 확률변수의 확률함수를 알고 있다면 사건이 일어날 확률을 계산할 수 있다.- 이산확률변수 : 이산점에서 0이 아닌 확률값을 가지는 확률변수- 연속확률변수 : 특정 실수 구간에서 0이 아닌 확률값을 가지는 확률변수 12. 확률변수의 기댓값(평균)1. 이산확률변수2. 연속확률변수기댓값의 성질(X,Y는 확률변수, a,b는 상수)- E(a) = a- E(aX+b) = aE(X) + b- E(aX+bY) = aE(X) + bE(Y) 13. 확률변수의 분산과 표준편차- 분산 : 편차제곱 (X- μ )^2 의 기댓값(평균)Var(X)..

빅데이터 탐색 - 통계기법이해(사건/확률/베이즈정리)

확률과 확률변수 1. 표본공간(Sample space) : 실험에 의해 나타날 수 있는 가능한 모든 결과의 집합 2. 사건(Events) : 표본 공간의 부분집합 3. 확률의 개념- 표본공간의 부분집합인 사건 A의 확률은 표본공간의 원소 개수에 대한 사건 A의 원소 개수의 비율즉, P(A) = n(A) / n(표본공간), n은 집합에 있는 원소의 수(혹은 경우의 수)앞 예시에서 앞면이 1번 나올 확률은 P(A) = 2 / 4 = 0.5 4. 확률의 공리- 확률실험에서 S를 표본공간, A를 사건이라고 하면 5. 확률의 계산1) 덧셈 법칙 : P(A∪B) = P(A) + P(B) – P(A∩B)    * 서로 배반사건이면 P(A∪B) = P(A) + P(B)2) 곱셈 법칙   - 사건 A와 B가 독립이면 P..

빅데이터 탐색 - 통계기법이해(확률표본과 비확률표본/데이터의 중심)

확률표본과 비확률표본 확률표본                                                    비확률표본- 단순랜덤추출                                                            - 편의 표본추출- 층화추출                                                                    - 유의 표본추출- 계통추출                                                                    - 지원자 표본추출- 집락추출                                                                    - 눈덩이 표..

빅데이터 탐색 - 통계기법이해(표본추출 방법)

표본추출 방법 1. 단순랜덤추출(Simple Random Sampling)모집단에서 샘플링을 무작위로 함. 규칙없이 랜덤으로 2. 층화추출(Stratified Random Sampling)각각의 층에서 일정비율로 뽑음. ex) 50:50으로 4개 sampling -> 초2 빨2 3. 계통추출(Systematic Sampling)일정한 간격을 두고 데이터를 추출하는 방법 4. 집락추출(Cluster Random Sampling)특정 집락을 선택해서 그 집락을 전수조사 or 일부를 sampling 하는 방법   표본추출 방법(예시)완제품 표본을 10개 뽑는다고 생각해보자.1. 단순랜덤추출 : 무작위로 10개 샘플링2. 층화추출 : 생산 1라인에서 5개, 생산 2라인에서 5개3. 계통추출 : 생산품 5개 당 ..

빅데이터 탐색 - 통계기법이해

기술통계와 추론통계 1) 기술통계 : 데이터의 모습을 정리/요약/묘사2) 추론통계 : 표본의 통계량을 기초로 모집단의 특성을 추론/검정 기술통계(descriptive statistics)데이터의 중심(중심경향도)- 평균(mean)- 중앙값(median)- 최빈값(mode) 데이터의 산포(산포도)- 분산- 표준편차- 사분위범위(IQR)- 범위- 변동계수 데이터의 퍼진 모양- 왜도(비대칭도)- 첨도(뾰족한 정도)  추론통계(Inferential statistics)추정- 점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등  모집단과 표본대표성 : 표본이 모집단을 잘 대표하려면 대표성을 가져야 함1. 표본의 수 ↑2. 표본추출 방법    1) 단순랜덤추출(Simple..

빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용)

분석결과 해석 1. 비즈니스 기여도 평가기법- 비즈니스 기여도 : 데이터분석 결과 활용을 통해 실질적으로 얻게 되는 효과- 평가기법   1) 총소유비용(TCO) : 하나의 자산을 획득하려 할 때 주어진 기간동안 모든 연관비용을 고려할 수 있도록 확인하기 위해사용   2) 투자대비효과(ROI) : 자본 투자대비 순 효과 비율   3) 순현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율까지 고려하여 계산한 값   4) 내부수익률(IRR) : 순현재가치를 "0"으로 만드는 할인율   5) 투자회수기간(PP) : 흑자 전환 시점   분석결과 활용 1. 분석결과 모니터링- 신규 분석 모델이 시스템에 도입되면 원하는 성능이 나오는지 모니터링 해야 함- 데이터의 수명은 유한함(여러 원인들에 의해 ..

빅데이터 결과해석 - 분석결과해석 및 활용(시각화)

1. 데이터 시각화(Data Visualization) : 데이터를 이해하기 쉽게 표현- 기능 : 설명, 탐색, 표현- 목적 : 정보전달, 설득하기 2. 시각화 절차 : 구조화 - 시각화 - 시각표현 3. 데이터 시각화 유형(★) : 시간/ 공간/ 관계/ 비교/ 분포/ 인포그래픽   1) 시간 시각화 : 시간에 따른 Trend 변화       - 이산형 : 막대/ 누적막대/ 점그래프       - 연속형 : 선그래프/ 영역차트/ 계단식차트    2) 공간 시각화 : 위도&경도 사용, 지도를 통해 경향과 차이를 표현       - 등치지역도, 등치선도(등치지역도 단점개선), 도트/버블맵, 카토그램(면적왜곡)   3) 관계 시각화 : 집단 간 상관관계, 연관성, 분포, 패턴 등을 찾음      - 산점도, ..

빅데이터 결과해석 - 분석모형개선(분석모형융합)

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 1) 배깅(bagging)- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정* 붓스트랩 : 단순랜덤 복원추출(샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있음, 약 36.8% 숫자기억) 2) 부스팅(Boosting)- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순- 종류 : GBM, XGBoost, Adaboost, LightGBM(LGBM) 3) 랜덤포레스트(배깅 + 변수선택)- 다수의 의사결정나무를 랜..

빅데이터 결과해석 - 분석모형개선(매개변수 최적화)

1. 손실함수 : 모델의 예측값( ŷ )과 실제값(y)의 차이(오차) 2. 모델의 학습 목적 : 오차(손실함수)를 가장 작게 만드는 매개변수(가중치,편향)를 찾는 것 -> 매개변수 최적화 3. 매개변수 최적화 알고리즘(경사하강법 기반)* 경사하강법 : 손실함수의 기울기를 이용하여 손실함수가 최소가 되도록 매개변수 갱신 SGD- 데이터 전체를 한번에 학습(X), 부분을 무작위(확률적)로 학습(O)- 손실함수 기울기를 따라 조금씩 최적점으로 이동- 지그재그로 크게 변함, 최적점 근처에서 느림 Adagrad- 진행할수록 학습률 ↓- 처음에 학습률이 크고 최적점에 가까워지면 학습률 감소- 지그재그 움직임이 크게 줄어든다(효율적 움직임) Momentum(SGD + 속도) - 누적된 기울기 값에 의해 빠르게 최적점..

빅데이터 결과해석 - 분석모형평가(교차검증 & 분석모형개선-과적합방지)

교차검증 1. 홀드아웃- 계산량 적음, 단순함, 랜덤하게 학습/평가로 분할 2. k-fold 교차검증- k개의 집단으로 나누고 k-1개로 학습, 1개로 평가 3. LpOCV- 전체 N개에서 p개 선택, N-p개로 학습, p개로 평가  * 평가데이터 경우의 수 : nCp = n! / (n-p)!p! -> 비용/시간이 많이 든다4. LOOCV는 LpOCV에서 p=1인 경우 5. 붓스트랩 : 단순랜덤 복원추출- 학습데이터에 한번도 포함되지 않을 확률(약 36.8%)- 반대로 학습데이터에 포함될 확률(약 63.2%)   분석모형개선 - 과적합방지 1. 편향(Bias) : 예측값과 실제값의 차이-> 편향이 크면 오차가 크다 2. 분산(Variance) : 예측값들의 흩어진 정도-> 분산이 크면 예측값이 예측값의 ..