빅데이터분석기사 46

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

중심극한정리(Central Limit Theorem, CLT)임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면1) 모집단의 분포에 상관없이 표본평균( x̄ )의 분포는 N(𝝁, σ² /𝒏 ) 인 정규분포에 근사한다.2) 모집단이 정규분포라면 표본평균( x̄ )은 표본의 크기(n)와 상관없이 항상 정규분포한다.중요한 이유! : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)  추론통계(Inferential statistics)추정-점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등 추정과 검정1. 추정 : 표본 정보를 이용하여 모수의 실제값을 추측2. 검정 : 모수에 대해 가설을 세우고 표본..

빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포)

3. 포아송분포- 단위시간/공간 내 발생하는 사건의 횟수를 확률변수 X라고 할 때   (발생 빈도가 낮은 사건)- X~P(λ)으로 표기- 포아송 분포의 확률함수기댓값과 분산- E(X) = λ- Var(X) = λ  2. 연속확률분포- 종류 : 정규분포, 표준정규분포, 균일분포, t-분포, X^2분포, F-분포, 감마분포, 지수분포 1. 정규분포- 가우스 분포라고 부르기도 함- 종 모양의 좌우대칭 분포- 평균, 중앙값, 최빈값이 같음- 평균이 μ, 분산이 σ², 표준편차 σ- 위치는 평균이, 모양은 표준편차가 결정- 첨도 3, 왜도 0 2. 표준정규분포N(0,1)- 평균이 0, 분산이 1인 정규분포 * 정규분포의 확률 계산(아래 면적)- 정규분포를 표준화하여 표준정규분포로 만든다.- 표준정규분포표를 보고 ..

빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행)

9. 확률변수 : 표본공간이 정의역, 실수값이 치역인 함수 10. 확률분포- 확률변수의 값과 확률을 대응시켜 표나 그래프로 표현한 것* 확률의 합은 1 11. 이산확률변수/연속확률변수 : 확률변수의 확률함수를 알고 있다면 사건이 일어날 확률을 계산할 수 있다.- 이산확률변수 : 이산점에서 0이 아닌 확률값을 가지는 확률변수- 연속확률변수 : 특정 실수 구간에서 0이 아닌 확률값을 가지는 확률변수 12. 확률변수의 기댓값(평균)1. 이산확률변수2. 연속확률변수기댓값의 성질(X,Y는 확률변수, a,b는 상수)- E(a) = a- E(aX+b) = aE(X) + b- E(aX+bY) = aE(X) + bE(Y) 13. 확률변수의 분산과 표준편차- 분산 : 편차제곱 (X- μ )^2 의 기댓값(평균)Var(X)..

빅데이터 탐색 - 통계기법이해(사건/확률/베이즈정리)

확률과 확률변수 1. 표본공간(Sample space) : 실험에 의해 나타날 수 있는 가능한 모든 결과의 집합 2. 사건(Events) : 표본 공간의 부분집합 3. 확률의 개념- 표본공간의 부분집합인 사건 A의 확률은 표본공간의 원소 개수에 대한 사건 A의 원소 개수의 비율즉, P(A) = n(A) / n(표본공간), n은 집합에 있는 원소의 수(혹은 경우의 수)앞 예시에서 앞면이 1번 나올 확률은 P(A) = 2 / 4 = 0.5 4. 확률의 공리- 확률실험에서 S를 표본공간, A를 사건이라고 하면 5. 확률의 계산1) 덧셈 법칙 : P(A∪B) = P(A) + P(B) – P(A∩B)    * 서로 배반사건이면 P(A∪B) = P(A) + P(B)2) 곱셈 법칙   - 사건 A와 B가 독립이면 P..

빅데이터 탐색 - 통계기법이해(확률표본과 비확률표본/데이터의 중심)

확률표본과 비확률표본 확률표본                                                    비확률표본- 단순랜덤추출                                                            - 편의 표본추출- 층화추출                                                                    - 유의 표본추출- 계통추출                                                                    - 지원자 표본추출- 집락추출                                                                    - 눈덩이 표..

빅데이터 탐색 - 통계기법이해(표본추출 방법)

표본추출 방법 1. 단순랜덤추출(Simple Random Sampling)모집단에서 샘플링을 무작위로 함. 규칙없이 랜덤으로 2. 층화추출(Stratified Random Sampling)각각의 층에서 일정비율로 뽑음. ex) 50:50으로 4개 sampling -> 초2 빨2 3. 계통추출(Systematic Sampling)일정한 간격을 두고 데이터를 추출하는 방법 4. 집락추출(Cluster Random Sampling)특정 집락을 선택해서 그 집락을 전수조사 or 일부를 sampling 하는 방법   표본추출 방법(예시)완제품 표본을 10개 뽑는다고 생각해보자.1. 단순랜덤추출 : 무작위로 10개 샘플링2. 층화추출 : 생산 1라인에서 5개, 생산 2라인에서 5개3. 계통추출 : 생산품 5개 당 ..

빅데이터 탐색 - 통계기법이해

기술통계와 추론통계 1) 기술통계 : 데이터의 모습을 정리/요약/묘사2) 추론통계 : 표본의 통계량을 기초로 모집단의 특성을 추론/검정 기술통계(descriptive statistics)데이터의 중심(중심경향도)- 평균(mean)- 중앙값(median)- 최빈값(mode) 데이터의 산포(산포도)- 분산- 표준편차- 사분위범위(IQR)- 범위- 변동계수 데이터의 퍼진 모양- 왜도(비대칭도)- 첨도(뾰족한 정도)  추론통계(Inferential statistics)추정- 점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등  모집단과 표본대표성 : 표본이 모집단을 잘 대표하려면 대표성을 가져야 함1. 표본의 수 ↑2. 표본추출 방법    1) 단순랜덤추출(Simple..

빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용)

분석결과 해석 1. 비즈니스 기여도 평가기법- 비즈니스 기여도 : 데이터분석 결과 활용을 통해 실질적으로 얻게 되는 효과- 평가기법   1) 총소유비용(TCO) : 하나의 자산을 획득하려 할 때 주어진 기간동안 모든 연관비용을 고려할 수 있도록 확인하기 위해사용   2) 투자대비효과(ROI) : 자본 투자대비 순 효과 비율   3) 순현재가치(NPV) : 특정 시점의 투자금액과 매출금액의 차이를 이자율까지 고려하여 계산한 값   4) 내부수익률(IRR) : 순현재가치를 "0"으로 만드는 할인율   5) 투자회수기간(PP) : 흑자 전환 시점   분석결과 활용 1. 분석결과 모니터링- 신규 분석 모델이 시스템에 도입되면 원하는 성능이 나오는지 모니터링 해야 함- 데이터의 수명은 유한함(여러 원인들에 의해 ..

빅데이터 결과해석 - 분석결과해석 및 활용(시각화)

1. 데이터 시각화(Data Visualization) : 데이터를 이해하기 쉽게 표현- 기능 : 설명, 탐색, 표현- 목적 : 정보전달, 설득하기 2. 시각화 절차 : 구조화 - 시각화 - 시각표현 3. 데이터 시각화 유형(★) : 시간/ 공간/ 관계/ 비교/ 분포/ 인포그래픽   1) 시간 시각화 : 시간에 따른 Trend 변화       - 이산형 : 막대/ 누적막대/ 점그래프       - 연속형 : 선그래프/ 영역차트/ 계단식차트    2) 공간 시각화 : 위도&경도 사용, 지도를 통해 경향과 차이를 표현       - 등치지역도, 등치선도(등치지역도 단점개선), 도트/버블맵, 카토그램(면적왜곡)   3) 관계 시각화 : 집단 간 상관관계, 연관성, 분포, 패턴 등을 찾음      - 산점도, ..

빅데이터 결과해석 - 분석모형개선(분석모형융합)

앙상블(Ensemble) : 여러가지 모형들을 만든 후에, 하나의 최종 결론을 내는 방법- 장점 : 성능이 좋음, 일반화 성능 굿 1) 배깅(bagging)- 붓스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정* 붓스트랩 : 단순랜덤 복원추출(샘플에 한 번도 선택되지 않는 원데이터가 발생할 수 있음, 약 36.8% 숫자기억) 2) 부스팅(Boosting)- 예측력이 약한(weak) 모델에서 오류에 가중치를 줘서 더 좋은 모델로 발전시켜나감- 모델링 -> 오분류 데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순- 종류 : GBM, XGBoost, Adaboost, LightGBM(LGBM) 3) 랜덤포레스트(배깅 + 변수선택)- 다수의 의사결정나무를 랜..