통계 3

빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포)

3. 포아송분포- 단위시간/공간 내 발생하는 사건의 횟수를 확률변수 X라고 할 때   (발생 빈도가 낮은 사건)- X~P(λ)으로 표기- 포아송 분포의 확률함수기댓값과 분산- E(X) = λ- Var(X) = λ  2. 연속확률분포- 종류 : 정규분포, 표준정규분포, 균일분포, t-분포, X^2분포, F-분포, 감마분포, 지수분포 1. 정규분포- 가우스 분포라고 부르기도 함- 종 모양의 좌우대칭 분포- 평균, 중앙값, 최빈값이 같음- 평균이 μ, 분산이 σ², 표준편차 σ- 위치는 평균이, 모양은 표준편차가 결정- 첨도 3, 왜도 0 2. 표준정규분포N(0,1)- 평균이 0, 분산이 1인 정규분포 * 정규분포의 확률 계산(아래 면적)- 정규분포를 표준화하여 표준정규분포로 만든다.- 표준정규분포표를 보고 ..

빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행)

9. 확률변수 : 표본공간이 정의역, 실수값이 치역인 함수 10. 확률분포- 확률변수의 값과 확률을 대응시켜 표나 그래프로 표현한 것* 확률의 합은 1 11. 이산확률변수/연속확률변수 : 확률변수의 확률함수를 알고 있다면 사건이 일어날 확률을 계산할 수 있다.- 이산확률변수 : 이산점에서 0이 아닌 확률값을 가지는 확률변수- 연속확률변수 : 특정 실수 구간에서 0이 아닌 확률값을 가지는 확률변수 12. 확률변수의 기댓값(평균)1. 이산확률변수2. 연속확률변수기댓값의 성질(X,Y는 확률변수, a,b는 상수)- E(a) = a- E(aX+b) = aE(X) + b- E(aX+bY) = aE(X) + bE(Y) 13. 확률변수의 분산과 표준편차- 분산 : 편차제곱 (X- μ )^2 의 기댓값(평균)Var(X)..

빅데이터 탐색 - 통계기법이해

기술통계와 추론통계 1) 기술통계 : 데이터의 모습을 정리/요약/묘사2) 추론통계 : 표본의 통계량을 기초로 모집단의 특성을 추론/검정 기술통계(descriptive statistics)데이터의 중심(중심경향도)- 평균(mean)- 중앙값(median)- 최빈값(mode) 데이터의 산포(산포도)- 분산- 표준편차- 사분위범위(IQR)- 범위- 변동계수 데이터의 퍼진 모양- 왜도(비대칭도)- 첨도(뾰족한 정도)  추론통계(Inferential statistics)추정- 점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등  모집단과 표본대표성 : 표본이 모집단을 잘 대표하려면 대표성을 가져야 함1. 표본의 수 ↑2. 표본추출 방법    1) 단순랜덤추출(Simple..