ADsP 38

빅데이터 탐색 - 데이터탐색(피어슨상관계수/상자그림 이해하기)

※ 피어슨 상관계수의 유의성 검정(가설검정)1. 가설설정  - 귀무가설(H0) : 상관계수가 0이다(상관관계가 없다)  - 대립가설(H1) : 상관계수가 0이 아니다(상관관계가 있다)2. 판단(t-분포 활용)  - 유의수준 5% 하에서 p-value값이 0.05보다 크면 귀무가설 채택                                      p-value값이 0.05보다 작으면 귀무가설 기각즉, 상관관계가 있으려면 p-value값이 0.05보다 작아야 함  3. 기초 통계량 추출 및 이해 ※ 상자그림(Box plot)의 이해 - 왜도, 사분위수, 상자그림, 평균, 중앙값, 최빈값과의 관계

빅데이터 탐색 - 데이터탐색(데이터탐색/상관계수)

데이터 탐색 기초* 데이터 탐색 도구 : 도표/ 그래프/ 요약통계1. 데이터 탐색 개요- 탐색적 데이터 분석(Exploratory Data Analysis, EDA)   - 수치요약, 시각화 등을 통해 데이터를 탐색하고 변수 간의 관계를 파악   - 주로 결측치, 이상값, 데이터 분포, 기초통계량, 변수간 상관성 확인(도구 : 도표, 그래프, 요약통계) - 탐색적 데이터 분석(EDA)과 확증적 데이터 분석(CDF)의 차이 - 탐색적 데이터 분석(EDA)의 4가지 주제1. 저항성의 강조   - 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질     예) 이상값에 민감한 평균보다 중앙값을 선호함2. 잔차 해석   - 잔차는 관찰 값들이 주 경향으로부터 얼마나 벗어났는지 알려주는 지표로, 이상치라 할 수..

빅데이터 탐색 - 통계기법이해(가설검정)

가설검정"~할 것이다"라는 잠정적인 주장(가설)에 대해 통계적인 방식으로 검정하는 것으로 통계적 가설검정이라 함(주로 모집단의 모수에 대해 설정) 1. 귀무가설과 대립가설1 귀무가설(H0) = 영가설 (기존에 알려진 사실)   - 차이가 없다, 서로 같다, 영향을 주지 않는다 등으로 설정 (일반적으로 = 사용) 2 대립가설(H1) = 연구가설 = 대안가설   - 차이가 있다, 같지 않다, 영향을 준다 등으로 설정 (일반적으로 ≠ 사용) ※ 가설검정은 귀무가설(H0)을 채택할 건지 기각할 건지 판단하는 과정 2. 가설 검정의 오류(1종 오류와 2종 오류)- 1종 오류(Type 1 error)   : 귀무가설(H0)이 참일 때 이를 기각하는 오류를 범할 확률   : 귀무가설(H0)이 참일 때 귀무가설을 기각..

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

중심극한정리(Central Limit Theorem, CLT)임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면1) 모집단의 분포에 상관없이 표본평균( x̄ )의 분포는 N(𝝁, σ² /𝒏 ) 인 정규분포에 근사한다.2) 모집단이 정규분포라면 표본평균( x̄ )은 표본의 크기(n)와 상관없이 항상 정규분포한다.중요한 이유! : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)  추론통계(Inferential statistics)추정-점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등 추정과 검정1. 추정 : 표본 정보를 이용하여 모수의 실제값을 추측2. 검정 : 모수에 대해 가설을 세우고 표본..

빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포)

3. 포아송분포- 단위시간/공간 내 발생하는 사건의 횟수를 확률변수 X라고 할 때   (발생 빈도가 낮은 사건)- X~P(λ)으로 표기- 포아송 분포의 확률함수기댓값과 분산- E(X) = λ- Var(X) = λ  2. 연속확률분포- 종류 : 정규분포, 표준정규분포, 균일분포, t-분포, X^2분포, F-분포, 감마분포, 지수분포 1. 정규분포- 가우스 분포라고 부르기도 함- 종 모양의 좌우대칭 분포- 평균, 중앙값, 최빈값이 같음- 평균이 μ, 분산이 σ², 표준편차 σ- 위치는 평균이, 모양은 표준편차가 결정- 첨도 3, 왜도 0 2. 표준정규분포N(0,1)- 평균이 0, 분산이 1인 정규분포 * 정규분포의 확률 계산(아래 면적)- 정규분포를 표준화하여 표준정규분포로 만든다.- 표준정규분포표를 보고 ..

빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행)

9. 확률변수 : 표본공간이 정의역, 실수값이 치역인 함수 10. 확률분포- 확률변수의 값과 확률을 대응시켜 표나 그래프로 표현한 것* 확률의 합은 1 11. 이산확률변수/연속확률변수 : 확률변수의 확률함수를 알고 있다면 사건이 일어날 확률을 계산할 수 있다.- 이산확률변수 : 이산점에서 0이 아닌 확률값을 가지는 확률변수- 연속확률변수 : 특정 실수 구간에서 0이 아닌 확률값을 가지는 확률변수 12. 확률변수의 기댓값(평균)1. 이산확률변수2. 연속확률변수기댓값의 성질(X,Y는 확률변수, a,b는 상수)- E(a) = a- E(aX+b) = aE(X) + b- E(aX+bY) = aE(X) + bE(Y) 13. 확률변수의 분산과 표준편차- 분산 : 편차제곱 (X- μ )^2 의 기댓값(평균)Var(X)..

빅데이터 탐색 - 통계기법이해(사건/확률/베이즈정리)

확률과 확률변수 1. 표본공간(Sample space) : 실험에 의해 나타날 수 있는 가능한 모든 결과의 집합 2. 사건(Events) : 표본 공간의 부분집합 3. 확률의 개념- 표본공간의 부분집합인 사건 A의 확률은 표본공간의 원소 개수에 대한 사건 A의 원소 개수의 비율즉, P(A) = n(A) / n(표본공간), n은 집합에 있는 원소의 수(혹은 경우의 수)앞 예시에서 앞면이 1번 나올 확률은 P(A) = 2 / 4 = 0.5 4. 확률의 공리- 확률실험에서 S를 표본공간, A를 사건이라고 하면 5. 확률의 계산1) 덧셈 법칙 : P(A∪B) = P(A) + P(B) – P(A∩B)    * 서로 배반사건이면 P(A∪B) = P(A) + P(B)2) 곱셈 법칙   - 사건 A와 B가 독립이면 P..

빅데이터 탐색 - 통계기법이해(확률표본과 비확률표본/데이터의 중심)

확률표본과 비확률표본 확률표본                                                    비확률표본- 단순랜덤추출                                                            - 편의 표본추출- 층화추출                                                                    - 유의 표본추출- 계통추출                                                                    - 지원자 표본추출- 집락추출                                                                    - 눈덩이 표..

빅데이터 탐색 - 통계기법이해(표본추출 방법)

표본추출 방법 1. 단순랜덤추출(Simple Random Sampling)모집단에서 샘플링을 무작위로 함. 규칙없이 랜덤으로 2. 층화추출(Stratified Random Sampling)각각의 층에서 일정비율로 뽑음. ex) 50:50으로 4개 sampling -> 초2 빨2 3. 계통추출(Systematic Sampling)일정한 간격을 두고 데이터를 추출하는 방법 4. 집락추출(Cluster Random Sampling)특정 집락을 선택해서 그 집락을 전수조사 or 일부를 sampling 하는 방법   표본추출 방법(예시)완제품 표본을 10개 뽑는다고 생각해보자.1. 단순랜덤추출 : 무작위로 10개 샘플링2. 층화추출 : 생산 1라인에서 5개, 생산 2라인에서 5개3. 계통추출 : 생산품 5개 당 ..

빅데이터 탐색 - 통계기법이해

기술통계와 추론통계 1) 기술통계 : 데이터의 모습을 정리/요약/묘사2) 추론통계 : 표본의 통계량을 기초로 모집단의 특성을 추론/검정 기술통계(descriptive statistics)데이터의 중심(중심경향도)- 평균(mean)- 중앙값(median)- 최빈값(mode) 데이터의 산포(산포도)- 분산- 표준편차- 사분위범위(IQR)- 범위- 변동계수 데이터의 퍼진 모양- 왜도(비대칭도)- 첨도(뾰족한 정도)  추론통계(Inferential statistics)추정- 점 추정- 구간 추정 가설검정- 귀무/대립가설- 제1종, 제2종 오류- 유의수준, 유의확률 등  모집단과 표본대표성 : 표본이 모집단을 잘 대표하려면 대표성을 가져야 함1. 표본의 수 ↑2. 표본추출 방법    1) 단순랜덤추출(Simple..