[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 통계기법이해(확률표본과 비확률표본/데이터의 중심)

indongspace 2024. 3. 31. 22:09

 

확률표본과 비확률표본

 

확률표본                                                    비확률표본

- 단순랜덤추출                                                            - 편의 표본추출

- 층화추출                                                                    - 유의 표본추출

- 계통추출                                                                    - 지원자 표본추출

- 집락추출                                                                    - 눈덩이 표본추출

                                                                                     - 할당 표본추출

 

 

데이터 요약

데이터의 중심

1. (산술)평균(mean)

- 모든 자료를 더해서 자료 수로 나눈 값

- 극단값에 영향을 많이 받음

 

2. 중앙값(median)

- 오름차순으로 나열된 데이터의 50%에 해당하는 값

- 극단값에 영향을 받지 않음

 

3. 최빈값(mode)

- 가장 빈도가 높은 값

- 극단값에 영향을 받지 않음

- 2개 이상 존재 가능

 

간단하게 계산해보기

- 평균 : 1,2,3,4,100 => 110/5 = 22

- 중앙값 : 1,2,3,4,100 => 3

- 최빈값 : 1,2,3,3,100 => 3

 

#참고

- 기하평균 : 성장률, 증가율, 물가상승률 등

- 조화평균 : 평균속력, F1 Score 2*정밀도*재현율/(정밀도+재현율)

 

 

데이터의 산포

1. 분산, 표준편차

 

2. 사분위범위(IQR)

- Q3 - Q1

  - Q1 : 1사분위수(25%)

  - Q3 : 3사분위수(75%)

 

3. 범위

- 최대값 - 최소값

 

4. 변동계수(CV, coefficient of variation)

- 표준편차/평균

- 단위가 다른 값들(크기가 다른 값들)을 서로 표준화된 값으로 비교를 할 때 사용

 

 

분산과 표준편차

1) 편차 : 개별값 - 평균값

 

2) 분산 : 편차의 제곱을 모두 더해 평균을 낸 값

 

3) 표준편차 : 분산에 제곱근을 취한 값(원래 단위에 맞게 전환한 값)

 

 

데이터의 퍼진 모양

1. 왜도(비대칭도) = Skewness

* 왜도의 부호 : 평균 - 중앙값

 

2. 첨도(뾰족한정도) = Kurtosis

* 첨도값이 클수록 뾰족하다.

 

#참고

- 정규분포(첨도 3, 왜도 0)

 

데이터 종류(암기 필수!)