확률표본과 비확률표본
확률표본 비확률표본
- 단순랜덤추출 - 편의 표본추출
- 층화추출 - 유의 표본추출
- 계통추출 - 지원자 표본추출
- 집락추출 - 눈덩이 표본추출
- 할당 표본추출
데이터 요약
데이터의 중심
1. (산술)평균(mean)
- 모든 자료를 더해서 자료 수로 나눈 값
- 극단값에 영향을 많이 받음
2. 중앙값(median)
- 오름차순으로 나열된 데이터의 50%에 해당하는 값
- 극단값에 영향을 받지 않음
3. 최빈값(mode)
- 가장 빈도가 높은 값
- 극단값에 영향을 받지 않음
- 2개 이상 존재 가능
간단하게 계산해보기
- 평균 : 1,2,3,4,100 => 110/5 = 22
- 중앙값 : 1,2,3,4,100 => 3
- 최빈값 : 1,2,3,3,100 => 3
#참고
- 기하평균 : 성장률, 증가율, 물가상승률 등
- 조화평균 : 평균속력, F1 Score 2*정밀도*재현율/(정밀도+재현율)
데이터의 산포
1. 분산, 표준편차
2. 사분위범위(IQR)
- Q3 - Q1
- Q1 : 1사분위수(25%)
- Q3 : 3사분위수(75%)
3. 범위
- 최대값 - 최소값
4. 변동계수(CV, coefficient of variation)
- 표준편차/평균
- 단위가 다른 값들(크기가 다른 값들)을 서로 표준화된 값으로 비교를 할 때 사용
분산과 표준편차
1) 편차 : 개별값 - 평균값
2) 분산 : 편차의 제곱을 모두 더해 평균을 낸 값
3) 표준편차 : 분산에 제곱근을 취한 값(원래 단위에 맞게 전환한 값)
데이터의 퍼진 모양
1. 왜도(비대칭도) = Skewness
* 왜도의 부호 : 평균 - 중앙값
2. 첨도(뾰족한정도) = Kurtosis
* 첨도값이 클수록 뾰족하다.
#참고
- 정규분포(첨도 3, 왜도 0)
데이터 종류(암기 필수!)
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행) (0) | 2024.03.31 |
---|---|
빅데이터 탐색 - 통계기법이해(사건/확률/베이즈정리) (0) | 2024.03.31 |
빅데이터 탐색 - 통계기법이해(표본추출 방법) (0) | 2024.03.31 |
빅데이터 탐색 - 통계기법이해 (0) | 2024.03.31 |
빅데이터 결과해석 - 분석결과해석 및 활용(분석결과해석, 분석결과활용) (0) | 2024.03.24 |