빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

[데이터자격시험용-필수요약정리]

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

indongspace 2024. 4. 1. 00:54

중심극한정리(Central Limit Theorem, CLT)

임의의 모집단이 평균이 μ, 표준편차 σ 라고 할 때, 표본의 크기 n이 충분히 크다면

1) 모집단의 분포에 상관없이 표본평균( x̄ )의 분포는 N(𝝁, σ² /𝒏 ) 인 정규분포에 근사한다.

2) 모집단이 정규분포라면 표본평균( x̄ )은 표본의 크기(n)와 상관없이 항상 정규분포한다.

중요한 이유! : 표본평균이 정규분포를 따르면 모집단의 모수를 추정할 수 있게 된다(확률적 근거)

추론통계(Inferential statistics)

추정

-점 추정

- 구간 추정

가설검정

- 귀무/대립가설

- 제1종, 제2종 오류

- 유의수준, 유의확률 등

추정과 검정

1. 추정 : 표본 정보를 이용하여 모수의 실제값을 추측

2. 검정 : 모수에 대해 가설을 세우고 표본의 정보(통계량)를 이용하여 수립한 가설이 타당한지 판정함

점 추정(Point Estimation)

"모수가 특정한 값"일 것이라고 추정하는 것

* 점 추정량의 조건 4가지

1. 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의(차이)가 없다.

2. 효율성 : 추정량의 분산이 작을수록 좋다.

3. 일치성 : 표본의 크기가 커지면 추정량이 모수와 같아진다.

4. 충족성 : 추정량은 모수에 대해 모든 정보를 제공한다.

- 표본 평균

- 표본 분산

구간 추정(Interval Estimation)

"모수가 특정한 구간"에 있을 것이라고 추정하는 것

- 신뢰수준 : 모수가 구간 안에 있을 가능성의 크기로 신뢰수준 95%를 일반적으로 사용

- 신뢰구간 : 신뢰수준 하에서 모수가 존재할 것이라고 생각되는 구간

(ex) 신뢰수준 95% 하에서 신뢰구간은 150.2 ≤ 𝝁 ≤ 170.5)

※ 모평균 𝝁 의 신뢰구간 추정

Case 1) 모분산을 안다

Case 2) 모분산을 모른다

1. n > 30 인 경우

2. n ≤ 30 인 경우

* 표본표준편차를 사용할 경우

통계량 T는 표준정규분포 N(0,1)가 아닌 자유도 n-1인 t-분포를 따른다.

(단, n이 30보다 크면 근사적으로 N(0,1) 사용)

'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글

빅데이터 탐색 - 데이터탐색(데이터탐색/상관계수) (0)	2024.04.01
빅데이터 탐색 - 통계기법이해(가설검정) (0)	2024.04.01
빅데이터 탐색 - 통계기법이해(포아송분포/정규분포/균일분포/표본분포) (4)	2024.04.01
빅데이터 탐색 - 통계기법이해(확률변수/이산확률분포/베르누이실행) (0)	2024.03.31
빅데이터 탐색 - 통계기법이해(사건/확률/베이즈정리) (0)	2024.03.31

현재글빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

인동머스크

" 우리에게는 존재하지 않는 것들을 꿈꿀 수 있는 사람들이 필요하다. " (ADsP / 빅데이터분석기사 / SQLD) https://github.com/Indongspace

프로그래머스, 오블완, 티스토리챌린지, 카일스쿨, 통계기초, 데이터자격검정, 메타코드, leetcode, mysql, 빅분기, 코딩테스트, 태블로, 시각화, vizlab, tableau, 인프런, 빅데이터분석기사, ADsP, hackerrank, 복습,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

인동머스크

빅데이터 탐색 - 통계기법이해(중심극한정리/추정)

중심극한정리(Central Limit Theorem, CLT)