1. 통계
통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룬다.
(The art and science of learning from data)
- Design(설계/계획)
- Description(요약) : 데이터를 요약 표현하기 위한 시각적(Graphical), 수치적(numerical) 방법
- Inference(추론) : 표본에 기반한 모집단에 대한 추론/예측
모집단(Population) : 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합
모수(Parameter) : 모집단에 대한 수치적 요약
- 고등학생의 1일 평균 온라인게임 플레이시간
- 강아지보다 고양이를 좋아하는 성인의 비율
표본(Sample) : 모집단을 적절히 대표하는 모집단의 일부
통계량(Statistic) : 표본에 대한 수치적 요약
- 고등학생 1000명의 1일 평균 온라인게임 플레이시간
- 강아지보다 고양이를 좋아하는 성인의 비율(1000명)
sample statistic -> population parameter !
2. 자료의 종류
1. 범주형 자료 : 속성의 범주화, 상대적 서열도 표현
- 명목형 자료 : 단순히 속성을 분류하기 위함(혈액형)
- 순서형 자료 : 상대적인 크기 비교(만족도, 최종학력)
2. 양적 자료 : 자료 자체가 숫자로 표현됨
- 이산형 자료 : 셀 수 있음(빈도수, 불량품의 수)
- 연속형 자료 : 셀 수 없음(길이, 시간)
3. 통계량 - 중심
1. 최빈값(mode)
- 발생빈도가 가장 높은 값
- 극단값에 영향을 받지 않음
- 주로 범주형 자료에 대한 대표값
- 2개 이상 존재 가능
사이즈 | 수량 |
S | 5 |
M | 25 |
L | 10 |
XL | 0 |
2. 중앙값(median)
- 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
- 관측값 변화에 민감하지 않음
- 극단값에 영향을 받지 않음
3. 산술평균(Arithmetic Mean)
- 모든 자료의 값을 더하여 자료의 수로 나누어 준 값
- 모든 값을 반영하므로 극단값에 영향을 받음
4. 가중평균(Weighted Mean)
- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
5. 기하평균(Geometric Mean)
- 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량
- 음수가 아닌 자료값 only
- 연간 물가 상승률
Ex) 일일 주가 상승률 : 1% 3% 5% 10% -> 1.0374...
통계량 - 산포
1. 분산(Variance)
- 편차 제곱의 합을 자료의 수로 나눈 값
2. 표준편차(Standard Deviation)
- 분산을 제곱근한 값
통계량 - 형태
1. 왜도(Skewness)
- 분포의 비대칭도
2. 첨도(Kurtosis)
- 뾰족한 정도
- 표준정규분포의 첨도는 3이 된다.
통계량 - 상관
1. 상관(Correlation)
- 확률변수 X, Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함
- 선형적 관련성을 파악함
2. 공분산(Covariance)
3. 상관계수(Correlation Coefficient)
- 공분산을 두 변수의 표준편차의 곱으로 나눈 값
- -1 <= r <= 1
- 두 양적 변수 간의 선형적 연관성의 강도 측정
- 단위가 없음
- 절댓값이 1에 가까울 수록 연관성의 강도가 높다
강의는 통계수학 기초에 관한 내용을 다루고 있으며, 강의를 복습하기 위해 블로그에 다시 한 번 요약정리 하고 있다.
강의에서는 더욱 자세한 내용 설명과 예제를 통한 수학적 증명을 설명해주고 있으니, 통계수학에 대한 공부를 하고 싶은 사람은 꼭 이 강의를 수강하길 강추한다.
공부내용 :
'[통계학]' 카테고리의 다른 글
통계검정 - 가설 / 오류 / 요소 / 절차 / 양측검정 / 단측검정 / 모평균검정 (1) | 2024.10.21 |
---|---|
통계적 추정 - 통계적 추정의 정의와 기준 / 점추정 / 구간추정 / 모분산 아는경우 / 모분산 모르는 경우 (0) | 2024.10.21 |
연속확률분포 - Uniform Distribution / 정규분포 / 표본분포 / 중심극한정리 / 카이제곱분포 / t분포 및 F분포 (0) | 2024.10.20 |
이산확률분포 - 이항분포 / 포아송분포 (0) | 2024.10.20 |
확률과 확률변수 - 확률의 정의 / 조건부확률 / 독립과종속 / 베이즈정리 / 확률변수 / 이산확률변수 / 연속확률변수 / 기대값 / 분산과 표준편차 / 공분산과 상관계수 (0) | 2024.10.20 |