다변량 분석
주성분 분석(PCA, Principle Component Analysis)
- 다수의 변수를 소수의 변수로 줄여준다(단, 해석은 어려움) -> 서로 상관성이 높은 변수들의 선형 결합을 통해
- 소수의 변수는 서로 상관성이 없음(서로독립, 상관계수=0, 다중공선성 존재X)
- 각 변수들의 분산값 총합을 총 변동이라고 하며, 각 주성분들마다 기여하는 정도를 기여율이라고 함
-> 누적 기여율이 85%가 넘어갈 때의 주성분 수를 결정함(첫 번째 주성분이 제일 기여율 높음)
스크리 산점도(Scree plot)
- 주성분 분석에서는 기울기가 급격히 변하는 곳에서 -1을 한다
- 3에서 기울기가 급격히 변하므로 적절한 주성분의 수는 3-1=2이다(2개의 변수만 선택, PC1과 PC2)
시계열 분석
1. 정상성(Stationary)
- 시점에 상관없이 시계열의 특성이 일정해야함
- 비정상 시계열은 특정 기간의 시계열을 다른 기간으로 일반화 X, 정상시계열로 만들어야 함
a. 평균 일정(시점의존 X), 그렇지 않으면 차분을 통해 정상화
b. 분산 일정(시점의존 X), 그렇지 않으면 변환을 통해 정상화
c. 공분산 시차에만 의존(시점의존 X)
2. 시계열 모형
- 자기회귀, AR(p) : 자기 자신의 과거 관측값이 영향을 줌
- 이동평균, MA(q) : 자기 자신의 과거 오차항이 영향을 줌(항상 정상성 만족)
- 자기회귀누적이동평균, ARIMA(p,d,q) : 기본적으로 비정상 시계열 모형이나, d=0이면 정상성 만족(d=차분횟수), 잔차(백색잡음) 독립성
3. 분해시계열 : 시계열에 영향을 주는 요인을 분리
- 추세(장기변동) : 오르락 내리락 트렌드
- 계절(단기변동) : 일정 기간에 따라 변함, 사계절 등
- 순환(중장기변동) : 잘 알려지지 않은 자연적인 현상으로 변함
- 불규칙(설명불가) : 위 3가지로 설명 불가함
시계열 데이터를 분석하기 위한 절차
시간 그래프를 그린다 -> 추세와 계절성 확인 및 제거 -> 잔차를 예측하기 -> 잔차에 대한 모델 적합 -> 예측된 잔차에 추세와 계절성을 더해 미래를 예측
#ARIMA(p,d,q) 모형 추가 설명
- 과거의 관측값과 효과를 사용하여 현재의 시계열 값을 설명하는 ARMA모형을 일반화한 것
- 분기, 반기, 연간 단위로 다음 자료를 예측하거나 추세에 이상치가 없는지 모니터링 가능
- 다소 비정상적인 시계열의 특성이 있어도 모델 예측이 가능하다
- 추정된 백색잡음들이 통계적으로 독립함이 있는 모형
'[데이터자격시험용-필수요약정리]' 카테고리의 다른 글
빅데이터 결과해석 - 분석모형평가(회귀성능) (1) | 2024.03.23 |
---|---|
빅데이터 모델링 - 분석기법적용(비모수통계) (0) | 2024.03.17 |
빅데이터 모델링 - 분석기법적용 (연관분석) (0) | 2024.03.17 |
빅데이터 모델링 - 분석기법적용 (군집분석) (0) | 2024.03.17 |
빅데이터 모델링 - 분석기법적용 (인공신경망/딥러닝 함수) (0) | 2024.03.17 |