- 개요: 통계학 기반 시계열 예측 모델의 이론과 실습을 통해 알아보자, 특히 ARIMA모델 사용법을 익혀보자
- 강좌: [K-MOOC강의] 시계열분석 기법과 응용, http://www.kmooc.kr/courses/course-v1:POSTECHk+IMEN677+2020_2/video
- ARIMA 모형을 이용한 비정상적 시계열 예측 Part2
목차
1 | Week1. 시계열 평활기법 |
Week1. 시계열 평활기법
강좌소개:
- 수평적 패턴, 추세 패턴, 계절성이 포함된 패턴 -> 시계열
이동평균법과 이중 이동평균법
시계열 분석
- 하나의 변수에 대한 시간에 따른 관측치를 시계열 또는 시계열 데이터라함
- 시계열 분석의 목적
: 시계열의 특성(추세, 계절성 등)을 요약하고 시간에 따른 패턴(자기 상관성 등)분석
: 시간에 따른 패턴을 바탕으로 모형화하고 미래값을 예측 - 회귀모형과 달리 다른 변수를 도입하지 않고 자신의 변수의 과거 패턴이 미래에도 계속된다는 가정하에
과거값을 바탕으로 미래값 예측 - 시계열 패턴은 수평/추세/계절성이 복합된 것으로 간주
시계열 분석 개요
- 평활화 모형: 이동평균, 지수평활, 원터스 모형, 분해법
- 정상적 ARMA 모형: AR모형, MA모형, ARMA 모형
- 비정상적 모형: ARIMA 모형, 계절성 ARIMA 모형
- 오차 이분산 모형: ARCH모형, GARCH 모형
- 다변량 시계열: 벡터회귀 모형(VAR)
- 상태공간모형
이동 평균법
- 이동편균(Moveing Averatge): 매 시점에서 직전 N개 데이터의 평균을 산출하여 평활치로 사용
- 단순 이동 평균: 시계열 데이터가 수평적 패턴인 경우
- 이중 이동평균: 추세 패턴을 따르는 경우 사용
단순 이동 평균법
- 시계열 데이터가 수평적 패턴인 경우 사용
- 시점 t+1에서의 이동평균(산술평균)
- 시점 T에서 시점T+1의 값 예측(한 단계이후 예측)
- N 클수록 평활 효과가 큼 (N이 작으면 최근 추세 반영, 크면 평평해지는 효과 큼)
이중 이동 평균법
- 시계열이 선형 추세를 갖는다고 가정하자: Xt = c + bt + at
단순 이동편균 추세는 늦게 따라감(gap이 생김)
이를 보정하기 위해 이중 이동평균을 활용 - 이중 이동 평균: 이동선이 여러 변수의 영향을 받으면 그 변수만큼 데이터 확보가 필요…?
예측성능 척도
- 예측오차: 특정 시점에서 다음 시점을 예측하고 다음 시점의 실제값과 비교하여 예측 오차를 산출
Et,1 = Xt+1 - Ft,1
- 평균제곱오차(MSE), 제곱근 평균제곱오차(RMSE-기본단위와 같음), 평균절대오차(MAD), 평균절대 퍼센트오차(MAPE)
지수평활법과 이중 지수평활법
지수평활법과 이중 지수평활법과
- 지수평활법(Exponential Smoothing) : 평활치를 구하는데 전체 데이터를 사용, 시간에 따른 다른 가중치를 줌, 과거로 갈수록 지수적으로 감소하는 가중치 사용
단순 지수평활: 시계열 데이터가 수평적인 패턴인 경우
이중 지수평활: 추세패턴을 따르는 경우
홀트 모형(Holt`s Model) 추세패턴을 따라는 경우
단순 지수평활법
- 시계열 데이터가 수평적 패턴인 경우
- St = Axt + a(1-a)Xt-1 + a(a-a)^2Xt-2 …
- 시점 t+1에서 지수평활치: St+1 = Axt+1 + (1-a)St
- 평홯상수 (0<aa)작을수록 평활효과가 큼
- 최근 추세를 반영하여 예측코자 하면 큰 a를 사용하고 저네 평균으로 예측코자 하면 작은 a를 사용
이중 지수평활법
- 시계열 데이터가 추세 패턴을 따르는 경우
- 단순 지수평활치의 기대치와 시계열 기대치간에는 격차가 존재
: 이를 보정하기 위해 이중 지수평활을 활용
: St(2) = aSt + (1-a)S(2)t-1
홀트 및 윈터스 모형
- 추세와 계절성을 고려한 지수 평활 모형
계절성 고려 모형
- 추세와 계절성이 있는 시계열에 적용
- 윈터스(Winters) 모형: 홀트 모형에 계절성(seansonality)를 추가 반영하여 확장, 가법모형과 승법모형이 있음
- 분해법(Decomposition): 추세와 계절성을 분해한 후 예측시 다시 결합, 가법모형과 승법모형이 있음
윈터스 모형
- 홀트 모형에 계절성(분기/월별 변형 및 주기성을 띄는..)을 추가반영하여 확장시킴
- 가법모형(더해지는) 승법(곱해지는)모형
분해법
- 가법적 모형: Xt = Bt + St + … = 0
- 승법적 모형: Xt = Bt X St X … = m
- 분해법에 의한 예측 절차
중심 이동 평균으로 평활치를 산출
추세 제거
계절성 지수 산출
계절성 제거 시계열 산출
회귀모형으로 추세 추정
추세 및 계절성 지수 결합하여 예측치 산출
분해법(승법적 모형)
Week2. ARMA 모형
정상적 시계열분석
- 정상성의 조건, 자기상관함수
정상적 시계열
- 실제 시계열은 추세,계절성을 포함하는 비정상적 것이 많으나, 우선 정상적 시계얼의 성질을 알아본다.
- 비정상적 시계열은 적절한 변환을 통해 정상적 시계열로 바꿀수 있다.
- 강 정상성: 시계열에 대해 동일한 결합확률분포를 가질때 정상성을 갖는 시계열이라고 함.
기대치가 시간에 따라 일정, 분산이 일정, 자기공분산 또는 자기상관계수가 시간간격에만 의존
- 약 정상성: 시계열의 기대치가 시간에 따라 일정하고, 임의의 두 시점 자기공분산이 시간간격에만 의존 유한할 때 약저상성
결합확률본포가 다변량 정규분포를 따를때, 시계열분석에서는 약 정상성을 가정함
자기상관함수
- 자기 공분산: 시계열의 시간에 따른 연관 패턴을 자기공분산으로 요약
- 시차 K의 자기공분산
자기상관함수(ACF)
- autocorrelation Function(ACF)
- 시차 K의 자기상관계수: p(k) = Corr[Zt,Zt-k] = Cov[Z,Zt-k]/VAR[Zt] = r(k)/r(0)
- 비교적 단순한 형태의 정상적 시계열 모형을 주로 다루며 ACF로 모형을 식별함
정상적 시계열
- 편자기상관함수(PACF), AR 표현방식과 MA 표현방식
편자기상관함수(PACF, Partial)
- 정상적 시계열의 형태를 식별하는데, ACF외에 PACF정보를 활용함
- PACF란 시차가 K인 두 값들 간의 상관계수가 중간 시점들의 값들이 이미 설명한 이후 추가적인 영향만을 고려하여 고안
시계열 표현방식
- 자기회귀(AR: autoregressive) 표현방식
: 시점 t의 값(Zt)을 과거 시점의 값들을 이용한 회귀식으로 표현 - 자기회귀 과정
- 자기회귀(AR: autoregressive) 표현방식
- 이동평균(MA: Moving average) 표현방식
: 시점t의 값(Zt)를 현재와 과거시점의 백색잡음으로 표현 - 이동평균 과정이라고도 함
- 이동평균(MA: Moving average) 표현방식
후향 연산자 사용: Zt-k = B^k Zt, k = 1,2,…
AR모형 및 MA모형의 표현 및 설질 규명
ARMA 모형
- AR모형: AR표현방식이며 유한 시차로 구성, AR(1)은 시차 1변수 포함
- MA모형: MA표현방식이며 유한 시차로 구성, MA(1) 시차1의 백색잡음 포함
- ARMA모형: AR/MA 방식이 결합된 형태, ARMA(1,1)은 시차1의 변수와 시차1의 백색잡음 포함
AR모형
- AR(1) 모형: 가장 단순한 상태
: Zt = Theta Zt-1 + At - AR(2) 모형: 시차 2변수까지 포함
- AR(p) 모형: 시차 p의 변수까지 포함
MA모형
- MA(1): 시차1의 백색잡음 포함,
ARMA 모형의 표현과 성질 이해
ARMA 모형
- ARMA(1,1) : AR(1)과 MA(1)의 복합형태
- 시점 t 값은 시점 t-1의 값… 그리고 시점 t와 t-1의 오차항으로 생성된다.
ARMA(p,q) 모형: 시차 P까지 변수와 시차 q까지 오차항을 포함
ARMA(1,1) 모형의 ACF: 지수적으로 감소하는 패턴
ARMA(1,1) 모형의 PACF: 지수적으로 감소하는 패턴
ACF,PACF 분석
- ACF
: p>=q +1 일때, ACF는 AR(p)모형과 유사하게 0으로 떨어진다.
: p<q일때, 처음 p-q값은 별개의 값을 갖고 이후 AR(p)모형과 유사하게 0으로 떨어진다. - PACF
: p>q+1 일때는, PACF는 처음 p-q값은 별개의 값을 갖고, 이후 MA(q)모형과 유사하게 0으로 떨어진다.
: p<=q 일때, 처음부터 MA(q)모형과 유사하게 0으로 떨어진다.
Week3. ARMA 모형의 식별 및 예측
ARMA 모형의 식별
- 시차 판정
ARMA 모형의 식별
- 1단계: 시계열 그래프->정상성 여부 판정->비정상성은 추세제거/계절성제거/분산안정화등 통해 정상시계열 변환
- 2단계: 시계열 데이터에 대한 표본 ACF/PACF를 산출하고 정상성 여부 확인(비정상인경우 1단계 반복)
- 3단계: (모형의 식별) 표본 ACF및 표본 PACF를 다양한 ARMA모형의 이론적 ACF및 PACF 비교하여 ARMA모형의 p,q를 구한다.
- 4단계: (모형의 추정) 3단계에서 얻은 모형에 대한 계수들을 추정하고 잔차(residual)를 구한다.
- 5단계: (모형의 검증) 잔차가 백삭잡음을 따르는지 검정한다. 잔차가 백색잡음을 따르면 단계3의 모형이 제대로 식별되었으며, 아니면 다를 차수 p,q를 구한후 과정 반복
표본 ACF 및 표본 PACF
- 표본 ACF 산출(단계 2)
: 표본 분산 = 1/n 시그마 (Zi-Zbar)^2
: 시차 K 표본자기공분산
: 표본 ACF = 표본자기공분산/표본분산 - 표준오차 …
- 표본 ACF 산출(단계 2)
- 표본 PACF 산출
- 시차별 PACF는 ACF로 표현되므로 ACF를 추정하여 표본 PACF를 구한다.
ARMA 모형의 이론적 ACF와 PACF 패턴
- 정상적 시계열의 이론적 ACF/PACF와 모형의 실제 시계열 표본 ACF/PACF와 비교
ARMA모형의 파라미터 추정을 위한 최우추정법
시계열 모형 추정방법
- 최소자승법: AR모형의 경우 가능
- 비선형 최소자승법: ARMA모형에 적용
- 최우 추정법(maximum likeihood estimation)
: 오차항이 서로 독립인 정규분포를 따르므로 우도함수(likeihood function)을 유도하여 이를 최대로 하는 모형개수를 추정.
: ARMA모형의 경우 정확한 우도함수 도출이 어렵고 초기치에 대한 가정이 필요
: 조건있는 우도함수-임의로 초기치를 가정하여 사용
: 조건없는 우도함수: 과거의 초기치를 후방예측(backcasting)하여 사용
최우추정법
- ARMA모형의 경우 관측치가 독립이 아니므로, 우도함수 구성어려움
- 대신 백색잡음이 서로 독립임을 활용하여 우도함수를 구함
조건있는 우도함수
- ARMA(p,q)모형에서 산출, 백색잡음을 최소화하는..
- 조건제곱합…
조건없는 우도함수
- 과거값 예측에 후방예측 사용, 시간축을 반대방향으로 생각
ARMA모형의 추정
- 추정치>표준오차>t-value, p-value 확인
ARMA모형의 검증
- 모형의 오차항이 평균0, O^2의 정규분포를 따르는 백색잡음이라 가정하고 있기때문에, 이에 대한 검증이 필요
- 잔차에 대하여 다음을 확인
: 정규성(정규확률도표)
: 등분산성 및 패턴유무(잔차 산점도)
: 랜덤성(ACF/PACF로 시차별 상관계수가 모두 0인지 확인, 포트만토 검정…)
최소평균오차 기반의 ARMA 모형 예측치 유도
시계열 예측
- 최소 평균제곱오차 예측치: Fn,k = 시점 n에서 K시점 이후(즉, n+k시점) 시계열 예측치
- 과거 시계열 관측치의 선형결합으로 예측
- 평균제곱오차(MSE): 미래의 실제값과 예측값의 차이의 제곱을 최소화(조건부 기대치와 동일)
- 예측오차: K시점 이후 예측오차 분산은 조건부 분산과 동일
ARMA모형 예측
- 예측식: 시점 n까지의 과거데이터로부터 매리 시점 예측은 조건부 기대치 사용
- 예측오차 분산: 예측구간이 필요한 경우 사용
Week4. 비정상적 시계열
비정상적 시계열 모형화를 위한 ARIMA모형
비정상 시계열
- 추세, 계절성이 포함되는 경우 정상성을 만족하지 못한다.
- 비정상적 판단방법: 시계열 그래프 시각적 판단, ACF가 시차에 대해 매우 서서비 감소하는 패턴, 단위근 검정(단위근이 존재하면 비정상적 시계열)
- 대응방안: 차분을 통해 정상적 시계열로 변환, 함수변환 통해 분산 안정화, 분해법으로 추세및 계절성 제거
ARIMA 모형
- 차분: 1차 차분: 인근한 두 값의 차이를 산출, 2추차분-1차차분에 추가로 차분을 적용…
- 차수 d 누적 시계열: d차 차분후 시계열이 정상적일때, 원 시계열을 차수 d 누적 시계열 I(d)로 표기
- ARIMA 모형 정의
: 차수 d 누적시계열, d차분후 시계열이 처음으로 정상적일때, 원 시계열을 차수 d 누적시계열이라고 하고 I(d)로 표기
: 원시계열(ZtARIMA(p,d,q)) -> d차 차분 -> 차분시계열(WtARMA(p,q))
계절성을 반영한 ARIMA 모형의 이해
계절성 시계열
- 추세는 차분으로 제거될수 있으나 계절성은 여전히 남아있을수 있다.
- 계절성은 별도로 처리필요
- 일반적으로 시계열은 비계절성 ARIMA모형과 계절성 ARIMA모형이 복합된 형태이다.
계절성 ARIMA 모형
- 계절성 차분: 계절성 주기 S (월별 S=12, 분기별 S=4)
- 계절성이 있는 경우 단순(비계절성) 차분으로 정상화 되지 않음
- 1차 계절성 차분: 인근한 두 계절 값의 차이를 산출
- 계절성 ARIMA 모형의 유도 예측
: 주기 S=12 갖는 추세없는 월별 시계열 고려
: 매년 1월 데이터들만 볼때 MA(1) 모형을 따른다고 하자
: 인글월의 오차항간에 상관관계가 있으므로 새로운 모형이 필요
: 이 모형은 비계절성 MA(1)과 계절성 MA(1)이 결합된 형태 ARMA(0,1)X(0,1)12
또는 ARIMA(0,0,1) X (0,0,1)12라고 함표기: 계절성 ARIMA(p,d,q) X (P,D,Q)s
모형의 식별 및 추정
- (단계1) 시계열도를 그려보고 추세 및 계절성 존재여부를 판단
- (단계2) 아래 사항 고려 적절히 차분
: 추세는 없고 계절성이 있는 경우, 해당 주기에 대한 계절성 차분
: 추세가 있고 뚜렷한 계절성이 없는 경우, 선형추세가 있는 경우, 1차차분, 곡선형태의 추세가 있는 경우 차분전에 함수변환 시도
: 추세와 계절성이 있는 경우, 우선 계절성 차분을 실시하고 추세를 다시 검토, 추세가 여전히 남아있는 경우 1차 차분 추가 실시하고 - (단계3) 차분 시계열에 대한 AFC와 PACF를 바탕으로, p,q, P,Q를 결정
: 비계절성 계수인 p,q는 ARMA모형의 경우와 동일한 요령으로 결정
: 계절성 계수 P,Q는 주기의 배수에 나타나는 ACF와 PACF의 패턴을 보고 결정 - (단계4) 모형 파라미터 추정방법
- (단계5) 잔차 검정 실시
- ACF산출 예
차분 시계열 산출, 분산, 자기 공분산 계산, ACF 계산
비정상 검정을 위한 단위근 검증
단위근 검정
- 단위근 검정은 통계적 검정을 통해 시계열의 정상성 여부를 판정
: 대표적인 단위근 검정은 ADF(augmented Dickey-Fuller) 검정
: 모든 정상적 시계열은 고차원의 AR모형으로 근사될수 있다고 가정
단위근 풀이 및 예
- 생략…