시계열 분석(통계분석 기법)-Part1

AR/MA, ARIMA 모형을 이용한 비정상적 시계열 예측

Posted by 옐란 on 2021-04-12

목차

1
2
3
4
Week1. 시계열 평활기법
Week2. ARMA 모형
Week3. ARMA 모형의 식별 및 예측
Week4. 비정상적 시계열

Week1. 시계열 평활기법

강좌소개:

  • 수평적 패턴, 추세 패턴, 계절성이 포함된 패턴 -> 시계열

이동평균법과 이중 이동평균법

시계열 분석

  • 하나의 변수에 대한 시간에 따른 관측치를 시계열 또는 시계열 데이터라함
  • 시계열 분석의 목적
    : 시계열의 특성(추세, 계절성 등)을 요약하고 시간에 따른 패턴(자기 상관성 등)분석
    : 시간에 따른 패턴을 바탕으로 모형화하고 미래값을 예측
  • 회귀모형과 달리 다른 변수를 도입하지 않고 자신의 변수의 과거 패턴이 미래에도 계속된다는 가정하에
    과거값을 바탕으로 미래값 예측
  • 시계열 패턴은 수평/추세/계절성이 복합된 것으로 간주

시계열 분석 개요

  • 평활화 모형: 이동평균, 지수평활, 원터스 모형, 분해법
  • 정상적 ARMA 모형: AR모형, MA모형, ARMA 모형
  • 비정상적 모형: ARIMA 모형, 계절성 ARIMA 모형
  • 오차 이분산 모형: ARCH모형, GARCH 모형
  • 다변량 시계열: 벡터회귀 모형(VAR)
  • 상태공간모형

이동 평균법

  • 이동편균(Moveing Averatge): 매 시점에서 직전 N개 데이터의 평균을 산출하여 평활치로 사용
  • 단순 이동 평균: 시계열 데이터가 수평적 패턴인 경우
  • 이중 이동평균: 추세 패턴을 따르는 경우 사용

단순 이동 평균법

  • 시계열 데이터가 수평적 패턴인 경우 사용
  • 시점 t+1에서의 이동평균(산술평균)
  • 시점 T에서 시점T+1의 값 예측(한 단계이후 예측)
  • N 클수록 평활 효과가 큼 (N이 작으면 최근 추세 반영, 크면 평평해지는 효과 큼)

이중 이동 평균법

  • 시계열이 선형 추세를 갖는다고 가정하자: Xt = c + bt + at

    단순 이동편균 추세는 늦게 따라감(gap이 생김)
    이를 보정하기 위해 이중 이동평균을 활용

  • 이중 이동 평균: 이동선이 여러 변수의 영향을 받으면 그 변수만큼 데이터 확보가 필요…?

예측성능 척도

  • 예측오차: 특정 시점에서 다음 시점을 예측하고 다음 시점의 실제값과 비교하여 예측 오차를 산출

    Et,1 = Xt+1 - Ft,1

  • 평균제곱오차(MSE), 제곱근 평균제곱오차(RMSE-기본단위와 같음), 평균절대오차(MAD), 평균절대 퍼센트오차(MAPE)

지수평활법과 이중 지수평활법

지수평활법과 이중 지수평활법과

  • 지수평활법(Exponential Smoothing) : 평활치를 구하는데 전체 데이터를 사용, 시간에 따른 다른 가중치를 줌, 과거로 갈수록 지수적으로 감소하는 가중치 사용

    단순 지수평활: 시계열 데이터가 수평적인 패턴인 경우
    이중 지수평활: 추세패턴을 따르는 경우
    홀트 모형(Holt`s Model) 추세패턴을 따라는 경우

단순 지수평활법

  • 시계열 데이터가 수평적 패턴인 경우
  • St = Axt + a(1-a)Xt-1 + a(a-a)^2Xt-2 …
  • 시점 t+1에서 지수평활치: St+1 = Axt+1 + (1-a)St
  • 평홯상수 (0<aa)작을수록 평활효과가 큼
  • 최근 추세를 반영하여 예측코자 하면 큰 a를 사용하고 저네 평균으로 예측코자 하면 작은 a를 사용

이중 지수평활법

  • 시계열 데이터가 추세 패턴을 따르는 경우
  • 단순 지수평활치의 기대치와 시계열 기대치간에는 격차가 존재
    : 이를 보정하기 위해 이중 지수평활을 활용
    : St(2) = aSt + (1-a)S(2)t-1

홀트 및 윈터스 모형

  • 추세와 계절성을 고려한 지수 평활 모형

계절성 고려 모형

  • 추세와 계절성이 있는 시계열에 적용
  • 윈터스(Winters) 모형: 홀트 모형에 계절성(seansonality)를 추가 반영하여 확장, 가법모형과 승법모형이 있음
  • 분해법(Decomposition): 추세와 계절성을 분해한 후 예측시 다시 결합, 가법모형과 승법모형이 있음

윈터스 모형

  • 홀트 모형에 계절성(분기/월별 변형 및 주기성을 띄는..)을 추가반영하여 확장시킴
  • 가법모형(더해지는) 승법(곱해지는)모형

분해법

  • 가법적 모형: Xt = Bt + St + … = 0
  • 승법적 모형: Xt = Bt X St X … = m
  • 분해법에 의한 예측 절차

    중심 이동 평균으로 평활치를 산출
    추세 제거
    계절성 지수 산출
    계절성 제거 시계열 산출
    회귀모형으로 추세 추정
    추세 및 계절성 지수 결합하여 예측치 산출

분해법(승법적 모형)


Week2. ARMA 모형

정상적 시계열분석

  • 정상성의 조건, 자기상관함수

정상적 시계열

  • 실제 시계열은 추세,계절성을 포함하는 비정상적 것이 많으나, 우선 정상적 시계얼의 성질을 알아본다.
  • 비정상적 시계열은 적절한 변환을 통해 정상적 시계열로 바꿀수 있다.
  • 강 정상성: 시계열에 대해 동일한 결합확률분포를 가질때 정상성을 갖는 시계열이라고 함.

    기대치가 시간에 따라 일정, 분산이 일정, 자기공분산 또는 자기상관계수가 시간간격에만 의존

  • 약 정상성: 시계열의 기대치가 시간에 따라 일정하고, 임의의 두 시점 자기공분산이 시간간격에만 의존 유한할 때 약저상성

    결합확률본포가 다변량 정규분포를 따를때, 시계열분석에서는 약 정상성을 가정함

자기상관함수

  • 자기 공분산: 시계열의 시간에 따른 연관 패턴을 자기공분산으로 요약
  • 시차 K의 자기공분산

자기상관함수(ACF)

  • autocorrelation Function(ACF)
  • 시차 K의 자기상관계수: p(k) = Corr[Zt,Zt-k] = Cov[Z,Zt-k]/VAR[Zt] = r(k)/r(0)
  • 비교적 단순한 형태의 정상적 시계열 모형을 주로 다루며 ACF로 모형을 식별함

정상적 시계열

  • 편자기상관함수(PACF), AR 표현방식과 MA 표현방식

편자기상관함수(PACF, Partial)

  • 정상적 시계열의 형태를 식별하는데, ACF외에 PACF정보를 활용함
  • PACF란 시차가 K인 두 값들 간의 상관계수가 중간 시점들의 값들이 이미 설명한 이후 추가적인 영향만을 고려하여 고안

시계열 표현방식

  • 자기회귀(AR: autoregressive) 표현방식
    : 시점 t의 값(Zt)을 과거 시점의 값들을 이용한 회귀식으로 표현
    자기회귀 과정
  • 이동평균(MA: Moving average) 표현방식
    : 시점t의 값(Zt)를 현재와 과거시점의 백색잡음으로 표현
    이동평균 과정이라고도 함
  • 후향 연산자 사용: Zt-k = B^k Zt, k = 1,2,…

AR모형 및 MA모형의 표현 및 설질 규명

ARMA 모형

  • AR모형: AR표현방식이며 유한 시차로 구성, AR(1)은 시차 1변수 포함
  • MA모형: MA표현방식이며 유한 시차로 구성, MA(1) 시차1의 백색잡음 포함
  • ARMA모형: AR/MA 방식이 결합된 형태, ARMA(1,1)은 시차1의 변수와 시차1의 백색잡음 포함

AR모형

  • AR(1) 모형: 가장 단순한 상태
    : Zt = Theta Zt-1 + At
  • AR(2) 모형: 시차 2변수까지 포함
  • AR(p) 모형: 시차 p의 변수까지 포함

MA모형

  • MA(1): 시차1의 백색잡음 포함,

ARMA 모형의 표현과 성질 이해

ARMA 모형

  • ARMA(1,1) : AR(1)과 MA(1)의 복합형태
    시점 t 값은 시점 t-1의 값… 그리고 시점 t와 t-1의 오차항으로 생성된다.
  • ARMA(p,q) 모형: 시차 P까지 변수와 시차 q까지 오차항을 포함

  • ARMA(1,1) 모형의 ACF: 지수적으로 감소하는 패턴

  • ARMA(1,1) 모형의 PACF: 지수적으로 감소하는 패턴

ACF,PACF 분석

  • ACF
    : p>=q +1 일때, ACF는 AR(p)모형과 유사하게 0으로 떨어진다.
    : p<q일때, 처음 p-q값은 별개의 값을 갖고 이후 AR(p)모형과 유사하게 0으로 떨어진다.
  • PACF
    : p>q+1 일때는, PACF는 처음 p-q값은 별개의 값을 갖고, 이후 MA(q)모형과 유사하게 0으로 떨어진다.
    : p<=q 일때, 처음부터 MA(q)모형과 유사하게 0으로 떨어진다.

Week3. ARMA 모형의 식별 및 예측

ARMA 모형의 식별

  • 시차 판정

ARMA 모형의 식별

  • 1단계: 시계열 그래프->정상성 여부 판정->비정상성은 추세제거/계절성제거/분산안정화등 통해 정상시계열 변환
  • 2단계: 시계열 데이터에 대한 표본 ACF/PACF를 산출하고 정상성 여부 확인(비정상인경우 1단계 반복)
  • 3단계: (모형의 식별) 표본 ACF및 표본 PACF를 다양한 ARMA모형의 이론적 ACF및 PACF 비교하여 ARMA모형의 p,q를 구한다.
  • 4단계: (모형의 추정) 3단계에서 얻은 모형에 대한 계수들을 추정하고 잔차(residual)를 구한다.
  • 5단계: (모형의 검증) 잔차가 백삭잡음을 따르는지 검정한다. 잔차가 백색잡음을 따르면 단계3의 모형이 제대로 식별되었으며, 아니면 다를 차수 p,q를 구한후 과정 반복

표본 ACF 및 표본 PACF

  • 표본 ACF 산출(단계 2)
    : 표본 분산 = 1/n 시그마 (Zi-Zbar)^2
    : 시차 K 표본자기공분산
    : 표본 ACF = 표본자기공분산/표본분산
    표준오차 …
  • 표본 PACF 산출
    시차별 PACF는 ACF로 표현되므로 ACF를 추정하여 표본 PACF를 구한다.

ARMA 모형의 이론적 ACF와 PACF 패턴

  • 정상적 시계열의 이론적 ACF/PACF와 모형의 실제 시계열 표본 ACF/PACF와 비교

ARMA모형의 파라미터 추정을 위한 최우추정법

시계열 모형 추정방법

  • 최소자승법: AR모형의 경우 가능
  • 비선형 최소자승법: ARMA모형에 적용
  • 최우 추정법(maximum likeihood estimation)
    : 오차항이 서로 독립인 정규분포를 따르므로 우도함수(likeihood function)을 유도하여 이를 최대로 하는 모형개수를 추정.
    : ARMA모형의 경우 정확한 우도함수 도출이 어렵고 초기치에 대한 가정이 필요
    : 조건있는 우도함수-임의로 초기치를 가정하여 사용
    : 조건없는 우도함수: 과거의 초기치를 후방예측(backcasting)하여 사용

최우추정법

  • ARMA모형의 경우 관측치가 독립이 아니므로, 우도함수 구성어려움
  • 대신 백색잡음이 서로 독립임을 활용하여 우도함수를 구함

조건있는 우도함수

  • ARMA(p,q)모형에서 산출, 백색잡음을 최소화하는..
  • 조건제곱합…

조건없는 우도함수

  • 과거값 예측에 후방예측 사용, 시간축을 반대방향으로 생각

ARMA모형의 추정

  • 추정치>표준오차>t-value, p-value 확인

ARMA모형의 검증

  • 모형의 오차항이 평균0, O^2의 정규분포를 따르는 백색잡음이라 가정하고 있기때문에, 이에 대한 검증이 필요
  • 잔차에 대하여 다음을 확인
    : 정규성(정규확률도표)
    : 등분산성 및 패턴유무(잔차 산점도)
    : 랜덤성(ACF/PACF로 시차별 상관계수가 모두 0인지 확인, 포트만토 검정…)

최소평균오차 기반의 ARMA 모형 예측치 유도

시계열 예측

  • 최소 평균제곱오차 예측치: Fn,k = 시점 n에서 K시점 이후(즉, n+k시점) 시계열 예측치
  • 과거 시계열 관측치의 선형결합으로 예측
  • 평균제곱오차(MSE): 미래의 실제값과 예측값의 차이의 제곱을 최소화(조건부 기대치와 동일)
  • 예측오차: K시점 이후 예측오차 분산은 조건부 분산과 동일

ARMA모형 예측

  • 예측식: 시점 n까지의 과거데이터로부터 매리 시점 예측은 조건부 기대치 사용
  • 예측오차 분산: 예측구간이 필요한 경우 사용

Week4. 비정상적 시계열

비정상적 시계열 모형화를 위한 ARIMA모형

비정상 시계열

  • 추세, 계절성이 포함되는 경우 정상성을 만족하지 못한다.
  • 비정상적 판단방법: 시계열 그래프 시각적 판단, ACF가 시차에 대해 매우 서서비 감소하는 패턴, 단위근 검정(단위근이 존재하면 비정상적 시계열)
  • 대응방안: 차분을 통해 정상적 시계열로 변환, 함수변환 통해 분산 안정화, 분해법으로 추세및 계절성 제거

ARIMA 모형

  • 차분: 1차 차분: 인근한 두 값의 차이를 산출, 2추차분-1차차분에 추가로 차분을 적용…
  • 차수 d 누적 시계열: d차 차분후 시계열이 정상적일때, 원 시계열을 차수 d 누적 시계열 I(d)로 표기
  • ARIMA 모형 정의
    : 차수 d 누적시계열, d차분후 시계열이 처음으로 정상적일때, 원 시계열을 차수 d 누적시계열이라고 하고 I(d)로 표기
    : 원시계열(ZtARIMA(p,d,q)) -> d차 차분 -> 차분시계열(WtARMA(p,q))

계절성을 반영한 ARIMA 모형의 이해

계절성 시계열

  • 추세는 차분으로 제거될수 있으나 계절성은 여전히 남아있을수 있다.
  • 계절성은 별도로 처리필요
  • 일반적으로 시계열은 비계절성 ARIMA모형과 계절성 ARIMA모형이 복합된 형태이다.

계절성 ARIMA 모형

  • 계절성 차분: 계절성 주기 S (월별 S=12, 분기별 S=4)
  • 계절성이 있는 경우 단순(비계절성) 차분으로 정상화 되지 않음
  • 1차 계절성 차분: 인근한 두 계절 값의 차이를 산출
  • 계절성 ARIMA 모형의 유도 예측
    : 주기 S=12 갖는 추세없는 월별 시계열 고려
    : 매년 1월 데이터들만 볼때 MA(1) 모형을 따른다고 하자
    : 인글월의 오차항간에 상관관계가 있으므로 새로운 모형이 필요
    : 이 모형은 비계절성 MA(1)과 계절성 MA(1)이 결합된 형태 ARMA(0,1)X(0,1)12
    또는 ARIMA(0,0,1) X (0,0,1)12라고 함

    표기: 계절성 ARIMA(p,d,q) X (P,D,Q)s

모형의 식별 및 추정

  • (단계1) 시계열도를 그려보고 추세 및 계절성 존재여부를 판단
  • (단계2) 아래 사항 고려 적절히 차분
    : 추세는 없고 계절성이 있는 경우, 해당 주기에 대한 계절성 차분
    : 추세가 있고 뚜렷한 계절성이 없는 경우, 선형추세가 있는 경우, 1차차분, 곡선형태의 추세가 있는 경우 차분전에 함수변환 시도
    : 추세와 계절성이 있는 경우, 우선 계절성 차분을 실시하고 추세를 다시 검토, 추세가 여전히 남아있는 경우 1차 차분 추가 실시하고
  • (단계3) 차분 시계열에 대한 AFC와 PACF를 바탕으로, p,q, P,Q를 결정
    : 비계절성 계수인 p,q는 ARMA모형의 경우와 동일한 요령으로 결정
    : 계절성 계수 P,Q는 주기의 배수에 나타나는 ACF와 PACF의 패턴을 보고 결정
  • (단계4) 모형 파라미터 추정방법
  • (단계5) 잔차 검정 실시
  • ACF산출 예

    차분 시계열 산출, 분산, 자기 공분산 계산, ACF 계산

비정상 검정을 위한 단위근 검증

단위근 검정

  • 단위근 검정은 통계적 검정을 통해 시계열의 정상성 여부를 판정
    : 대표적인 단위근 검정은 ADF(augmented Dickey-Fuller) 검정
    : 모든 정상적 시계열은 고차원의 AR모형으로 근사될수 있다고 가정

단위근 풀이 및 예

  • 생략…