맨위로가기

박스-젠킨스 방법

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

박스-젠킨스 방법은 시계열 데이터를 모델링하기 위한 반복적인 3단계 접근 방식이다. 이 방법은 모델 식별 및 선택, 파라미터 추정, 통계적 모형 검증의 단계를 거친다. 모델 식별 단계에서는 시계열의 정상성과 계절성을 확인하고, 자기상관 함수(ACF)와 편자기상관 함수(PACF)를 분석하여 자기회귀(AR) 또는 이동 평균(MA) 구성 요소를 결정한다. 파라미터 추정 단계에서는 최대 우도 추정 또는 비선형 최소 제곱 추정을 사용하여 ARIMA 모델의 계수를 찾고, 통계적 모형 검증 단계에서는 잔차가 독립적이고 평균과 분산이 일정한지 확인한다. 모델이 적절하지 않으면 모델 식별 단계로 돌아가서 더 나은 모델을 만들어야 한다.

더 읽어볼만한 페이지

  • 통계 모형 - 예측 분석
    예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
  • 통계 모형 - 통계 모델
    통계 모델은 사건의 확률을 계산하기 위한 통계적 가정의 집합으로, 표본 공간과 확률 분포의 집합으로 표현되며, 모수적, 비모수적, 준모수적 모델로 분류된다.
박스-젠킨스 방법
개요
이름박스-젠킨스 방법
원어Box-Jenkins method
유형시계열 분석 방법
개발자조지 박스
그윌림 젠킨스
발표 연도1970년
주요 특징자기회귀누적이동평균 모형(ARIMA) 식별, 추정, 검증
시계열 데이터의 예측 및 분석
단계
1단계모형 식별 (Identification)
설명자기상관함수(ACF) 및 부분 자기상관함수(PACF)를 사용하여 적절한 ARIMA 모형의 차수(p, d, q)를 결정
2단계모수 추정 (Estimation)
설명식별된 모형의 모수(AR, I, MA 항의 계수)를 추정
3단계모형 검증 (Diagnostic Checking)
설명잔차 분석을 통해 모형의 적합성을 검정
모형이 데이터에 적절하게 부합하는지 확인
4단계예측 (Forecasting)
설명검증된 모형을 사용하여 미래 값을 예측
적용 분야
경제학거시경제 변수 예측
금융주가 예측
공학공정 제어
마케팅수요 예측
관련 개념
관련 개념ARIMA 모형
시계열 분석
자기상관함수(ACF)
부분 자기상관함수(PACF)
참고 문헌
참고 문헌Box, G. E. P., & Jenkins, G. M. (1976). Time Series Analysis: Forecasting and Control. Holden-Day.

2. 모델링 접근방법

박스-젠킨스 모델은 반복적인 3단계 모델링 방식을 사용한다.[2][6]

# '''모델 식별 및 모델 선택''': 변수가 정상성을 갖는지 확인하고, 종속 시계열의 계절성을 식별한다.

# '''파라미터 추정''': 계산 알고리즘을 사용하여 선택한 ARIMA 모델에 가장 적합한 계수를 찾는다.

# '''통계 모델 확인''': 추정 모델이 고정 일변량 프로세스의 사양을 따르는지 여부를 테스트한다.

Commandeur & Koopman(2007, §10.4)은 박스-젠킨스 접근 방식에 근본적인 문제가 있다고 주장한다.[6] 경제 및 사회 분야에서 실제 시계열은 차분을 아무리 수행해도 정상성을 가지기 어렵기 때문에, 정상성에 얼마나 가까워야 충분한가라는 어려운 질문에 직면하게 된다는 것이다. 따라서, 시계열의 정상성이 필요하지 않은 상태 공간 방법을 사용하는 것이 더 낫다고 주장한다.

2. 1. 모델 식별 및 모델 선택

변수가 정상인지 확인하고 종속 시계열의 계절성을 식별한다. (필요한 경우 계절성 차분을 수행한다.) 종속 시계열의 자기상관(ACF) 및 편자기상관(PACF) 함수의 플롯을 사용하여 모델에 어떤 자동회귀 또는 이동 평균 구성 요소를 사용해야 하는지 결정한다.[2][6]

2. 2. 파라미터 추정

계산 알고리즘을 사용하여 선택한 ARIMA 모델에 가장 적합한 계수를 찾는다. 가장 일반적인 방법은 최대우도추정 또는 비선형 최소제곱추정을 사용한다.[2]

2. 3. 통계 모델 확인

추정 모델이 고정 일변량 프로세스의 사양을 따르는지 여부를 테스트하여 통계 모델을 확인한다. 특히, 잔차는 서로 독립적이어야 하며 시간에 따른 평균 및 분산에서 일정해야 한다. 시간에 따른 잔차의 평균 및 분산을 플로팅하고 Ljung-Box 검정을 수행하거나 잔차의 자기상관 및 편자기상관을 플로팅하면 잘못된 사양을 식별하는 데 도움이 된다.[2] 추정이 부적절하면 모델 식별 단계로 돌아가 더 나은 모델을 만들어야 한다.

3. 박스-젠킨스 모델 식별

박스-젠킨스 모델 식별 단계에서는 먼저 시계열 데이터의 정상성과 계절성 여부를 확인해야 한다.

정상성은 시계열도표나 자기상관 함수 그림을 통해 확인할 수 있다. 시계열도표가 일정한 위치와 척도를 보이면 정상성을 가진다고 볼 수 있다. 자기상관 함수 그림에서는 비정상성이 매우 느린 감소로 나타나는 경우가 많다.[1] 디키-풀러 검정이나 확장된 디키-풀러 검정을 사용할 수도 있다.[1]

계절성(주기성)은 자기상관 플롯, 계절 하위 계열 플롯, 스펙트럼 플롯 등으로 평가할 수 있다.

정상성과 계절성 문제가 해결되면, 자기회귀(AR) 항과 이동평균(MA) 항의 차수(p와 q)를 결정해야 한다. AICc를 사용하거나, 자기상관 그림과 부분자기상관 그림을 이론적인 함수의 특징과 비교하여 p와 q를 식별할 수 있다.

샘플 자기상관 함수와 샘플 부분 자기상관 함수는 이론적인 함수와 정확히 일치하지 않으므로, 모델 식별은 어려울 수 있다. 특히, 혼합 모델은 식별하기가 더 어렵다.

다음은 표본 자기상관 함수를 사용하여 모델을 식별하는 방법을 요약한 표이다.

모양표시된 모형
지수적, 0으로 감소자기회귀 모형. 부분 자기상관 플롯을 사용하여 자기회귀 모형의 차수를 식별한다.
양수와 음수가 번갈아 나타나면서 0으로 감소자기회귀 모형. 부분 자기상관 플롯을 사용하여 차수를 식별한다.
하나 이상의 스파이크, 나머지는 본질적으로 0 (또는 0에 가까움)이동 평균 모형, 플롯이 0이 되는 지점에서 차수가 식별된다.
몇 개의 시차 이후 시작하는 감쇠혼합 자기회귀 및 이동 평균 (ARMA) 모형.
모두 0 또는 0에 가까움데이터는 본질적으로 무작위이다.
고정된 간격으로 높은 값계절성 자기회귀 항을 포함한다.
0으로 감소하지 않음 (또는 매우 느리게 감소함)시계열이 정상적이지 않다.


3. 1. 정상성 및 계절성

박스-젠킨스 모델을 개발하는 첫 번째 단계는 시계열이 정상성을 갖는지, 그리고 모델링해야 할 중요한 계절성이 있는지 확인하는 것이다. 정상성은 시계열도표를 통해 평가할 수 있는데, 시계열도표는 일정한 위치와 척도를 보여야 한다. 자기상관 함수 그림을 통해서도 정상성을 감지할 수 있으며, 특히 비정상성은 자기상관 함수 그림에서 매우 느린 감소로 나타나는 경우가 많다.[1] 디키-풀러 검정 또는 확장된 디키-풀러 검정을 사용할 수도 있다.[1]

시계열의 계절성(주기성)은 자기상관 플롯, 계절 하위 계열 플롯, 스펙트럼 플롯 등을 통해 평가할 수 있다. 박스와 젠킨스는 정상성을 확보하기 위해 차분을 권장한다. 하지만 곡선 적합을 수행하고 원래 데이터에서 적합된 값을 빼는 방법도 사용할 수 있다.[1]

모형 식별 단계에서 목표는 계절성이 존재하는지 감지하고, 계절성 자기 회귀 및 계절성 이동 평균 항의 차수를 식별하는 것이다. 많은 시계열에서 주기는 알려져 있으며 단일 계절성 항으로 충분하다. 예를 들어, 월별 데이터의 경우 일반적으로 계절성 AR 12 항 또는 계절성 MA 12 항을 포함한다. 박스-젠킨스 모형의 경우 모형을 적합시키기 전에 명시적으로 계절성을 제거하지 않는다. 대신, ARIMA 추정 소프트웨어에 모형 명세서에서 계절성 항의 차수를 포함한다. 그러나 데이터에 계절성 차분을 적용하고 자기상관 및 부분 자기상관 플롯을 다시 생성하는 것이 도움이 될 수 있다.

3. 1. 1. 정상성 탐지

박스-젠킨스 모델 개발의 첫 단계는 시계열의 정상성 여부를 확인하는 것이다. 정상성은 시계열도표를 통해 평가할 수 있는데, 시계열도표는 일정한 위치와 척도를 보여야 한다. 자기상관 함수 그림을 통해서도 정상성을 감지할 수 있으며, 특히 비정상성은 자기상관 함수 그림에서 매우 느린 감소로 나타나는 경우가 많다.[1] 디키-풀러 검정 또는 확장된 디키-풀러 검정을 사용할 수도 있다.[1]

3. 1. 2. 계절성 탐지

시계열의 계절성(주기성)은 자기상관 플롯, 계절 하위 계열 플롯, 스펙트럼 플롯 등을 통해 평가할 수 있다.

3. 1. 3. 정상성을 위한 차분

박스와 젠킨스는 정상성을 확보하기 위해 차분을 권장한다. 하지만 곡선 적합을 수행하고 원래 데이터에서 적합된 값을 빼는 방법도 박스-젠킨스 모형에서 사용할 수 있다.[1]

3. 1. 4. 계절성 차분

모형 식별 단계에서 목표는 계절성이 존재하는지 감지하고, 계절성 자기 회귀 및 계절성 이동 평균 항의 차수를 식별하는 것이다. 많은 시계열에서 주기는 알려져 있으며 단일 계절성 항으로 충분하다. 예를 들어, 월별 데이터의 경우 일반적으로 계절성 AR 12 항 또는 계절성 MA 12 항을 포함한다. 박스-젠킨스 모형의 경우 모형을 적합시키기 전에 명시적으로 계절성을 제거하지 않는다. 대신, ARIMA 추정 소프트웨어에 모형 명세서에서 계절성 항의 차수를 포함한다. 그러나 데이터에 계절성 차분을 적용하고 자기상관 및 부분 자기상관 플롯을 다시 생성하는 것이 도움이 될 수 있다. 이는 모형의 비계절성 요소의 모형 식별에 도움이 될 수 있다. 경우에 따라 계절성 차분으로 계절성 효과의 대부분 또는 전부를 제거할 수 있다.

3. 2. p와 q 식별

정상성과 계절성 문제가 해결되면, 다음 단계는 자기회귀(AR) 항과 이동평균(MA) 항의 차수(즉, ''p''와 ''q'')를 결정하는 것이다. 학자마다 ''p''와 ''q''를 식별하는 방법이 다르다. 브록웰과 데이비스(1991)는 ARMA(p, q) 모델 선택을 위한 주요 기준으로 AICc(아카이케 정보 기준 보정)를 사용한다고 언급했다.[10] 다른 학자들은 자기상관 그림과 부분자기상관 그림을 사용한다.

3. 2. 1. 자기상관 및 부분자기상관 그림

샘플 자기상관 그림과 샘플 부분자기상관 그림은 차수가 알려진 그림의 이론적 동작과 비교된다.[10] Hyndman & Athanasopoulos는 다음과 같이 제안한다:[4]

AR(1) 프로세스의 경우, 샘플 자기상관 함수는 지수적으로 감소하는 모습을 보여야 한다. 그러나 고차 AR 프로세스는 종종 지수적으로 감소하는 성분과 감쇠된 정현파 성분의 혼합이다.

고차 자기회귀 프로세스의 경우, 샘플 자기상관은 부분 자기상관 플롯으로 보완되어야 한다. AR(''p'') 프로세스의 부분 자기상관은 시차 ''p'' + 1 이상에서 0이 되므로, 표본 부분 자기상관 함수를 검사하여 0에서 벗어나는 증거가 있는지 확인한다. 이는 일반적으로 표본 부분 자기상관 플롯에 95% 신뢰 구간을 배치하여 결정된다.

MA(''q'') 프로세스의 자기상관 함수는 시차 ''q'' + 1 이상에서 0이 되므로, 표본 자기상관 함수를 검사하여 본질적으로 0이 되는 지점을 확인한다. 이를 위해 표본 자기상관 플롯에 표본 자기상관 함수의 95% 신뢰 구간을 배치한다.

표본 부분 자기상관 함수는 일반적으로 이동 평균 프로세스의 차수를 식별하는 데 도움이 되지 않는다.

다음 표는 모델 식별을 위해 표본 자기상관 함수를 사용하는 방법을 요약한다.

모양표시된 모형
지수적, 0으로 감소자기회귀 모형. 부분 자기상관 플롯을 사용하여 자기회귀 모형의 차수를 식별한다.
양수와 음수가 번갈아 나타나면서 0으로 감소자기회귀 모형. 부분 자기상관 플롯을 사용하여 차수를 식별하는 데 도움을 준다.
하나 이상의 스파이크, 나머지는 본질적으로 0 (또는 0에 가까움)이동 평균 모형, 플롯이 0이 되는 지점에서 차수가 식별된다.
몇 개의 시차 이후 시작하는 감쇠혼합 자기회귀 및 이동 평균 (ARMA) 모형.
모두 0 또는 0에 가까움데이터는 본질적으로 무작위이다.
고정된 간격으로 높은 값계절성 자기회귀 항을 포함한다.
0으로 감소하지 않음 (또는 매우 느리게 감소함)시계열이 정상적이지 않다.



Hyndman & Athanasopoulos는 다음을 제안한다.


  • 차분된 데이터의 ACF 및 PACF 플롯이 다음 패턴을 보이는 경우 데이터는 ARIMA(''p'',''d'',0) 모형을 따를 수 있다.
  • ACF는 지수적으로 감소하거나 정현파이다.
  • PACF의 시차 ''p''에서 유의미한 스파이크가 있지만, ''p'' 이후에는 없다.

  • 차분된 데이터의 ACF 및 PACF 플롯이 다음 패턴을 보이는 경우 데이터는 ARIMA(0,''d'',''q'') 모형을 따를 수 있다.
  • PACF는 지수적으로 감소하거나 정현파이다.
  • ACF의 시차 ''q''에서 유의미한 스파이크가 있지만, ''q'' 이후에는 없다.


실제로, 표본 자기상관 함수와 부분 자기상관 함수는 확률 변수이며 이론적 함수와 동일한 그림을 제공하지 않는다. 이로 인해 모델 식별이 더 어려워진다. 특히, 혼합 모델은 식별하기가 특히 어려울 수 있다.

4. 박스-젠킨스 모델 추정

박스-젠킨스 모델의 모수 추정은 비선형 방정식의 해를 수치적으로 근사하는 과정을 포함한다. 이러한 이유로, 이 방법을 처리하도록 설계된 통계 소프트웨어를 사용하는 것이 일반적이며, 사실상 모든 현대 통계 패키지가 이 기능을 제공한다. 박스-젠킨스 모델을 적합하는 주요 접근 방식은 비선형 최소제곱법과 최우도 추정이다. 일반적으로 최우도 추정법을 선호한다. 전체 박스-젠킨스 모델에 대한 우도 방정식은 복잡하므로 여기서는 다루지 않는다. 수학적 세부 사항은 (Brockwell and Davis, 1991)을 참조한다.

5. 박스-젠킨스 모델 진단

박스-젠킨스 모형의 진단은 비선형 최소 자승 적합에 대한 모형 검증과 유사하다.

즉, 오차 항 ''At''는 정상성 단변량 과정에 대한 가정을 따르는 것으로 가정한다. 잔차는 백색 잡음(또는 분포가 정규 분포일 때 독립적인) 고정된 분포에서 상수 평균과 분산을 가진 그림이어야 한다. 박스-젠킨스 모형이 데이터에 적합한 모형이라면 잔차는 이러한 가정을 만족해야 한다.

이러한 가정이 충족되지 않으면 더 적절한 모형을 적합해야 한다. 즉, 모형 식별 단계로 돌아가 더 나은 모형을 개발해야 한다. 잔차 분석을 통해 더 적절한 모형에 대한 단서를 얻을 수 있기를 바란다.

박스-젠킨스 모형의 잔차가 가정을 따르는지 평가하는 한 가지 방법은 잔차의 통계 그래픽(자기 상관 플롯 포함)을 생성하는 것이다. 륭-박스 통계량을 확인할 수도 있다.

5. 1. 안정적인 단변량 프로세스 가정

박스-젠킨스 모형의 진단은 비선형 최소 자승 적합에 대한 모형 검증과 유사하다.

즉, 오차 항 ''At''는 정상성 단변량 과정에 대한 가정을 따르는 것으로 가정한다. 잔차는 백색 잡음 (또는 분포가 정규 분포일 때 독립적인) 고정된 분포에서 상수 평균과 분산을 가진 그림이어야 한다. 박스-젠킨스 모형이 데이터에 적합한 모형이라면 잔차는 이러한 가정을 만족해야 한다.

이러한 가정이 충족되지 않으면 더 적절한 모형을 적합해야 한다. 즉, 모형 식별 단계로 돌아가 더 나은 모형을 개발해야 한다. 잔차 분석을 통해 더 적절한 모형에 대한 단서를 얻을 수 있기를 바란다.

박스-젠킨스 모형의 잔차가 가정을 따르는지 평가하는 한 가지 방법은 잔차의 통계 그래픽 (자기상관 그림 포함)을 생성하는 것이다. 또한 륭-박스 통계량 값을 살펴볼 수도 있다.

5. 2. 모델 진단 방법

박스-젠킨스 모델의 모델 진단은 비선형 최소 자승 피팅(fitting)의 모델 검증과 유사하다.

즉, 오차항 ''At''는 정상성 단변량 프로세스의 가정을 따른다. 잔차는 평균과 분산이 일정한 고정 분포에서 나오는 백색 잡음(또는 그 분포가 정규 분포일 경우 독립)이어야 한다. 박스-젠킨스 모델이 데이터에 적합한 모델이라면, 잔차는 이러한 가정을 충족해야 한다.

이러한 가정이 충족되지 않는 경우, 더 적절한 모델을 적용해야 한다. 즉, 모델 식별 단계로 돌아가 더 나은 모델 개발을 시도한다. 잔차의 분석을 통해 더 적절한 모델을 찾는 단서를 얻을 수 있기를 기대한다.

박스-젠킨스 모델의 잔차가 가정을 따르는지 평가하는 한 가지 방법은 잔차의 통계적 그래프(자기 상관 플롯 포함)를 생성하는 것이다. 륭-박스 통계량을 확인할 수도 있다.

참조

[1] 서적 Time Series Analysis: Forecasting and Control https://archive.org/[...] Holden-Day
[2] 서적 Introduction to State Space Time Series Analysis Oxford University Press
[3] 서적 Time Series: Theory and Methods Springer-Verlag
[4] 서적 Forecasting: principles and practice https://www.otexts.o[...] 2015-05-18
[5] 서적 Time Series Analysis: Forecasting and Control https://archive.org/[...] Holden-Day
[6] 서적 Introduction to State Space Time Series Analysis Oxford University Press
[7] 서적 Time Series: Theory and Methods Springer-Verlag
[8] 웹사이트 Forecasting: principles and practice https://www.otexts.o[...] 2015-05-18
[9] 서적 Time Series Analysis: Forecasting and Control https://archive.org/[...] Holden-Day
[10] 서적 Time Series: Theory and Methods Springer-Verlag



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com