시계열분석

 

이야기로 배우는 통계학 : 이해용. 이필용 공저, 자유아카데미, 2003, page 589~608

1. 시계열모형

     (1) 추세변동

     (2) 순환변동

     (3) 계절변동

     (4) 불규칙 변동

2. 평활법

     (1) 이동평균법

     (2) 지수평활법

3. 시계열분석

     (1) 추세선의 특징

     (2) 순환변동의 추정

     (3) 계절변동의 추정

 

 

 

 

1. 시계열모형

어떤 현상의 모습을 담고 있는 자료는 시간 개념을 기준으로 횡단자료와 시계열 자료로 구분한다. 동일한 시점을 기준으로 수집한 자료가 횡단자료이고, 시간의 흐름에 따라 수집한 자료가 시계열자료이다.

과거 없는 현재가 없고, 현재 없이 미래가 존재할 수 없는 것과 같이 시간의 흐름은 또한 중요한 변수로 작용한다. 뿐만 아니라 미래 상황을 예측하는데 시간은 좋은 설명변수가 될 수 있다. 특히 경제현상에 관련된 자료는 대부분 시간을 기준으로 여러 변수 값이 나타난 것이다. 따라서 한 나라의 경제정책을 수립하는 경우나 한 기업의 사업계획을 수립하는 데에는 시계열자료를 분석하는 일이 필수적이다.

시간의 흐름은 미래상황을 예측하는데 사용되는 중요한 설명변수 중에 하나다. 그러므로 예측에 사용되는 독립변수도 시간의 함수로 변환하여 사용할 수 있다. 이처럼 시간 변화에 따라 수집한 시계열 자료로부터 경제현상을 분석하는 도구가 시계열모형 (time series model) 이다. 시계열 모형의 기본 배경은 시간 변수가 갖는 특성이 과거로부터 미래까지 지속될 것으로 가정한다. 시계열 모형으로 분석하는 기법은 매우 다양하며 그 활용 범위도 매우 넓어서 경제분석에만 적용되는 것이 아니라 여러 학문분야에서도 적용되고 있다.

시간을 나타내는 변수의 단위로는 초, 분, 시간, 일, …, 분기, 년, 세기 등이 있다. 금리 환율 주가지수 등은 하루를 기준으로 매일 작성되는 자료이지만, 소비자 물가지수, 경기변동지수, 실업률 등은 매월 산출되는 자료이다. 물론 시계열자료라 해서 시간 개념만으로 측량되는 것은 아니다. 시간 단위 외에도 사회적 변화나 환경적 변동요인을 기준으로 시계열자료를 구분하는 경우도 있다. 일반적으로 시계열자료는 추세변동, 순환변동, 계절변동, 불규칙변동 요인으로 구성된다.

시계열자료의 변수는 장기간에 걸쳐 어떤 추세를 보이면서 변하는데, 이것을 추세변동 (trend variation) 이라 한다. 그리고 시계열 변수는 장기간의 추세선을 따라 주기적으로 오르고 내리는 반복 현상을 보이는데, 이것을 순환변동 (cyclical variation) 이라 한다. 또한 계절적 요인이 작용하여 4 계절을 주기로 나타나는 계절변동 (seasonal variation) 이 있고, 우연적으로 발생하는 요인으로 불규칙변동 (irregular variation) 이 작용한다.

(1) 추세변동

추세변동이란 시계열자료가 갖는 장기적인 변화추세이다. 추세란 장기간에 걸쳐 지속적으로 증가 또는 감소하거나 혹은 일정한 상태를 유지하려는 성향을 의미한다. 그러므로 시계열 자료에서 짧은 기간 동안에는 추세 변동을 찾기 어렵다. 추세변동은 짧은 기간 동안 급격히 변하는 것이 아니라 장기적인 추세 경향을 나타내므로 직선이나 부드러운 곡선의 연장선으로 표시한다. 다음 <표 1> 은 남ㆍ북한 농가인구 비율을 조사한 자료이다.

<표 1> 남ㆍ북한 농가인구 비율

 

 

 

 

 

 

 

 

(단위 :

 %)

연도

1953

1960

1965

1970

1975

1980

1985

1990

1995

남 한

북 한

61.0

66.4

58.2

44.4

55.1

40.8

44.8

40.5

37.5

40.2

28.4

38.2

20.9

37.5

15.5

37.8

10.8

36.5

<표 1> 로부터 남ㆍ북한 모두 농가비율이 감소추세를 보이고 있으나, 남한의 농가인구 비율의 감소추세가 더 심한 것을 알 수 있다.

<표 1> 을 평면좌표 상에 나타낸 것이 그림 1 이다.

그림 1  연도별 농가인가비율 감소추세

그림 1 은 남ㆍ북한의 농가인구비율이 감소 추세로 나타나는 것을 보이고 있다. 남한의 경우 장기적인 변동 추세가 급하게 감소하는 반면, 북한의 경우는 장기적인 변동 추세가 완만한 감소를 보이고 있다.

(2) 순환변동

추세변동은 장기적으로 나타나는 추세경향이지만 순환변동은 대체로 2 ~ 3 년 정도의 일정한 기간을 주기로 순환적으로 나타난다. 시간의 흐름에 따라 상하로 반복되는 변동으로 추세선을 따라 변화하는 것이 순환변동이다. 경기변동 곡선은 공황과 경기회복, 호황과 불경기로 인하여 수년을 주기로 나타나고 있는데 순환변동을 나타내는 좋은 예이다.

순환변동은 주기적으로 파도처럼 반복 곡선으로 나타나므로 삼각함수 관계로 표시되기도 하지만 실제로 순환변동을 나타내는 적합한 함수를 구하는 것은 쉽지 않다. 다음 그림 2 는 일반적인 순환변동을 나타내는 곡선모습이다.

그림 2 순환 변동 곡선

(3) 계절변동

시계열자료에서 보통 계절을 주기로 발생하는 변동요인을 계절변동이라 하고, 보통 계절에 따라 순환하며 변하는 특성을 지닌다. 그런데 계절변동이 순환변동과 다른 점은 순환주기가 짧다는 점이다. 즉, 순환변동이 나타나는 주기는 2 ~ 3 년 정도인데 계절변동은 보통 계절에 따라 영향을 받으므로 1 년을 주기로 나타난다.

예를 들면 국립공원 관광객 수, 냉ㆍ난방기기 판매량, 청량음료 수요량은 물론 심지어 강수량까지 계절변동이 나타나는 시계열자료이다. 그런데 계절변화에 따라 나타나는 변동요인만 계절변동이 아니다. 꽃의 수요량은 어버이날과 스승의 날이 있는 5 월에 가장 많이 발생한다. 한편 각종 문구류는 2 월 말 경기에 가장 수요량이 많이 발생한다. 이렇게 일정 기간마다 주기적으로 발생하는 변동요인도 계절변동이라 할 수 있다.

(4) 불규칙 변동

시계열자료에서 어떤 규칙성이 없이 예측 불가능하게 우연적으로 발생하는 변동을 불규칙변동이라 한다. 그러므로 시게열자료에서 추세변동 순환변동 계절변동 요인을 조정한 후에 나타나는 변동이 불규칙변동이다. 불규칙변동은 천재지변이나 급격한 환경 변화로 발생되는 것이 아니라 우연적으로 발생하는 변동이다. 우연적으로 발생하기 때문에 불규칙 변동을 측량하는 것은 어려운 과제이다. 시계열분석이 주로 예측하는 것이 목적이라면 불규칙변동이 많이 존재하는 시계열자료에서는 신뢰성 있는 예측을 할 수 없다.

그러면 시계열자료에 존재하는 추세변동, 순환변동, 계절변동과 불규칙변동은 어떻게 분석할 수 있는가.

2. 평활법

시계열자료가 갖는 변수는 변화하는 정도가 심한 경우가 보통이다. 순환변동과 계절변동은 물론 불규칙변동까지 작용하기 때문이다. 이러한 변화가 심한 시계열 자료로부터 변수가 갖는 추세변동과 순환변동 및 계절변동 요인을 정확하게 파악하기란 어려운 일이다. 왜냐하면 본래 시계열 자료는 변동이 심하여 들쭉날쭉한 변수값들이 존재하기 때문이다. 그러므로 변화 폭이 심한 시계열자료를 평탄하고 변화가 완만한 값으로 변환시키는 것을 평활 (smoothing) 이라 한다. 즉 평활이란 들쭉날쭉한 시계열자료 값을 평탄한 값으로 변환하는 것이다.

(1) 이동평균법

시계열자료에서 어떤 변수의 불규칙변동이 크다면, 그 변수의 분산이 크다. 분산이 크다면 예측함에 있어 오차도 크게 나타난다. 그러므로 시계열자료로부터 미래상황을 정확하게 예측하기 위해서는 불규칙변동이 작아야 한다.

따라서 시계열분석에서 불규칙변동을 통제하거나 제거할 수 있다면 각 변동요인에 대한 추정은 신뢰성을 갖게 된다. 시계열자료에서 불규칙변동요인을 통제하고 추세, 순환, 계절변동요인을 파악하기 위하여 본래 자료값을 변환시키는 방법이 평활법이다. 그런데 대표적인 평활법으로 이동평균법 (moving average method) 과 지수평활법 (exponential smoothing method) 가 있다. 먼저 이동평균법에 대하여 살펴보자.

시계열자료로부터 일정한 기간에 해당하는 자료 값을 묶어 반복해서 산술평균을 구하면 새로운 시계열자료를 얻을 수 있다. 이러한 새로운 시게열자료를 구하는 방법을 이동평균법이라 한다. 원래 시계열자료는 변화가 많아 들쭉날쭉한 자료값을 갖는데 이동평균은 원 자료에 숨겨진 어떤 추세 경향을 개괄적으로 파악할 수 있게 한다.

이제 시계열 변수 가 있다고 한다. 그리고 t 시점에서 m 기간 범위로 구한 이동평균을 이라 하자. 그러면 은 m 이동평균이라 부르고 식 1 로 구할 수 있다.

식 1 로 나타난 m 이동평균이 실제로 어떻게 적용되는지 살펴보자. <표 1> 은 우리나라의 주가지수에 대하여 월별 조사한 자료이다. 세 번째 열과 4 번째 열은 각각 3 이동평균과 4 이동평균을 구한 값이다. 이동평균은 장기간에 걸친 추세성향을 파악하는 데 중요한 역할을 한다.

<표 1> 1999 년 우리나라 주가지수

주가지수

3 개월 이동평균

4 개월 이동평균

1

2

3

4

5

6

7

8

9

10

11

12

597.6

533.0

586.2

721.1

745.4

841.4

971.4

932.9

926.9

828.6

950.1

984.5

-

572.3

613.4

684.2

769.3

852.7

915.2

943.7

896.1

9.1.9

921.1

-

-

609.5

946.4

723.5

819.6

872.8

918.2

915.0

906.6

922.5

-

 

<표 1> 에서 세 번째 열의 572.3 과 613.4 은 다음과 같이 3 개월 이동평균법으로 구한 값이다.

    572.3 = (596.6 + 533.0 + 586.2) / 3
    613.4 = (533.0 + 586.2 + 721.1) / 3

그리고 네 번째 열의 609.5 와 646.4 는 4 개월 이동평균법으로 구한 값이다.

    609.5 = (597.6 + 533.0 + 586.2 + 721.1) / 4
    646.4 = (533.0 + 586.2 + 721.1 + 745.4) / 4

<표 1> 에서 나타난 바와 같이 m 이동평균은 다음과 같은 특성을 갖는다.

첫째, m 의 값이 크면 본래의 시계열 자료를 보다 평탄한 값으로 변환한다. 그러므로 3 개월 이동평균보다 4 개월 이동평균이 안정적인 추세선을 보이고 있다.

둘째, m 의 값이 크면 이동평균법으로 인해서 처음 시계열값과 마지막 시계열 값이 더 많이 생략된다.

<표 1> 에서 3 개월 이동평균은 10 개 시계열값만 존재하고 4 개월 이동평균은 9 개 시계열 값만 존재한다. 그리고 만약 m 이 짝수인 경우는 이동평균 값은 해당하는 시점이 분명하지 않은 단점이 있다.

(2) 지수평활법

m 이동평균법은 장기적인 추세 경향을 파악하기에는 장점이 있으나. m 기간이 변함에 따라 본래 시계열자료의 처음 부분과 끝 부분에서 (m - 1)/2 개의 이동평균 값을 계산할 수 없는 문제점이 있다. 이러한 문제점을 해소하기 위하여 지수평활법이 활용되기도 한다. 이제 t 시점에서 시계열자료 값을 라 하고 지수평활된 값을 라 하자. 그러면 는 식 2 로 구할 수 있다.

지수평활 값을 구하는 식 2 에서 a 를 평활상수 (smoothing constant) 라 하고 a 는 0 와 1 사이에 값을 갖는다. 시계열 자료로부터 식 2 를 이용하여 을 구하는 일반적인 과정을 전개하면 식 3 과 같다.

식 3 에서 알 수 있는 바와 같이 지수평활 값 () 을 t 시점 이전에 나타난 모든 시계열 값에 대한 함수관계로 나타난다. 특히 값은 t 시점에서 멀리 떨어져 있는 시계열 값으로부터 적게 영향을 받고, 가까이 있는 시계열 값으로부터 많은 영향을 받는다.

만약 평활상수 a 가 1 에 접근하는 값을 갖는다면, 는 t 시점에서 멀리 떨어진 시계열 값으로부터 적게 영향을 받는다. 한편 평활상수 a 가 0 에 접근하는 값을 갖는다면 는 t 시점에서 멀리 떨어진 시계열 값으로부터 영향을 받는다.

3. 시계열분석

시계열자료는 일반적으로 추세변동, 순환변동, 계절변동 및 불규칙변동의 4 종류 변동 요인으로 구별할 수 있다. 이제 시계열 자료에서 변수 가 갖는 추세변동을 , 순환변동을 , 계절변동을 , 불규칙변동을 라 표기하자.

그러면 t 시점에서 시계열자료 는 4 종류 변동요인의 곱 형태로 시계열 모형을 설정할 수도 있고, 또한 합 형태로 시계열 모형을 설정할 수도 있다.

(1) 추세선의 특징

시계열자료를 4 종류 변동 요인으로 식 4 또는 식 5 로 구성하면 요인별 변동 크기를 분해할 수 있다. 이제 어떤 시계열자료가 식 4 와 같이 곱의 형식으로 설정되고 계절변동 요인 () 는 알 수 있다고 하자. 그러면 식 4 에서 양변을 로 나누어 계절변동 요인이 제거된 3 종류의 변동요인으로 시계열자료를 표현할 수 있다.

식 6 과 같이 시계열모형을 변동 요인에 따라 축소하는 것이 요인 분해이다. 즉, 시계열모형이 곱셈 형식으로 설정되었을 때 어떤 변동요인을 제거하여 시계열자료를 분석할 수 있다.

그러면 시계열자료가 갖는 장기 추세선은 어떻게 추정할 수 있는가? 시계열자료를 시간이 흐름에 따라 평면좌표 상에 산포도를 그리면 장기추세 성향을 어느 정도 파악할 수 있다. 장기추세성향을 나타내는 것이 추세선이다. 장기추세선은 시간을 독립변수로 하여 최소자승법으로 구할 수 있다.

그런데 최소자승법을 적용하여 장기추세선을 추정할 경우에는 먼저 시계열자료를 평활해야 한다. 왜냐하면 시계열자료는 여러 변동요인이 작용하여 변화가 심하게 나타나기 때문이다. 그러므로 최소자승법으로 추세선을 구하기 전에 본래 시계열자료를 이동평균법이나 지수평활법으로 평활해야 한다. 본래 변동의 폭이 심한 시계열 자료를 적절한 기간 (m) 을 기준으로 이동평균 값을 구하면 변동의 폭은 어느 정도 평탄하게 된다. 그러므로 이동평균으로 평활된 시계열자료는 추세선을 추정하는데 쓰인다.

(2) 순환변동의 추정

일반적으로 순환변동은 2 ~ 3 년을 주기로 나타나며 장기 추세선을 따라 상하로 반복하는 사인 (sine) 곡선 형태를 취하는 변동이다. 만약 시계열자료가 1 년 미만을 기준으로 나타나는 경우에는 계절변동과 순환변동이 중복되는 것으로 간주하여, 시계열자료를 추세변동 순환변동 불규칙변동으로 구성한다. 이러한 경우에 시계열자료 는 식 7 과 같은 시계열모형으로 설정한다.

식 7 에서 장기추세 는 원래 시계열자료를 이동평균법으로 평활한 다음에 최소자승법을 적용하여 구할 수 있다. 그러므로 식 7 의 양변에 대하여 장기추세 로 나누면 순환변동과 불규칙변동만을 포함하는 시게열모형 식 8 을 얻을 수 있다.

식 8 에서 원래 시계열자료 값 () 에 대한 추세변동 () 의 비율을 추세비율 (trend ratio) 라 한다. 식 8 에서 불규칙변동을 알 수 있다면 순환변동은 쉽게 구할 수 있다. 그러나 불규칙변동은 일반적으로 알려져 있지 않다. 다음 예제를 통하여 추세선과 추세비율을 구해보자.

(예제 1) 다음 <표 2> 는 어떤 시골 마을에서 9 년동안 고추생산량을 조사한 시계열자료이다. 시계열자료로부터 최소자승법에 의한 추세선을 구하고 추세비율을 구하라.

<표 2> 고추생산량

연  도 (t)

1

2

3

4

5

6

7

8

9

고추생산량 ()

4

6

7

10

8

12

8

12

14

(풀이 1) 주어진 시계열자료로부터 연도 (t) 를 독립변수로 고추생산량 () 를 종속변수로 하여 최소자승법으로 추세선 () 을 구하면 다음과 같다.

     = 3.667 + 1.0667t,   t = 1, 2, …, 9

t 값에 따라 추세선 상에 위치한 값을 구한다음, 추세비율을 구한 것을 표로 작성한 것이 <표 3> 이다.

<표 3> 추세치와 추세비율

t

1

2

3

4

5

6

7

8

9

4

6

7

10

8

12

8

12

14

4.733

5.800

6.867

7.933

9.000

10.067

11.133

12.333

13.267

84.50

103.45

101.94

126.05

88.89

119.21

78.56

98.36

105.53

(3) 계절변동의 추정

계절변동은 보통 1 년 주기로 발생하는 변동이다. 계절변동은 측정하려는 목적은 시계열자료로부터 미래를 예측하는 데 있다. 그리고 시계열자료에서 계절변동 요인을 제거하여 순환변동을 보다 정확히 파악할 수 있다. 계절변동은 여러 방법으로 측정하고 있으나 이동비율평균법 (ratio-to-moving average method) 이 널리 활용되고 있다.

이동비율평균법이란 계절지수 100 을 기준으로 한 계절변동 지수를 구하는 방법이다. 예를 들어 어떤 기업이 내년도 9 월 매출액을 예측한다고 하자. 그런데 시계열자료로부터 이동비율평균법으로 구한 계절지수가 120 이라고 하자. 만약 그 기업의 월 평균 매출액이 100 억원이라면, 내년 9 월의 매출액은 120 억원 (계절지수 * 평균매출액) 으로 예측할 수 있다.

이제 이동평균법으로 구한 이동평균 값을 연결한 선을 이동평균선이라 하자. 그런데 그 이동평균선은 추세 () 와 순환변동 () 이 결합된 것이라 가정하자. 그러면 이동평균 값으로 시계열자료값 () 을 나누면 계절변동 () 과 불규칙변동 () 요인만을 포함하는 시계열 모형을 얻을 수 있다.

로 구성된 시계열모형으로부터 이동비율평균법을 적용하여 계절지수를 구하는 과정을 살펴보자.

첫째, 원래 시계열자료 () 를 평활하기 위하여 4 계절 이동평균 () 을 구한다.

만약 원래 시계열자료가 계절별로 수집된 경우라면 은 추세 () 와 순환변동 () 이 결합된 시계열모형이 된다. 그러므로 가 성립한다.

둘째, 원래 시계열자료 () 를 4 계절 이동평균 () 으로 나누어 100 를 곱한다.

여기서 100 을 곱하는 이유는 에 대한 의 비율을 지수로 변환하기 위함이다. 이렇게 구한 지수 형태로 나타난 값은 계절변동과 불규칙변동이 혼합되어 있다.

셋째, 둘째 단계에서 구한 계절지수로부터 계절별로 불규칙하게 나타난 계절지수를 제외시켜 평균 계절지수를 구한다.

그러면 불규칙 요인이 어느 정도 수정된 계절지수로 사용할 수 있다.

넷째, 평균 계절지수의 4 계절 합이 400 인가 확인한다.

만약 평균 계절지수의 4 계절 합이 400 이라면, 그 자체 지수가 계절변동지수가 된다. 그러나 그 합이 400 이 되지 않으면, 400 이 되도록 조정하여 수정된 계절지수를 구한다.

다음 예제를 통하여 계절지수와 수정된 계절지수를 구하는 과정을 이해하도록 하자.

(예제 2) <표 4> 는 어떤 관광회사에서 알선한 해외여행 관광객 수이다. 이러한 시계열자료로부터 계절지수를 구하라.

<표 4> 분기별 해외관광객 수

연 도

계            절

봄 (1)

여름 (2)

가을 (3)

겨울 (4)

1995

1996

1997

1998

1999

290

300

340

300

280

330

370

420

380

450

220

260

280

310

250

310

280

300

340

320

(풀이 2) 주어진 시계열자료가 4 계절로 구분되어 있으므로 4 계절 이동평균 값 () 을 구하면 은 추세와 순환변동이 결합된 자료라 할 수 있다.

첫째, 4 계절 이동평균 값 () 을 구한다.

처음 4 계절 이동평균 값은 287.5 (-(290 + 330 + 220 + 310 + ) / 4) 이다.

마지막 4 계절 이동평균 값은 325 (=(280 + 450 + 250 + 320) / 4) 이다.

그런데 4 계절 이동평균 값은 문제가 발생된다. 왜냐하면 m = 4 이므로 짝수 이동평균이므로 이동평균의 중앙값을 구하여 사용할 수밖에 없다.

처음 이동평균 중앙 값은 288.75 (=(287.5 + 290) / 2) 이다.

마지막 이동평균 중앙 값은 327.5 (=(330 + 325) / 2) 이다.

둘째, 원래 시계열자료 를 이동평균 중앙값으로 나누고 100 을 곱하여 이동평균에 의한 계절지수를 구한다.

처음 계절지수는 77 (= 220 / 288.75 * 100) 이다.

두 번째 계절지수는 105 (= 310 / 290 * 100) 이다.

이러한 과정으로 이동평균과 이동평균 중앙값과 계절지수를 구한 것이 <표 5> 로 나타나 있다.

셋째, <표 5> 에서 구한 계절지수를 계절별로 정리하여 최대 계절지수와 최소 계절지수를 제외하고 평균계절지수를 구하여 <표 6> 을 작성한다.

넷째, 평균 계절지수의 4 계절 합이 402.5 이므로 계절지수 합이 400 이 되도록 수정 계절지수를 구한다.

<표 5> 4 계절 이동평균과 계절지수

연 도

계 절

시계열자료 ()

4 계절이동평균 ()

이동평균중앙값

계절지수

1995

1

2

3

4

290

330

220

310

 

287.5

290.0

300.0

 

 

288.75

295.00

 

 

77

105

1996

1

2

3

4

300

370

260

280

310.0

302.5

312.5

325.0

305.00

306.25

307.50

318.75

98

121

85

88

1997

1

2

3

4

340

420

280

300

330.0

332.5

325.0

315.0

327.50

331.25

328.75

320.00

104

127

85

94

1998

1

2

3

4

300

380

310

340

322.5

332.5

327.5

345.0

318.75

327.50

330.00

336.25

94

116

94

101

1999

1

2

3

4

280

450

250

320

330.0

325.0

 

 

337.50

327.50

 

 

83

137

 

 

<표 6> 평균 계절지수와 수정 계절지수

연 도

계   절   지   수

합 계

봄 (1)

여름 (2)

가을 (3)

겨울 (4)

1995

1996

1997

1998

1999

 

98

104

94

83

 

121

127

116

137

77

85

85

94

 

105

88

94

101

 

 

평균계절지수

수정계절지수

96.0

95.4

124.0

123.2

85.0

84.5

97.5

96.9

402.5

400.0