2023. 8. 6. 18:00ㆍ카테고리 없음
q1 :
시계열 분석에서는 주어진 자료가 정상성을 만족해야 한다. 비정상시계열을 정상시계열 자료로 바꾸기 위해, 평균이 일정하지 않은 경우 현시점에서 이전 시점의 자료를 빼는 방법을 무엇이라고 하는가?
시계열 분석(Time Series Analysis)은 일련의 시간 순서에 따라 기록된 데이터를 분석하는 통계적 기법과 방법론의 집합을 말한다. 이러한 데이터는 일정한 시간 간격으로 측정되거나 기록된 시계열 데이터를 의미한다.
예를 들면 매일 기온을 측정한 데이터, 월별 판매량, 분기별 주가 등이 시계열 데이터의 예이다.
시계열 분석은 다양한 목적과 상황에서 활용된다. 일반적으로 다음과 같은 목적
1. 패턴 분석 : 시계열 데이터에서 특정 패턴을 찾아내고 이해하는 것.
2. 예측 : 과거 시계열 데이터를 기반으로 미래 값을 예측하는 것.
3. 이상 탐지 : 예상치 못한 이상치나 이벤트를 찾아내는 것.
4. 제어 : 시계열 데이터의 특정 특성을 제어하는데 사용하는 것.
시계열 분석의 방법론
1. 시계열 그래프(시각화) : 데이터를 그래프로 나타내어 시각적으로 패턴을 파악한다.
2. 이동 평균과 이동 표준편차: 시계열 데이터를 평활화하여 트렌트를 파악하는데 사용
3. 계절성 분해 : 계절성 패턴을 분리하여 이해하는 방법
4. 자기상관 함수와 부분 자기상관 함수 : 시계열 데이터 내의 자기 상관 관계를 분석
5. ARIMA : 자기회귀와 이동평균의 결합으로 시계열 데이터를 예측하는데 널리 사용된다.
6. 지수 평활법: 최근 값에 더 많은 가중치를 부여하여 트렌트를 추정하는 방법
이외에도 고급 기법과 머신러닝 모델을 사용하여 시계열 데이터를 분석 중에 있다.
경제학, 금융, 기상학, 생태학, 제조업, 마케팅 등 다양한 분야에서 중요한 도구로 활용되는 중
정상성은 시계열 데이터의 중요한 특성 중 하나이다. 정상성이란 시계열 데이터가 시간에 따라 일정한 패턴을 유지하고 평균과 분산이 일정하며, 자기상관이 시간과 관계없이 일정한 값을 갖는 성질을 의미한다.
정상성이 만족되지 않는 비정상적인 시계열 데이터의 경우, 패턴이나 트렌드가 시간에 따라 변화하거나 평균이 증가 또는 감소하거나, 분산이 확대되거나 축소되는 등의 변동이 발생할 수 있다. 이러한 비정상성이 존재하면 시계열 분석의 결과가 부정확하거나 왜곡되는 문제가 발생할 수 있다.
정상성을 만족하는 시계열 데이터는 다음과 같은 특성을 가진다.
시간에 관계없이 일정한 평균, 일정한 분산, 일정한 자기 상관을 가지고 있다.
정상성을 만족하지 않는 시계열 데이터는 정상성을 가진 데이터로 변환해야한다.
일반적으로 정상성을 만족시키기 위해 로그 변환, 차분 (differencing), 계절성 제거 등의 전처리 과정을 수행할 수 있다.
정상성을 만족하는 데이터는 통계적 기법이나 예측 모델을 적용하기에 더 적합하며, 정상성이 없는 데이터의 경우 이러한 전처리 과정을 거쳐야 정확한 분석과 예측을 수행할 수 있다.
로그변환
정의 : 로그 함수를 적용하여 변환하는 방법.
상대적으로 큰 변동폭을 가지는 데이터 : 데이터의 변동성을 줄여 정상성을 만족시킬 수 있음.
비정상적인 분산 구조 : 분산이 시간에 따라 증가하는 경우 로그 변환을 적용하여 분산을 안정화할 수 있다.
급격한 증가 또는 감소 : 큰 값들의 영향력을 줄여 트렌드를 더 잘 파악할 수 있다.
차분 (differencing)
정의 : 현재 값에서 이전 값 간의 차이를 계산하는 방법
계절성이나 트렌드가 존재하는 경우 : 계절성이나 트렌드가 시계열 데이터에 포함되어 정상성을 만족하지 않는 경우, 이를 제거하고 정상성을 만족 시킬 수 있음.
비정상적인 시계열 데이터 : 특정 시점의 데이터가 다음 시점과 관련이 있어서 정상성을 만족시키지 못하는 경우 차분을 통해 관련성을 없앨 수 있음.
계절성 제거
정의 : 주기적인 계절성 패턴을 분리해내는 과정
계절성을 분리하여 정상성을 만족 시킨다. 또한 계절성이 중요한 정보를 담고 있지 않을 경우 제거하여 불필요한 정보를 제거한다.