데이터 분석계의 타임스톤

#시계열분석 #시계열데이터 #딥러닝

데이터 분석계의 타임스톤, 시계열 분석

시계열 분석
마블의 히어로 영화 ‘어벤져스’, 다들 보셨나요? 이 영화 속에는 인피니티 스톤이라고 하는 6개의 돌이 나오는데요. 인피니티 스톤은 각각 우주의 본질을 관장하며 그 중에서 ‘타임스톤’은 ‘시간’이라는 본질을 조절할 수 있는 돌입니다. 영화의 히어로 닥터 스트레인지는 이 ‘타임스톤’으로 시간을 되돌리기도 하고 미래의 일을 미리 경험하며 악당과 전투를 치르죠. 그리고 이를 이용해서 빌런 타노스와 … (스포금지)
어쨌든, 이처럼 미래를 안다는 것은 엄청난 능력입니다. 그렇기에 SF 히어로 영화 속에서 등장하는 것처럼 ‘초능력’으로 느껴지기 마련이죠. 그런데 우리가 일상에서 이미 미래를 들여다보고 있다는 사실을 알고 계셨나요?

이번주 날씨를 미리 알려주는 ‘일기예보’

시계열 분석
아침 출근 전에 TV를 켜고 꼭 보는 것이 있습니다. 바로 ‘일기예보’입니다. 오늘은 기온은 어떤지, 이번주에 비가 올지 맑을지, 비가 온다면 얼마나 올지 등의 정보를 일기예보를 통해 얻습니다. 일기예보가 들어맞는 경우가 많진 않지만 생활의 참고사항으로 활용하고 있습니다.
‘일기예보’는 기상정보를 미리 예측해서 알려준다는 의미입니다. 우리 모두 알기를, 시간을 앞질러 무슨 일이 일어날지 미리 아는 것은 불가능합니다. 그렇다면 도대체 기상청은 어떻게 내일의 날씨를 미리 알고 알려주는 것일까요?

과거에서 현재를 들여다보다

기상청의 ‘일기예보’는 ‘시계열 데이터 분석’을 기반으로 합니다. 시계열 데이터란 일정한 시간동안 수집되어 시간적 순서를 가진 데이터를 말하는데요. 구체적인 예로는 일별 주가, 월간 주식 거래량, 월별 상품 판매량, 연도별 농작물 생산량, 계절별 강수량 등이 있습니다.
시계열 데이터 분석이란 과거의 데이터를 통해서 시계열이 갖고 있는 법칙성을 발견하고 이를 모형화 해 현재의 움직임과 미래를 예측하는 것이죠. 그렇기 때문에 시계열 데이터 분석을 통한 예측은 허무맹랑한 ‘예언’보다는 ‘통계’에 근거한 ‘예상’이라고 할 수 있습니다.

시계열 분석과 떼려야 뗄 수 없는 ‘딥러닝’

의료 데이터
시계열 분석의 효율은 계속해서 높아지고 있습니다. 그리고 이렇게 큰 효율을 낼 수 있게 된 데에는 딥러닝의 발전이 우선되었습니다. 시계열 분석에서 중요한 것 중 하나는 바로 ‘변수’인데요. AI기술이 발전하기 전까지는 데이터 분석에 필요한 ‘변수’들을 사람이 입력했습니다. 그러다보니 다양성과 정확도가 떨어지고 오류가 발생하기도 했습니다.
그런데 시계열 분석에 딥러닝 기술을 활용한면서 딥러닝 모델이 자체적으로 다양한 변수를 추출하고 학습해 오류를 줄일 수 있게 됐습니다. 다양한 입출력 작업 또한 가능해졌죠. 덕분에 시계열 분석의 효율이 엄청나게 높아졌고 이제 딥러닝과 시계열 분석은 떼려야 뗄 수 없는 관계가 됐습니다.

딥러닝 모델에 시계열 데이터를 입력하기만 하면 끝?

그런데 주의할 점이 있습니다. 시계열 데이터를 그저 딥러닝 모델에 입력하기만 해서는 안 된다는 점입니다. 그 이유는 바로 시계열 데이터의 특성에 있습니다. 시계열 데이터는 ‘순차적’으로 이루어진 데이터입니다. 그렇기에 순서가 틀어지거나 중간의 데이터가 빠진다면 데이터로서 역할을 할 수 없게 됩니다. 또한 모델에 따라 데이터의 분포가 일정 조건을 만족해야 하는 경우도 있기 때문에 적합하지 않은 데이터를 모델에 입력할 경우 오히려 효율이 떨어지는 경우도 발생할 수 있습니다.
그렇기 때문에 시계열 데이터를 분석하기 위해 중요한 것은 ‘전처리 과정’이라고 합니다. ‘전처리 과정’은 데이터를 분석하기에 알맞게 다듬는 과정인데요. 이 ‘전처리 과정’을 통해 데이터를 알맞게 다듬는 과정이 없다면 시계열 데이터를 제대로 활용하고 있다고 할 수 없는 것입니다.

시계열 분석의 다양한 활용

시간은 어디에서나 공평하게 흐릅니다. 때문에 시계열 데이터 분석은 기상청의 일기예보 뿐만 아니라 다양한 곳에서 활용되고 있습니다.
스마트팩토리에서는 기계의 고장을 미리 예측해서 공장의 가동중단으로 인한 손실을 미리 예방하고 있고, 증권사에서는 여러가지 주가지수를 예측하여 펀드매니저들의 관리비용을 절감하고 있으며, 부동산 업계에서도 시계열 데이터와 딥러닝 기술을 활용해 미래의 집값을 예측하고 있습니다.

또한 의료계에선 가상의 시계열 데이터를 생성하여 부족한 데이터를 보충해 신약개발에 활용하거나 코로나 확산 예측 서비스를 만들기도 하였으며 유통 업계에서도 시계열 분석으로 수요를 예측해 불필요한 생산을 줄여 비용을 절감하고 있습니다.

시계열 데이터 분석 활용, 아직도 4% 미만

사례에서 볼 수 있듯 시계열 분석을 활용한다면 기업은 많은 시간과 비용을 절감할 수 있습니다. 계속해서 효율이 높아지는 만큼 중요성도 높아지고 있죠. 그러나 많은 기업들 중 시계열 데이터를 활용하고 있는 기업은 세계적으로 4% 미만이라고 합니다. 이는 시계열 분석의 중요성에 비해 현저히 낮은 수치라고 할 수 있습니다.
시계열 분석은 앞으로 더욱 발전할, 그리고 꼭 필요한 기술입니다. 기존에 해오던 데이터 분석에 ‘시간’이라는 변수를 고려해 시계열 데이터 분석을 진행한다면 그동안 발견할 수 없었던 인사이트와 유의미한 결과를 도출 할 수 있을 것이기 때문이죠.
저평가 성장주와 같은 시계열 분석. 시계열 분석을 통해 시간을 내다볼 줄 알게 된다면 데이터 분석 커리어에 있어 큰 무기가 되지 않을까요?
데이터 사이언스계의 타임스톤, 시계열 데이터 분석을 제대로 배우고 싶다면?