시계열 3

[시계열] 시계열 데이터의 패턴과 성능 평가, 이동 평균으로 간단 예측하기

시계열 데이터란?시간의 흐름에 따라 기록된 데이터일정한 시간 간격에 의해서 기록된 시계열도 있고, 그렇지 않은 시계열도 존재함 시계열 분석의 활용 분야forecasting : 데이터를 기반으로 향후 수치를 예측imputation : 과거의 비어있는 데이터를 채움detect anomalies : 정상 패턴과 다른 형태를 나타내는 이상치를 탐지spot pattern : 데이터 내 특정 패턴을 감지 시계열 데이터에서 자주 나타나는 패턴 현실에 존재하는 시계열은 각 경우들을 조금씩은 가지고 있음추세가있는 경우Trend데이터가 증가하거나 감소하는 등 특정 방향으로 움직이는 경우꼭 선형적일 필요는 없음 계절성이 있는 경우Seasonality패턴이 예측 가능한 간격으로 반복될 때 관측되는 것일정한 빈도로 발생 가능한..

AI/시계열 2024.01.07

[Visualizing Time Series Data in Python] Seasonality, Trend and Noise, Work with Multiple Time Series

Datacamp의 [Visualizing Time Series Data in Python] 강의를 듣고 해당 내용과 추가적으로 공부한 내용을 정리한 포스팅입니다. Autocorrelation and Partial autocorrelation Autocorrelation 자기상관 지연된 자기 자신과의 상관관계를 측정 자기상관이 없는 경우를 백색잡음(white noise)이라고 부름 Auto correlation function Partial autocorrelation 편자기상관 자기상관과는 다르게 이전 시점들의 영향을 제거하여 계산한 상관계수 해당 시점에서 이전 시점들과 연관된 것을 제거한 결과물인 잔차들에 대한 상관계수 Partial auto correlation function Autocorrelat..

[Visualizing Time Series Data in Python] Line Plots, Summary Statistics and Diagnostics

좋은 기회가 생겨서 DataCamp의 시계열 입문 강의를 수강할 수 있게 되었다. 되도록 매주 강의를 듣고, 해당 강의를 정리하고자 카테고리를 하나 개설했다. Working with dates pandas에서 시계열 데이터로 작업을 할 때, 날짜의 형식은 datetime64로 지정하는 것이 좋으며, 판다스의 to_datetime을 이용해서 지정할 수 있다. # 기본 pd.to_datetime(컬럼) 기본적으로는 위와 같이 사용하면 되지만, 날짜가 아닌 요소들이 해당 컬럼에 섞여 있는 경우 "ValueError : Unknown string Format"과 같은 오류가 나게 된다. 어느 곳에서 뭐가 섞였는지 파악이 가능하다면 알아서 처리하면 되는데 그러기 힘든 경우에는 errors를 이용하면 된다. pd...