查看原文
其他

关于时间序列分析(TSA),你需要知道这15个词

数据应用学院 大数据应用 2023-08-17

今日份知识你摄入了么?


时间序列分析



一个时间序列,就是在不同时间戳收集的数据点序列,而这些数据点序列则是以相同的时间间隔从相同的数据源收集的连续测量。利用这一技术,我们可以使用这些按时间顺序收集的读数来监测一段时间内的变化趋势。时间序列模型可以是单变量,也可以是多变量——当因变量是单个时间序列时(如来自单个传感器的室温测量),使用单变量时间序列模型;当有多个因变量时(即输出取决于多个序列,如相互关联的变量“GDP”、“通货膨胀率”、“失业率”一起建立的模型),可以使用多变量时间序列模型。


  • 时间序列表示一系列时间点读数,单位可以是“年”、“月”、“周”、“日”、“时”、“分”或“秒”。

  • 时间序列是来自连续间隔的离散时间序列的观察。

  • 时间序列是一种运行图。


 关于时间序列分析,你需要知道这15个词


  • 时间变量/特征是自变量,支持目标变量预测结果。

  • 时间序列分析被用于不同领域,如天气预报,经济走势,信号处理,工程控制系统和通信系统。

  • 时间序列分析涉及产生特定序列的信息集,与空间分析等其他分析截然不同。

  • 使用AR、MA、ARMA和ARIMA模型,我们甚至可以预测未来。



时间序列分析需要理解的15个重要术语



1

平稳和非平稳时间序列

Stationary and Non-Stationary Time Series


平稳性是时间序列的一种特性,一个平稳序列表示其序列的值不是一个时间函数。换句话说,平稳序列的统计特性(如均值、方差和自相关)在时间上是恒定的,其序列的自相关所表示的只不过是序列与其先前值的相关性(如下图所示)。平稳时间序列不会被其他因素干扰。


来源:https://www.researchgate.net/publication/348592737/figure/fig3/AS:981645804970018@1611054006754/Examples-for-stationary-and-non-stationary-time-series.png


2

趋势Trend


趋势表示时间序列数据在长时间内的大致方向,可以是增加(向上)、减少(向下)或水平(静止)



3

季节性Seasonality


季节性是指在时间、方向和幅度方面重复的趋势,比如由于天气炎热,夏季用水量增加。


用R爬取数据的季节性和趋势性:https://anomaly.io/seasonal-trend-decomposition-in-r/index.html


4

周期性Cyclical Component


有时候,趋势不会固定在某个时间点出现。一个周期(通常在商业里)是指时间序列某个表现出起伏、繁荣和萧条的时期。这些周期不表现出季节性变化,但根据时间序列的性质,通常在3至12年的时间内轮回一次。


5

不规则变化Irregular Variation


时间序列数据中也会存在波动,特别是去除趋势和周期性变化时,这些波动尤为显眼。这种变化不可预测,不稳定,不规则,让人捉摸不透。


6

ETS分离ETS Decomposition


ETS用于分离时间序列的不同分量,所谓“ETS”代表的是误差、趋势和季节性。


7

关联Dependence


指的是同一变量在先前时间段的两个观测值的关联。


8

差分Differencing


差分可以让序列平稳,自我掌控。某些时候,我们不需要差分,事实上,过度差分的序列也可能会产生错误的估计。


9

规格Specification


即通过使用时间序列模型(如ARIMA模型)来测试因变量的线性或非线性关系。


10

ARIMA


ARIMA,即自回归移动平均模型。


它可以利用时间序列的过去值和误差来预测其未来值。



11

加法和乘法时间序列

Additive and Multiplicative Time Series


由于会有不同的趋势和季节性组合,我们根据趋势和季节性的性质,可以将时间序列建模为加法或乘法时间序列(观测值表示为分量的和或积)


加法时间序列:

值=基础值+趋势+季节性+误差

乘法时间序列:

值=基础值×趋势×季节性×误差


Python季节性:加法还是乘法?(https://sigmundojr.medium.com/seasonality-in-python-additive-or-multiplicative-model-d4b9cf1f48a7)


12

自相关Autocorrelation


自相关性是时间序列中两个不同观测值之间的相关性,两个被间隔开来的值可能具有很强的正相关或负相关性。当相关性存在时,就表示过去值影响了当前值。分析人员可以使用自相关和偏自相关函数来了解时间序列数据的性质,拟合适当的模型进行预测。


不同时间序列的自相关函数


13

偏自相关Partial Autocorrelation


在时间序列分析中(https://en.wikipedia.org/wiki/Time_series_analysis),偏自相关函数(PACF)能给出平稳时间序列与其自身滞后值的偏相关(https://en.wikipedia.org/wiki/Partial_correlation),回归时间序列在所有较短滞后处的值。与不控制滞后的自相关函数对比起来,它显得格外亮眼。https://en.wikipedia.org/wiki/Autocorrelation_function)


来自维基百科


14

滞后图Lag Plots


滞后图是时间序列相对于其自身滞后的散点图,通常用于检测自相关。


滞后图


15

可预测性Forecastability


时间序列的规律和可重复模式越多,预测就越容易。“近似熵”可以用来量化时间序列中波动的规律性和不可预测性。这也代表着,“近似熵”越高,预测的难度越大。


如果你要测量某个市场需求的变异系数,无论是实际销售量还是预测销售量,你都只会得到一个数字,既代表可预测,也代表不可预测——它不会告诉你哪部分是可预测的。

原文作者:Azmine Toushik Wasi

翻译作者:高佑兮

美工编辑:过儿

校对审稿:Chuang

原文链接:https://medium.com/@azmine_wasi/15-important-terms-to-understand-for-time-series-analysis-f492c90b4747

往期精彩回顾

我在第一份业务分析师工作中学到的五条经验

只会Pandas?来学习这25种Pandas变SQL的方法,让你的数据分析更得心应手!

带你读懂Go语言

用Python构建Amazon产品推荐系统

七个实用的Python机器学习库






点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存