人们对未来的不确定与对灾难的担忧在市场上的量化反映（一）【学术前沿】

洪振瀚智能财会联盟 2023-02-24

华盛顿大学与耶鲁大学的Asaf Manela和Alan Moreira利用从1890年开始的《华尔街日报》的头版文章，基于文本构建了一个度量未来不确定性的方法。他们定义了新闻隐含波动率(NVIX)，其在股市崩溃、政局动荡、世界大战和金融危机时达到峰值。他们发现在美国战后时期，NVIX若处于高位，股票回报率也会高于平均水平（即使排除了其他波动指标的干扰）。与战争和政府政策相关的新闻报道解释了风险溢价的时间变化。在包括大萧条和两次世界大战在内的大跨度的1890-2009年样本中，高NVIX在正常时期预示着高未来回报，并且在经济灾难来临前会上升。这些证据与“稀有灾害风险是总资产价格波动的一个来源”的理论是一致的。以下文章出自《News implied volatility and disaster concerns》【DOI: 10.1016/j.jfifineco.2016.01.032】

1 绪论

回望历史，我们能发现人们对于未来的很多担忧都是杞人忧天，当我们去找寻那个时期的具体经济数据，会发现人们的担忧很少在经济数据中得到证实。而当罕见事件发生时，实际数据与投资者的普遍看法的差距就会变得更大。在这种情况下，人们的担忧可能会频繁变化，但实际经济数据往往会让这些担忧显得毫无根据。当这个时期过去，留给后人们的往往只有确切的数据，而那个时期人们心中的看法和社会思想则会被遗忘。而本文便旨在量化这一在尘埃落定后被遗忘的时代精神。我们的目标是测量人们对未来不确定性的感受，并调查是什么类型的不确定性驱动了股票市场的总风险溢价。

我们的出发点是，商业媒体所报道的话题代表着当时投资者的关注点。我们根据《华尔街日报》头版报道和期权隐含波动率(VIX)之间的相互影响，建立了一种不确定性度量，我们称其为新闻隐含波动率，简称NVIX。NVIX有两个有用的特性有利于我们进一步了解不确定性和预期回报率之间的关系:(1)它可以观测很长时间内的数据,如19世纪的最后十年,涵盖大型经济动荡时期,战争,政府政策变化,和各种各样的危机，是一个很好的观测时期;(2)它的变化容易被理解，也能帮助我们分析风险变化的来源。第一个特征使我们能够研究报纸报道中反映的风险补偿是如何随时间波动的，第二个特征使我们能够识别哪些风险对投资者来说很重要。

我们所依靠的是机器学习技术。我们使用支持向量回归(SVR)估计期权价格和单词频率之间的关系。与普通最小二乘法(OLS)相比，该方法的主要优点是它能够处理的因数的范围更大。我们发现NVIX能很好地在样本外预测VIX，其均方根误差(RMSE)为7.48%(R² = 0.19)。当我们用实际波动率而不是VIX进行测算时，即使回溯到几十年前，它也有很好的表现，这表明在此期间报纸的词汇选择是相当稳定的。

资产定价理论认为期权隐含波动率的波动可以有效预测股市收益，它衡量了预期股市波动率、方差风险溢价和重大经济灾难发生概率的波动。在这样的理论支持下，我们研究NVIX波动是否含有关于股票风险溢价的信息。

我们首先关注战后时期，这段时间的高质量股票市场数据被许多文献普遍研究。我们发现有力的证据表明，投资者不确定性越大，股市回报率就越高。NVIX指数标准差每增加1，预计未来一年的年化超额回报率将增加3.3个百分点，未来两年的年化回报率将增加2.9个百分点。

我们深入挖掘NVIX捕捉到的不确定性的本质，并发现了三条证据证明这些回报可预测性结果是由投资者对罕见灾难的担忧的差异导致的。

我们的论文是第一个使用机器学习技术从新闻报道中提取总体不确定性信息的。近几年的一些其他研究使用了更人工方法来提取这些信息。如经济政策不确定性指数（Baker, Bloom, and Davis (2013)）和Loughran，McDonald(2011)的基于单词列表的测量方法。我们也发现NVIX能够很好地将文本与总风险溢价相联系。

然后，我们将分析范围扩展到更早的动荡的1896-1944年间，以检验NVIX是否能预测经济灾难。理论上说，衡量灾害的变量不仅应该预测收益，还应该预测灾害。我们开发了一个贝叶斯框架来估计灾难的确切时间。在两次世界大战之间的3个明显的灾难时期的后验概率为1。与NVIX能够反映人们对灾难的关注的认识一致。NVIX指数标准差每增加1，就意味着明年发生灾难的可能性将提高2.5个百分点。

我们的实验结果与大量“严重经济灾难对资产定价的影响”相关研究结果相一致。至少从Rietz(1988)开始，金融经济学家就开始关注美国经济数据中没有得到体现的的重大事件对定价的后果。Brown认为，在如此长时间的样本中还能够捕捉到美国股市股票溢价的能力，这表明美国股市的历史是特殊的。Barro指出，通过与20世纪世界历史相一致的校准，可以使实证文献中的股票溢价估计具有定量意义。Gabaix进一步表明，对随时间变化的罕见灾害风险模型的校准可以解释数据随时间的变化。

我们的研究必须基于这样一个事实：估计总风险回报需要大量的数据与实例。Lundblad(2007)表明，研究使用的样本太小是方差-预期回报权衡研究无法和谐的经典原因。而检验重大灾害的影响时这种情况会更加严重，因为灾害风险的合理衡量方法可用时间不超过20年，而重大灾害不会经常发生，案例可能会出现不足的情况。

我们的论文将波动率指数中的信息与宏观经济灾害联系起来，将其追溯到一个世纪以前，并在灾害和回报可预测性回归之间使用交叉方程来限制其概率方差和持久性。重要的是，通过从NVIX中分解不同的单词类别，我们为这篇文献增加了对不同灾难的可解释的度量，并获得了关于风险溢价变异来源的新见解。

广泛地说，我们的论文将为未来越来越多的将文本分析应用于解决基本经济问题的研究做出贡献。Hoberg和Phillips (2010)利用公司描述的相似性来确定竞争关系。Tetlock(2007)发现在金融栏目中积极和消极的单词的比例能够预测日后道琼斯工业指数。这些效应大多会迅速逆转，对此比风险理性补偿更好的解释是行为投资者情绪影响。我们使用的支持向量回归法比更常见的根据语气对单词进行分类的方法更加优秀。它被许多研究者成功地用于从10-K文件中预测公司特定波动率。

2 数据与方法

首先我们将介绍我们独特的新闻数据集，以及我们如何使用它来构建基于新闻的期权隐含波动率度量。随后我们将介绍我们所依赖的标准资产定价数据，以调查灾难担忧心理会对美国股市定价产生影响。我们假设商业媒体的措辞能够很好、很稳定地反映普通投资者的担忧。这种假设很自然，也符合新闻公司的模式，即先观察真实世界的事件，然后选择在报道中强调什么，最终打响自己的招牌，扩大影响力。对这一观点许多文献也有证明：Gentzkow和Shapiro(2006)沿着这些思路创建了一个模型，并提出了与模型预测一致的各种经验证据。Tetlock(2007)提出了新闻媒体反映读者兴趣的观点，Manela(2011)对其进行了实证支持。

2.1、新闻隐含波动率（NVIX）

我们的新闻数据集包括从1889年7月至2009年12月华尔街日报所有头版文章的标题和摘要。只关注头版标题和摘要可以提高我们的数据收集效率，并且降低分析难度。此外，这些都是在光学字符识别之后手工编辑和校正所得的，样本可靠性有一定保证。我们忽略了每天都会出现的标题。使用标准文本分析包将标题和摘要分别分解为一个和两个单词的n连字符串，用下划线替换频繁出现的单词(stopwords)，并删除包含数字的字符串。

我们将新闻数据与芝加哥期权交易所(CBOE)报告的隐含波动率指数VIX和VXO结合起来。我们使用1986年以来就可用的旧的VXO隐含波动率指数，而不是1990年以后才可用的VIX指数，因为它提供了更多的数据，而且这两个指数在月份频率上的相关性为0.99。

我们把样本分成三个子样本。1996年至2009年的“训练”子样本被用来估计新闻数据与隐含波动率之间的相关性。1986年至1995年的“检验”子样本用于模型拟合的样本外检验。“预测”子样本包括VIX指数无法得到的所有早期观察结果。

我们将n连字符串计数按月聚合，以便每次观察都能达到相对较大的文本。因为在我们的样本中，每篇文章的字数和每天的文章数量都在持续变化，所以我们按照每个月n连字符串的总数对其计数进行标准化。我们省略了在整个样本中出现少于三次的n连字符串。因此，每个月的文本可以用xt表示，xt为一个K值为468091的代表n连字符串频率的变量。

我们使用n连字符串频率与线性回归模型预测波动率vt。

其中w为回归系数的K个变量，显然最小二乘估计无法应用在这个情况。我们使用支持向量回归来克服这个问题，支持向量回归是一种对具有极大特征空间k的短样本表现良好的估计方法。SVR使下列目标最小化:

Gɛ是一个误差阈值，低于ɛ的误差都可以忽略。最小系数向量w是回归项的加权平均值。

SVR在专注于xt的子空间并不适用(Hastie, Tibshirani, and Friedman, 2009)。例如，即使“和平”一词对波动率指数的预测很重要，比在其他波动率指数较低月份频繁出现的其他词都要重要，但SVR却会给这两个词赋予相似的权重。最终，SVR的成败必须通过样本外拟合来评估。

图1展示了预测结果。让我们看到“训练”子样本，最突出的几个时间段的是1998年8月的长期资本管理(LTCM)危机、2002年9月美国明确表示入侵伊拉克、2005年至2007年异常低的波动率指数，以及2008年的金融危机。样本内拟合效果很好，R方为91%。的严格置信区间证明该估计方法对“训练”子样本的随机化(替换)不敏感。这让我们相信，该方法揭示了词频和VIX之间相当稳定的映射，但由于特征空间如此之大，我们有必要担心过度拟合。

但是，如表1所示，模型对“检验”子样本的样本外拟合良好，RMSE为7.48%，R方为19%。除了这些统计数据，我们还报告了测试子样本实际VIX值对NVIX值的回归结果。我们发现NVIX在统计上是实际VIX的一个强有力的预测因子。

2.2、NVIX是不确定性的合理指标

NVIX很好地反映了长期以来普通投资者的担忧。NVIX中值得注意的峰值包括1929年10月和11月的股市崩盘以及我们在图2（图2详见原文）中标注的其他动荡时期。股市崩盘、战争和金融危机似乎在NVIX的形成过程中发挥了重要作用。然而，2000年3月的科技泡沫破裂却没有出现。因此，并非所有的市场崩溃都表明人们对经济灾难的担忧在加剧。我们的模型在1987年10月股市崩盘时产生了一个峰值，在1990年8月伊拉克入侵科威特引发第一次海湾战争时达到了另一个峰值。这让我们有信心在整个预测子样本中使用该模型来预测VIX，在这一段时期中几乎没有期权交易，而实际的VIX是不可用的。

我们发现，一般投资者感知到的不确定性的峰值，与股市崩盘、世界大战和金融危机同时出现，这似乎是合理的。由于上述每一项担忧都恰好是NVIX飙升的时候，我们发现它似乎是投资者不确定性的一个指标。

令人惊讶的是，NVIX指数在大萧条时期相对平稳，当时NVIX从25%上升到30%，在1929年10月达到了40%的峰值。然而，就像简单期权波动率一样，NVIX是不确定性的前瞻性度量，自然比已实现波动率（在灾难发生时飙升）更平滑。或者这也可能是因为测量误差使NVIX衰减。

2.3、单词选择的稳定性与测量误差

我们假设商业媒体的措辞能够很好、很稳定地反映普通投资者的担忧。否则，我们用来解释文本的机器学习技术会产生隐含波动率估计噪声干扰。这种测量误差会使我们的可预测性结果偏向于零。

一个值得担忧的地方是，投资者担心的问题会随着时间的推移而改变。例如，沙尘暴是20世纪30年代的一个显著特征，会导致干旱和农业破坏。因为在我们的训练样本中，这种类型的事件不太可能引起现代投资者的足够关注而成为头版新闻，所以我们会错误地衡量30年代盛行的不确定性感知。从技术上讲，要可靠地估计总体不确定性的具体来源和商业报刊的用词之间的关系，我们需要在子样本期间对两者进行改变。我们选择在最近的样本上估计经验模型，并在更早的样本上进行测试，这样我们可以在更早的时间得到样本外拟合的认识。如果我们颠倒顺序，对早期样本进行估计，我们的文本回归将会错过由于2008年金融危机而产生的重要变异，而只关注1987年的股市崩盘。

另一个相关的问题是，商业媒体使用的某些词或短语的意思在我们的长样本中已经发生了相当大的变化。例如，20世纪40年代，“日本海军”这个字符串可能代表着重大灾难，但战后它的含义会随之改变。理想情况下，我们会只考虑那些更常见的具有稳定意义的短语，比如“战争”。

我们发现我们对长样本的预测能力是稳定的。表2报告了几种不同的实现波动率度量的方法，它们适合于所有三个子样本的新闻数据。最自然的拟合指标是文本回归均方根误差(RMSE SVR)，“预测”子样本的测量误差仅略高于“检验”子样本的测量误差。RMSE年化波动率从9.6%上升到10.7%。这些结果表明，当我们将VIX进一步回溯到该指数不存在的时候，NVIX的测量误差只会略有增加。

2.4、资产定价数据

我们使用两种不同的数据源来获取股票市场数据。分别是证券价格研究中心(CRSP)从1926年到2009年期间的总市场投资组合和从“全球金融数据”获得的从1896年7月到1926年间每月的道琼斯指数。我们将这些称为“市场回报”。如果我们全部使用道琼斯指数，结果也是类似的。我们选择这些数据来进行我们的可预测性测试，因为这个指数代表了整个经济，并且可以追溯到很久以前。我们使用CRSP总市场组合和道琼斯指数的日收益来计算波动率。为了计算超额回报，我们使用一个月的国库券利率来衡量无风险利率，如果该数据不可得，我们会使用来自“全球金融数据”的10年期美国政府债券的收益率来暂时代替。我们用穆迪Baa和Aaa债券收益率的差值来衡量信用息差。这个数据只在1919年以后才有。我们使用了芝加哥期权交易所的VXO和VIX指数。它们是隐含波动率指数，由标普500 (VIX)和标普100 (VXO)指数的一篮子期权价格衍生而来。VIX时间序列始于1990年1月，VXO时间序列始于1986年1月。本文作者作者提供了Bollerslev和Todorov(2011)的left-tail测量。我们还使用OptionMetrics数据来度量标准普尔500指数隐含波动率曲线的斜率。

执笔人丨洪振瀚

推荐阅读

“智能财会联盟”共同发起单位邀请函

【学术前沿专题回顾】

（按住蓝色区域上下滑动可查看更多内容）

基于MD&A的支持向量回归（SVR）法在解释应计项目时的有效性检测（一）

基于MD&A的支持向量回归（SVR）法在解释应计项目时的有效性检测（二）

基于MD&A的支持向量回归（SVR）法在解释应计项目时的有效性检测（三）

基于文本分析的新行业划分方法（一）

基于文本分析的新行业划分方法（二）

当客户用上大数据，审计行业该如何应对（一）

当客户用上大数据，审计行业该如何应对（二）