科技关联度 (II)

Original 石川川总写量化 2023-02-15

收录于合集

#实证资产定价 77 个

#另类数据 6 个

#机器学习 30 个

#因子投资 56 个

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。《因子投资：方法与实践》领衔作者，《机器学习与资产定价》译者。

封面来源：https://www.pexels.com

未经授权，严禁转载。

摘

要

用更先进算法和数据打磨异象已成为内卷时代实证研究的无奈之举。然而在协变量的高维数时代，对单一异象的精雕细琢又有多少价值？在另类数据应用中，学界是否在越走越窄？

4 年前（whoa, time flies），《科技关联度》一文介绍了 Lee, et al. (2019)。该文指出公司之间以专利类别重合度计算的科技关联度（相似度）可以带来股票收益率之间的领先—滞后关系，利用它可以获得传统因子无法解释的超额收益。即便到了今天，依然可以说该文是一篇实证研究的典范。

今天的题目是《科技关联度 (II)》。我想你大概猜到了，是有人把计算科技关联度的方法升级了，这篇文章就是 Bekkerman, Fich, and Khimich (2022)。该文没有使用专利类别，而是直接对专利进行文本分析，通过提取专业术语并计算其重合度来描述公司之间的相似程度。

不出意外，升级版科技关联度“打败”了 Lee, et al. (2019)。这体现在当控制了 Lee, et al. (2019) 的变量之后，新的变量依旧能够获得超额收益，而反之则不然。且实证结果指出，在 2000 年之后，Lee, et al. (2019) 的变量逐渐难以获得超额收益，而新的变量则依然“生机盎然”。

在学界如今内卷的现状下，用更先进算法和数据打磨异象已成为实证研究的无奈之举；而一旦使用了更先进的算法和数据，也就十有八九能找到样本内更好的超额收益。从这个角度而言，Bekkerman, Fich, and Khimich (2022) 只是 follow the trend，并无特别之处。

然而，该文的一些实证结果和讨论引发了我关于此类领先—滞后关系准另类数据的一些思考。本文就抛砖引玉。

在我看来，Bekkerman, Fich, and Khimich (2022) 一文最重要的实证结果（之一）不是基于新变量的 portfolio sort 或 Fama-MacBeth regression 来表明异象能够获得多么显著的超额收益，而是 Table 2 Panel C。

Table 2 Panel C 的结果为科技关联的公司之间存在的 economic connections 提供了证据；只有 economic connections 存在，基于科技关联度构造的异象才站得住脚，否则它大概率只是雾里看花。为此，Bekkerman, Fich, and Khimich (2022) 从盈利和科技创新两方面出发研究了焦点公司和关联公司之间的关系。

以盈利为例，该文研究了焦点公司和关联公司 ROA 同期的相关性，以及焦点公司期 ROA 和其关联公司期 ROA 之间的可预测性关系。对于科技创新，他们以 R&D-to-Total Assets 为变量进行了同样的分析。以下是实证结果。

以 column (1) 中的回归结果为例，其因变量是焦点公司期的，而最重要的自变量是以科技关联度为权重加权得到的和焦点公司所关联的那些公司同期的 ROA，即。回归结果显示，和的关系在 1% 的显著性水平下显著。类似地，在 column (2) 的回归中，因变量变成了焦点公司期的。回归结果表明，期的能够预测焦点公司期的。表中 columns (3) 和 (4) 报告了 R&D 的结果，可以得到类似的结论。

可见，无论是盈利还是科技创新，焦点公司和关联公司同期都有显著的正相关，此外关联公司的t期数据能够预测焦点公司期的数据。上述实证结果表明了具有科技关联度的公司之间的 economic connections，而这些联系为 asset pricing 提供了基础。

当然，存在 economic connections 是股票收益率存在关联的前提，但它并不足以成为焦点公司和关联公司的股票收益率之间存在领先—滞后关系的充分条件。在这个逻辑链条中，我们还缺乏另外一块最重要的拼图——投资者的有限注意力。

而这正是我最想讨论的部分（spoiler alert，在下一节的讨论中，我对所有这类因投资者有限注意力导致的领先—滞后表达了担忧）。

该文另一个重要的（且是让我陷入深深思考的）实证结果是 Table 6 Panel C。

在该表中，作者将他们基于文本计算的科技关联度和 Lee, et al. (2019) 基于专利类别计算的科技关联度进行了比对，其中 Panels A 和 B 分别汇报了两种计算方法的结果，而 Panel C 则基于两种方法对满足条件的股票进行了细分。Panel C 中：

TS-text NOT TS-class 表示基于文本相似，但基于类别不相似；

TS-text AND TS-class 表示基于文本相似，且基于类别相似；

TS-class NOT TS-text 表示基于类别相似，但基于文本不相似。

除此之外，作者不仅考虑了 full sample，还将整个样本分成了四个时间区间，以此分析可预测性如何随时间发生变化。这四个区间为1977 – 1986、1987 – 1999、2000 – 2008 和 2009 – 2016。

到此，给自己的“坑”就算是挖好了。哦，不对，是实证设定就做好了！

在下面的结果中，最有意思的是在 1977 – 1986 以及 1987 – 1999 这两个区间，或统称为 2000 年以前，TS-text NOT TS-class（文本相似但是类别不相似）并不能获得显著的超额收益；反倒是 2000 以后，它迎来了大红大紫的黄金年代。

这样的实证结果不禁让人大大的疑惑。

Bekkerman, Fich, and Khimich (2022) 对此的解释是：1999 年之前，专利数据并没有被数字化，因此对投资者来说可以认为是不可得的。在 1999 年之后，专利数据被放到了互联网上，极大的降低了投资者获取的难度。他们猜测这就是 TS-text NOT TS-class 在 2000 年之前不好使的原因。

看完这个解释后我更加困惑了。

对于一个常规的协变量（比如诸多 firm-characteristics），如果变量/数据背后代表的 economic connections 存在，那么它不应该受到数据是否对投资者可得而影响，且当没有投资者使用的时候（也就更不存在过度套利），这种 connections 所带来的超额收益应该更高，而不是消失（Linnainmaa and Roberts 2018）。也正因如此，AQR 在 Buffett’s Alpha 一文中才发出“巴菲特才是真的神，我们只是事后分析的凡人”的感慨。

然而基于 TS-text NOT TS-class 的科技关联度怎么就不好使呢？是上述认知有问题，还是它并非一个常规的协变量？是否存在另一种合理的解释支持“专利数据在 2000 年开始变得可得导致了该结果”这种说法？

Here is the trick.（特别感谢因子动物园园长对此的讨论。）

科技关联度（以及其他方法计算的各种花式相似度）本质上是公司之间的关联形成的动量效应。逻辑上来说，是由于投资者注意力有限，没有注意到只有完全理性的投资者能认识到的关联（无论是 Lee, et al. (2019) 还是这篇都有这方面的充分讨论），所以导致信息扩散缓慢，进而导致焦点公司的关联公司的历史股票收益率能够预测其股票收益率。

接下来，重点来了！

这里的前提是信息扩散缓慢的原因是投资者注意力不足，而不是投资者完全完全意识不到关联。注意力不足意味着投资者未来能认识到关联，因而会有信息的进一步扩散和关联动量。而后者意味着投资者压根就看不到关联的存在，因此也就没关联动量效应了。

在这个解释下，一切似乎能说通了。在 2000 年以前，当专利数据还没有广泛可得的时候，投资者根本不知道这类数据存在，因此什么有限注意力以及由此导致的公司间动量也就无从谈起。

合理吗？也许吧，但很难说一点不牵强。这似乎在传递着，所有公司间的花式动量（各种领先—滞后关系）存在的前提都有两点：1. 投资者意识到了数据的存在；2. 由于投资者有限注意力，因此没有充分利用数据，导致信息缓慢扩散。它给我一种“观测到数据，就有；没有观测到数据，就没有 ”的苍白。

对于这方面综述感兴趣的小伙伴，我也安利一下因子动物园园长之前做的报告。报告的在 factorwar.com 上可下载，地址为：

https://www.factorwar.com/wp-content/uploads/2021/05/%E5%87%86%E5%8F%A6%E7%B1%BB%E6%95%B0%E6%8D%AE%E4%B8%8E%E5%AE%9E%E8%AF%81%E8%B5%84%E4%BA%A7%E5%AE%9A%E4%BB%B7%E7%A0%94%E7%A9%B6.pdf

本文的最后讨论一下升级版科技关联度击败了老版这类现象。这并非科技关联度异象特有的现象，而是会出现在任何异象上。随着构造数据的丰富和构造手段的复杂，迭代后的异象一定会在实证中打败老的异象。

但是，在协变量的高维数时代，精雕细琢一个异象又有多少实践价值（发 paper 的学术价值自然是有）？如果另类数据只是用来打磨异象而非揭示出更多公司之间的 economic connections，那么人们在这条路上是否越走越窄？（这也是为什么我认为 Table 2 Panel C 才是 Bekkerman, Fich, and Khimich (2022) 的点睛之笔。）

对于升级版科技关联度在 2000 年之后十分有效，但基于专利类别的关联度却逐渐失效的结果，我们可以从两方面来解读。第一个就是投资者有限注意力的问题（当然，我们假设投资者已经意识到了数据的存在！）。第二方面，我想到的是 Martin and Nagel (2022) 以及 Nagel (2021) 中提到的投资者学习问题。比起专利类别，基于文本计算相似度要更加复杂，即投资者获取和处理专利数据的成本更加昂贵，因此大多投资者会在为公司估值时忽略这方面的信息。这将导致他们使用过度稀疏的估值模型，进而造成样本内和样本外收益率可预测性。

毫无疑问，另类数据打开了量化投资的新篇章，但是当我们在使用这类基于新数据以及新技术挖出的协变量时，也应该对其背后获得超额收益的原因有更加深刻的思考。最后，让我以 Nagel (2021) 中的一段话结束本文（截图来自我和王老师翻译的中文版《机器学习与资产定价》）。

参考文献

Bekkerman, R., E. M. Fich, and N. V. Khimich (2022). The effect of innovation similarity on asset prices: Evidence from patents’ big data. Review of Asset Pricing Studies forthcoming.

Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics 132(3), 76 – 96.

Linnainmaa, J. T. and M. R. Roberts (2018). The history of the cross-section of stock returns. Review of Financial Studies 31(7), 2606 – 2649.

Martin, I. W. R. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145(1), 154 – 177.

Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton, NJ: Princeton University Press.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

川总写量化

分享量化理论和实证心得

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

科技关联度 (II)

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

科技关联度 (II)

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时