Lazy Prices公司年报内容变动碰上股价偷懒
这篇没有任何代码,但是这篇文章中用到的网络爬虫、数据清洗(正则表达式)、文本向量化、文档相似度,在之前大邓都陆续分享了,2019最后一天我们通过这篇文章来串一串python数据分析这几个步骤都怎么用的~
本文摘自
Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.
使用1995年-2014年所有美国公司季度和年度申报的完整历史记录,研究发现当公司对报告进行积极更改时,这种行为蕴含着公司未来运营的重要信号。
财务报告的语言和结构的变化也对公司的未来收益产生重大影响:做空"变化"的公司(持有的公司,如果其报告发生变化的,做空该公司股票),买入“不变化”的公司,使用这样的投资组合策略,在2006年的每月alpha值高达1.88%的收益(每年超过22%)。报告中涉及执行官(CEO和CFO)团队的话语风格的变化,或者有关诉讼(风险部分)的话语的变化,都对投资的未来收益有重要作用。
研究发现,对10-K的变化可以预测未来的收益、获利能力、未来的新闻公告,甚至未来的公司破产。同时,不做任何变化的公司将获得显著的异常收益。与资产价格典型的反应不足研究不同,我们发现没有任何与这些变化相关的公告效应–仅在后来通过新闻,事件或收益披露信息时才产生回报–暗示投资者并未注意到整个公众领域的这些变化。
Abstract
Using the complete history of regular quarterly and annual filings by U.S. corporations from 1995-2014, we show that when firms make an active change in their reporting practices, this conveys an important signal about future firm operations. Changes to the language and construction of financial reports also have strong implications for firms’ future returns: a portfolio that shorts “changers” and buys “non-changers” earns up to 188 basis points in monthly alphas (over 22% per year) in the future. Changes in language referring to the executive (CEO and CFO) team, regarding litigation, or in the risk factor section of the documents are especially informative for future returns. We show that changes to the 10-Ks predict future earnings, profitability, future news announcements, and even future firm-level bankruptcies; meanwhile firms that do not make changes experience positive abnormal returns. Unlike typical underreaction patterns in asset prices, we find no announcement effect associated with these changes–with returns only accruing when the information is later revealed through news, events, or earnings–suggesting that investors are inattentive to these simple changes across the universe of public firms.
之前的研究认为,尽管投资者一次对包含重大变化的财务报表的发布作出了迅时反应,但随着时间的流逝,这种公告作用是会减弱的(Brown and Tucker, 2011 and Feldman et al., 2010)。这表示10-K报告会随着时间推移,信息价值大打折扣。尽管我们复现了这个事实,即与常规文件的变更没有重大的公告效应,但我们认为,前人的研究忽略了更重要部分(如MD&A)对对资产价格的影响。
确切的说,并不是报告的披露效应的信息价值变低了,而是投资者越来越难以发现报告中微妙的信息变化, 比如因为报告变得越来越冗杂。投资者只有看到某些新闻后,才会逐渐意识到之前公司报告内容变化的的真正价值。
例如Baxter公司
纽约时报在2010年4月23日发了一条FDA将有对输液泵(infusion pumps)更严格对审批管理规定的新闻,新闻中提到了Baxter公司。新闻公布当天,Baxter股价大跌。
10天后的(2010年5月4日),Baxter宣布召回问题的输液泵产品,股价当天再次大跌。
两次负面新闻导致Baxter股价大跌超过20%,最有意思的是Baxter公司一个多月前(2010年2月23日)10-k报告中提到了与这两条新闻类似的线索。
截图中写着Baxter的产品COLLEGUE未来可能面脸额外的处罚,而且相关销售面临着FDA、OIG、DOI和FTC越来越严格的审批,面临的执法强度也越来越大。
因纽约时报发布的消息,股价大跌。但是大跌之前Baxter的10-k报告中似乎提示未来公司可能面临的风险,但是投资者怎么没有注意到这个重要线索呢?
这篇文章用到了很多 文本数据挖掘 方法,如
数据采集(报告下载和信息监测)
正则表达式(数据分割与抽取)
文本相似度(计算报告变化程度)
我大致说下这几部分技术在这篇论文中的应用。
1. 数据采集
这篇论文研究者认为,只有投资者意识到本期报告和上一期报告做对比,才能发现报告变化,进而对股价有影响。所以当有新公告公布后,投资者是否下载本期报告的同时顺带着下载上一期报告,下载量又是多少。
下载量可以从Freedom of Information Act下载,
可以拿到的信息包括:
报告文件
报告下载时间
报告下载的IP地址(可以通过这个ip来当作投资者的id)
2. 正则表达式
一个公司报告文件会有不同部分,我们需要将不同的部分分别识别出来。这里用到正则表达式,可以进行快速的数据清洗和数据抽取。
3. 文本相似度
文本转为向量后就可以进行相似度计算
如果对Baxter公司多个年度对报告进行相似度计算,绘制成图就会发现2010年与前后变化很大。相似度越低,说明公司报告前后变化很大,应该引起投资者注意,如果能注意到就会避免纽约时报导致到股价暴跌。如下图
对报告不同部分进行单独分析,求的均值。如下图,就会发现Item7,也就是MD&A部分是报告变化的主要部分。
广告时间
这篇论文用到的数据挖掘方法,我都整理出了一门课程,涵盖4部分约10小时
python语法入门
数据采集,网络爬虫
文本数据清洗与分析
机器学习与文本分析
课程学习方式
如果觉得不错,请帮忙点赞转发,给大邓的2019画上大写的O