查看原文
其他

基于文本分析的新行业划分方法(二):那么多研究要依靠行业划分,那行业划分本身的研究呢?【学术前沿】

洪振瀚 智能财会联盟 2023-02-24

往期回顾:

基于文本分析的新行业划分方法(一)



4、新行业分类的性能评估


在本节中,我们将讨论基于文本分析的“无限制”的行业网络分类的核心性能,并使用这种分类法分出来的一些行业来说明这些能力。我们关注的是其捕捉传统固定的行业分类不能捕捉到的网络特性的能力。这些特性包括

(1)行业内的差异性

(2)产品和行业变化

(3)跨行业关联


4.1、捕捉行业内的差异性能力

产业内产品差异化的概念可以追溯到Chamberlin(1933),他证明了差异化是产业组织理论的基础,并减少了企业之间的竞争。有用的分类不仅要识别产品市场,还要衡量行业内的差异。从Berry, Levinsohn,和Pakes(1997)开始,产品差异化研究的方法一直是在明确的产品市场中估计需求和成本参数。例如,Nevo(2000)估计了即食谷物市场中自身和交叉价格的需求弹性及其对合并后价格的影响。Gowrisankaran和Rysman(2012)研究了短期价格冲击对1个月和1年价格弹性的影响。Holmes和Stevens(2004)的研究表明,行业并不像标准分类所显示的那样同质化,因为较小和较大的公司可能会有其特殊性或表现出不同程度的差异。


后来的这些研究促进了对更精细的行业分类的需要,它们要求行业分类方法可以更灵活地评估竞争对手的分布,如以动态的方式或可以在不同层面上评估。基于文本的网络行业分类解决了这两个问题。曾经文献中使用的标准单一产业的方法的确提供了大量信息,特别是在了解定义明确的行业中的行业定价、竞争和替代的动态方面。然而,许多理论,特别是那些与内源性进入壁垒和多产业生产有关的理论,很难在单一的产业分类中进行检验。


在企业提供高度差异化的产品或服务的行业中,准确指定行业组成尤其困难。这种困难在商业服务行业很明显。根据Compustat的数据,1997年SIC代码737的行业有600多家上市公司。在SIC三位代码的这个类别中,我们发现这些公司所面临的市场是非常不同的。我们用自己的方法对该产品领域中选定的公司进行的样本分类(具体方法见原文)。我们将这个广泛的商业服务行业分为六个主要子市场:娱乐、医疗服务、信息传输、软件、企业数据管理和计算解决方案,以及在线零售和出版。每个子行业都是围绕一个重点公司使用文本网络分析计算得出的。这些子市场的公司基本都被划分到SIC737中,但有些公司同时也被分进其它行业类别,包括SIC357,366和382。这是因为许多公司利用互联网进入这些市场,但它们也经常与传统实体店的竞争对手竞争。


4.2、捕捉产品与产业变化能力

信息充分的行业分类还应该可以随时间变化。随着时间的推移,企业可能会引入新产品和停止生产原有产品,从而进入和退出各种行业。这种灵活性与Shaked、Sutton(1987)和Sutton(1991)的研究直接相关,他们认为进入壁垒是内生的。特别是,广告和研发使公司能够将他们的产品个性化并进入相关行业。这些理论激发了我们对广告和研发的研究,以及它们与行业成员和竞争的未来变化之间的联系(见第7节)。


只有经常重新计算产品市场关联性的行业分类才能把握产品市场变化的本质。一些产品领域会消失或改变。更常见的是,由于创新,新产品市场如太阳能或基于互联网的产品会频繁出现。我们对我们行业分类每年更新,这样可以捕捉到快速变化的产品市场。


我们评估产品市场变化的能力在我们研究军事和软件行业的外部冲击时也很重要。在第六部分中,我们不仅考察了竞争程度和行业成员的变化,还考察了受冲击后产品的类型和特征的变化。


4.3、捕捉跨行业联系能力

信息充分的行业分类还应该能够捕捉跨行业的相关性。如果两个产品市场非常相似,那么每个产品市场中的企业都有可能以较低的成本进入另一个市场。这种范围经济的概念是由Hay(1976)和Panzar(1981)提出的。并且,面临这种跨行业威胁的公司可能会保持低价以阻止竞争对手的进入。目前,已有的研究使用较大的SIC或NAICS分类或通过BEA的输入-输出矩阵(用于测量垂直关系)来检查跨行业的相关性。


我们的方法揭示了许多使用其他分类完全遗漏了的联系。例如,基于文本的相似性网络显示,报纸出版和印刷行业(SIC271)的公司与广播电台行业(SIC483)的公司非常相似。这个例子说明了一个事实:这两个行业都可能迎合相同的需要广告或替代物的客户。另一个具体的例子是2006年迪斯尼和皮克斯的合并。迪斯尼被归为商业服务行业(SIC737),而皮克斯被归为电影行业(SIC781)。这两家公司都做电影,但方法却不同,这在一定程度上解释了为什么他们用不同的SIC代码。在我们的基于文本的分类网络中,它们是相似的。


这些例子很有趣,因为这些公司的SIC代码即使在更广的范围内也不一致,这表明传统的分类将这些行业视为完全不相关的。因为我们的分类是基于实际的产品描述文本,所以我们能够发现提供相关产品的潜在竞争公司,即使它们目前不是直接竞争对手。


Hoberg和Phillips(2013)的研究是另一个例子,该研究使用基于10-K文件分析的语言重叠性关联分数来探索跨行业的关系。这项研究调查了为什么在某些行业中大企业集团会比在其他行业中更频繁地联合,并发现它们最有可能在相似的几个产品空间中运作,并在空间上围绕着其他高价值行业。这些发现与大型企业利用行业关联性进入附近高价值行业的做法是一致的,否则进入这些行业的成本可能会很高。



5、外部检验


我们的下一个目标是比较我们的行业分类与现有的SIC和NAICS行业分类。自始至终,我们都固定我们要检查的行业分类的细化程度。我们比较不同分类方法在关键公司特征中检测出跨行业差异的能力。然后,我们研究哪一种分类最好地解释了关于高度竞争的管理讨论和对竞争对手的披露。



5.1、新的分类方法较传统分类方法包含了更多有用信息

我们通过比较哪种分类方法能在盈利能力、销售增长和股票市场风险(市场贝塔)等指标上产生更高的跨行业差异来比较它们的信息丰富度。由于我们在比较的分类中保持了固定的细化程度,因此我们得出结论,生成更高程度的跨行业差异的分类信息更丰富。


我们用了两种方法来确保我们测试的一致性。首先是公司层面的计算:我们首先计算给定企业的特定特征的平均数作为行业值。然后是行业层面的计算:我们计算这些行业特征值在我们样本观测年度中的标准差来衡量跨行业差异。公司层面的计算对于基于文本分析的网络分类尤其重要,因为每个公司都有一组独特的竞争者。它让我们可以将基于文本分析的网络行业分类与其他分类进行比较,包括10-K固定行业分类、SIC和NAICS行业分类。


跨行业差异的行业层面的计算方法是:首先计算给定年份给定行业中所有公司的平均特征值。给定特征的行业层面差异是我们样本中所有行业年观测值的行业特征值的标准偏差。


下表的A部分显示了公司层面计算的结果。从表中可以看出,在我们考虑的5个特征中,10-K固定行业的行业间差异大于SIC-3或NAICS-4行业。盈利能力定义为营业收入/销售额(OI/销售额),SIC-3和NAICS-4的行业间差异分别为0.204和0.205,在10-K固定分类中这个值增长了12.7%,到了0.231。我们在OI/销售额、销售额增长、市场贝塔系数和非杠杆资产贝塔系数方面也观察到类似的增长。我们的结论是,10-K固定行业分类比SIC-3和NAICS-4包含更多信息。值得一提的是,这三种分类都有着同样的细化程度,并且都有着传递性等传统特征。

 


 A部分还将有传递性的分类与基于文本分析的无传递性的网络分类进行了比较。由于传递性限制了分类网络的灵活性,我们期望无传递性网络分类具有更高的跨行业差异,而这与表格的结果是一致的。在OI/sales方面,基于10-K的固定行业分类的跨行业差异为0.231,同层次的基于文本分析的网络分类为0.248,增加了7.4%;相似层次的网络分类为0.267,增加了15.6%。另外一些特征在某些情况下会出现更大的增益。例如,我们看到,当比较10-K固定分类和相似程度的网络行业分类时,资产贝塔增加了近30%。我们的结论是:基于10- k的分类比SIC和NAICS分类更能提供信息,并且与所有三种固定的行业分类相比,基于文本分析的无传递性的网络分类更能提供信息。


上表中的B部分在行业层面重复了A中的测试。虽然这种计算仅适用于传递型分类,但结论与A相同。基于10-K文件的固定分类比SIC-3和NAICS-4分类更有信息性。这种改善在经济数据上的体现也是巨大的。OI/sales差异性相对于SIC-3的提升了接近30%,相对于NAICS-4提升接近20%。因此,B的结果证明了A的结果在公司与行业层面都成立。


5.2、新的行业划分与管理层对竞争情况的认定相符

在这一节中,我们将检验拥有更多基于文本分析竞争对手的公司,是否更有可能在其10-K文件管理层讨论和分析部分中表现出竞争压力。


我们遵循Hoberg和Maksimovic(2015)的方法,检查每个公司的10-K文件的管理层讨论和分析部分。这节内容的主要来源是经理对其公司业绩和公司未来发展前景的讨论。因此,对于每个公司年度,如果经理在本节中引用“高竞争(high competition)”或其同义词,我们便定义这个公司有着高竞争度。


下表显示了逻辑回归的结果,其中的因变量是竞争程度。我们的主要自变量是对每个公司的总体相似性的测量值。总的相似度是一个全球性的衡量标准,是给定的公司和我们样本中所有其他公司在给定年份的两两相似度的总和。我们预测,如果一家公司与其他公司有更高的总相似度,那么公司经理就更有可能在其公司管理层的讨论和分析部分(10-K)中描述更高水平的竞争。

 


我们还根据给定的竞争对手与产品市场空间中的焦点公司之间的距离,将总相似性分解为不同组成部分。我们的第一个度量即总相似度是只考虑在给定年份中,对相似度超过98%的的公司集合求和的总相似度。它衡量的是企业拥有“极为相似竞争对手”的程度,而这个测量的结果与SIC-3分类的结果相似。之后我们又考虑了以下几个程度的相似性:0 - 2.0 %、2.0-5.0 %、5.0 - 10.0%和10.0 - 25.0%。这个测试之所以成为可能,是因为基于文本的网络为我们样本中的每一对公司提供了成对的相似度评分,其目的是确定经理们在多大程度上感受到竞争压力,即使公司在产品空间中距离较远。来自更遥远的同行的竞争压力的证据,将支持以下结论:与潜在进入威胁相关的问题,以及与追求限价激励相关的问题在美国上市公司间也存在。


上表显示了这个测试的结果,其中的因变量是一个指示变量,表示管理者讨论了竞争压力。第1行表明,具有较高全球总相似度的公司更有可能在其管理层的讨论中讨论竞争压力。这一结果表明,基于文本分析的网络分类有效的划分出了经理们认为是他们潜在竞争对手的公司。这些竞争对手构成了竞争威胁,经理们在解读公司业绩和未来前景时不得不提及这些威胁。


第2-6行进一步表明,这些竞争压力超出了研究人员通常研究的范围。第3行和第6行显示,当公司面对更多不那么接近的竞争对手时,他们也会在在10- k中披露与更高竞争相关的问题。因为所有的自变量都是标准化的,所以我们也可以比较大小。结果表明最接近的公司间的竞争比相似程度低一级的公司间的竞争大约重要50%;然而,这两个都是非常重要的。这些发现与“管理者不仅对当前市场上的竞争对手作出反应,而且对可能构成潜在进入威胁的邻近市场的竞争对手也作出反应”的结论是一致的。


在7 - 12行我们开始检测这个结论的可靠性。我们的结果有可能是受到相关的各种控制变量包括公司规模、年龄、盈利能力、托宾q等因素影响。而文档大小也是会影响结果的变量,我们尽量剔除这些因素对我们实验结果的干扰。总之,我们发现,随着新控制条件的添加,我们的主要总体相似性变量有所减弱。然而差异还是非常明显的,所以我们可以得出结论,我们的结果不管在控制了公司其他变量还是没有控制其他变量的情况下都是成立的。


我们还考虑了Rauh和Sufi(2012)所使用的方法,他们从Capital IQ中收集数据,将每家公司在其10-K文件中所列出的公司作为竞争对手。我们注意到,这项分析有一个重要限制,即Capital IQ的历史数据是不可用的。因此,我们提取了Capital IQ 2011年的同行数据,然后我们检验用2008年数据所算出来的文本分析网络行业划分是否比SIC-3与NAICS-4更好地解释Capital IQ的同行相关情况。我们将结果显示在下表中。从表中可以看出,网络行业划分在解释Capital IQ同行方面的能力要优于其他两种方法。


例如,我们的基本方法仅使用名词和专有名词进行分析,设置25%的停止词阈值,与Capital IQ行业划分产生了52.5%的重叠,相比之下SIC-3的比例为47.1%。我们的同行重合率甚至比NAICS-4表现得更好(55.1%,而NAICS-4的重叠率为44.0%)。由于我们保持各种方法的行业划分细化程度相同,我们得出的结论是,这些结果是分类所含的经济信息不同所导致的,而不是分类细化程度或者其他技术原因。




内容转载自智能财会研究院(执笔人/洪振瀚)



智能财会系列公益讲座第三期预告

主    题:人工智能时代财务机器人(RPA)的应用探索与思考

时    间:2020年5月6日(周三)

主讲人:胡立军 艺赛旗联合创始人&高级副总裁

直播间:请点击“阅读原文”





      推荐阅读      

“智能财会联盟”共同发起单位邀请函


学术前沿专题回顾


(点击题目即可跳转阅读)

当客户用上大数据,审计行业该如何应对(一)

当客户用上大数据,审计行业该如何应对(二)

当客户用上大数据,审计行业该如何应对(三)

会计与金融中的文本分析(一):研究背景,文本结构与可读性会计与金融中的文本分析(二):几种典型的分析方法会计与金融中的文本分析(三):文本相似度、实操、展望与总结会计欺诈预测的AUC法与NDCG法更高效的会计欺诈预测模型——集成学习与基于会计原始数据的回归模型预测会计欺诈行为大数据时代对会计与审计标准的新要求大数据审计:五大趋势与五大挑战内部审计的新方法——流程挖掘(Process Mining)当在线学习(online learning)遇上元学习(meta learning)大共享助推中小企业恢复运营的应急管理研究德勤全球机器人卓越中心调查:战略、架构和实践启示AI驱动算法成功预警武汉肺炎,背后的支撑是哪些?阿里达摩院发布2020十大科技趋势AI人机交互趋势研究(2019)新一代人工智能产业白皮书(2019 )


人才&实务专题回顾


(点击题目即可跳转阅读)财务机器人案例专题一加快企业数字化转型,中国核电财务共享中心的智能化升级之路硬核:企业财务智能化转型实施路径--人大会计系主任张敏独家分享各大高校纷纷开启智能财会专业建设与人才培养,智能财会浪潮已来【南京理工大学】面对信息技术新挑战,开启智能化改革新征程-南理工开展“智能会计”人才培养【山东财经大学】山东财经大学“智能会计”诞生记数智战“疫”,智能财务在行动--线上课堂专题智能财务助力千亿级国企山东高速集团战疫情保复工人工智能迎来重大机遇!三部委发文:扩大“双一流”高校人工智能研究生培养规模180所高校新增人工智能专业,“人工智能+X”复合型人才未来有多稀缺?


会议动态专题回顾


(点击题目即可跳转阅读)上海国家会计学院第二届智能财务高峰论坛成功举办上海国家会计学院刘勤:智能财务时代已来临 “人机共生”协作模式或将出现元年科技李彤:智能财务的关键在认知智能和生态协同

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存