基于文本分析的新行业划分方法（一）：那么多研究要依靠行业划分，那行业划分本身的研究呢？【学术前沿】

智能财会联盟 2023-02-24

The following article is from 智能财会研究院 Author 洪振瀚

南加州大学与美国国际经济研究局的Gerard Hoberg和Gordon Phillips团队设计了一种新的对行业分类的方法。他们对企业10-K报告的产品描述部分进行分析，并测量产品相似度，以研究企业与竞争对手的区别。通过许多年的产品相似度测量，他们按照企业与其竞争对手的区别细分了一系列新的行业。这一系列新的划分可以解释关于高度竞争的讨论问题，以及在外生行业冲击之后行业竞争者的变化。企业的研究、发展情况与这些差异也有显著关系，这与内源性产品差异化理论相一致。以下来自《Text-Based Network Industries and Endogenous Product Differentiation》

1、绪论

基于10-K文件，每年更新的新分类方法：

界定产业边界和产业竞争力是产业组织研究的核心，也是更广泛的经济学、金融学和管理战略等学科的核心。我们基于对公司提交给美国证券交易委员会(SEC)的10-K文件的产品描述部分，使用基于文本的分析，开发了一系列新的随时间变化的行业分类。我们的论文基于一个前提，即产品相似度是对行业进行分类的核心。我们利用这些新产业来展示产业及其竞争对手在产业冲击后在竞争强度和产品供应方面的变化。我们还表明，企业研发(R&D)和广告与随后的差异化和盈利能力的提高有关。

我们首先从50,673家公司的年度10-K报告中收集商业描述内容。我们对这些商业描述中文本进行处理以形成新的行业分类，其依据是同样的产品市场词汇在同一市场中运行的公司之间会使用的特别频繁。因为它们有着10-K文件的商业描述的功能，所以我们的分类是基于公司提供给市场的产品，而不是生产过程中的产品。一开始公司被按照传统的行业分组，而不是使用公司提供的信息来决定竞争对手。为了识别相关的公司，我们的方法使用了10-K文件的商业描述部分，公司在这部分会给出他们产品的详细信息。另外10-K文件的商业描述部分是由美国证券交易委员会规定的，要求公司描述他们提供给客户的重要产品。因此，我们的新分类是基于由潜在的消费者偏好和需求产生的公司所销售的产品。

为每个公司确定一个“网络空间位置”，将语言简化为相似度矩阵:

我们的论文有两个中心思想。首先，10-K文件中关于产品的词汇描述了这些产品的特点。因此，我们使用每家公司的10-K文本，根据产品词汇为每家公司分配一个想旅馆一样的空间位置。每个公司都有一个独特的空间位置，通过寻找与该公司所处空间位置重叠的公司来确定它的潜在竞争对手。因此，潜在的竞争对手集团被定位在类似于地图的空间里。集团内的较大距离表示产品差异，集团之间的距离表示跨行业的相似性。

第二个中心思想与网络有关，我们使用10-K中的产品词汇计算每个公司对另外公司的词相似度评分，从而计算每个公司与其他公司的相似度。这样，我们将高维的、复杂的语言描述简化为一个简单的由公司相似度评分组成的矩阵。利用这些成对的相似度评分，我们将公司分成不同的行业。这样，我们的行业分类就可以表示为这些公司所组成的网络。因为公司会更新他们的10- k文件，所以这个网络是随时间变化的。在这个网络中，竞争对手就像Facebook上的朋友圈，每个公司都有自己独特的竞争对手。而公司之间的关联程度可以类比为朋友之间的亲密程度。

行业分类对企业与行业研究非常重要，但却少有关于行业分类本身的研究：

上市公司每年必须提交一份10-K报告，这使我们能够建立随时间变化的分类。利用这一时变特性，我们研究了企业如何应对产品市场内部和周围随时间的变化。例如，我们评估了公司在大的行业冲击后调整产品供应的程度。虽然许多研究使用行业分类作为控制变量，但只有少数研究对分类方案本身进行了检查，而且这些研究没有考虑到行业分类可能会随着时间发生重大变化。

我们通过两种方法创建了基于10-K文件的分类：一个是由历史驱动的，另一个以企业为中心，并且随着时间不断改变。第一种，我们称之为固定的行业分类，类似于SIC和NAICS行业。企业按照固定的产品市场定义分组，行业成员关系是传递性的。因此，该方法要求如果B公司和C公司同属于A公司的行业，那么B公司和C公司也属于同一行业。为了实现该方法，我们使用一种基于10-K产品描述中的单词使用情况的聚类算法来将公司分配到不同的行业，该算法最大化了行业内的总体相似性。

我们的第二个也是更一般的网络分类是无受约束的。我们允许产品市场定义每年都改变，并且我们放宽了固定行业分类的成员传递性要求。因此，我们把这些行业看成是不传递的，随时间变化的网络。我们在外部网站上将这些新的行业命名为基于文本的网络行业分类或TNIC。在这个分类系统中，每个公司都有自己的一组不同的竞争者。为了说明为什么传递性是有限的，假设企业A和企业B都将企业C视为竞争对手。如果A和B各自的产品具有C不具有的不同特性或长处，那么A和B可能不会相互竞争，因为它们可能服务于不同的产品部分。

相对于现有的行业分类，我们基于文本的分类在解释关键特征(如盈利能力、销售增长和跨行业的市场风险)的差异方面提供了巨大的改进。它们还能更好地解释经理们在10-K的管理层讨论和分析部分中提到的高度竞争的程度，特定竞争对手公司、广告和研发投资如何与未来的产品差异化相关。

我们的研究关注大型外部冲击对行业的影响：

利用我们识别企业产品市场位置和竞争对手身份的变化能力，我们研究了在巨大的外生行业冲击之后，这些项目是如何变化的。我们关注了9.11事件对军事用品和服务行业的冲击，以及2000年后软件行业的崩溃。在这些外生冲击之后，我们的新行业分类捕捉到每个公司的竞争对手的成员、产品相似程度以及所提供产品的性质和类型的显著变化。我们的研究结果表明，对军工行业的积极冲击导致了竞争的加剧和产品市场相似性的增加，因为竞争对手将产品市场空间重新定位到共同的高需求领域。相比之下，软件行业的负面冲击导致了相似度的降低和向更差异化产品的转移。

我们还研究了广告和研发是否与事后产品相似度降低相关。我们发现，在广告或研发方面投入更多的公司，事后相似度指标显著下降，事后盈利能力显著提高。这些发现与Sutton(1991)的假设是一致的，即企业花费在广告和研发上，以区分自己，并创造内生的进入壁垒。我们的研究结果也补充了Ellickson(2007)的研究，他分析了超市行业的内生进入壁垒，而我们为这项结论应用在更为广泛的行业中提供了支持。

新的分类方法弱化了传统分类的传递性，并可以检查跨行业间的关系：

我们的方法的好处之一是可以检查同行业内和跨行业间的关系。许多研究产品差异化的实证研究都集中在单一行业。随着时间的推移，我们能够识别出每个公司周围的独特的行业竞争对手。它弱化了现有分类的限制性和传递性。

尽管使用现有的行业分类(如SIC或NAICS)进行研究比较方便，但这些方法至少有四个局限性。首先，随着产品市场的发展，两者对公司的重新分类不足。第二，两者都无法接受创造全新产品市场的创新。在20世纪90年代末，数以百计的新技术和网络公司被归为一个大的、毫无特色“商业服务”行业（基于SIC分类）。第三，SIC和NAICS强加了一些传递性，即使是与第三家公司竞争的两家公司可能互相不是竞争对手。最后，它们不能在行业内部和行业之间提供连续的相似性度量。

论文的其余部分如下。我们在第二部分描述了语言数据和相似度计算。第三节中给出了新的行业分类的方法细节。第四节讨论新产业分类的中心属性，并给出新的产业示例。在第五节中，我们将检验新产业分类的有效性。第六部分研究了在巨大的外生行业冲击之后，行业相似性和竞争对手如何随时间变化。第七部分测试了内源性进入壁垒的理论，并研究了研发和广告是如何与随后的相似性和盈利能力的变化相关联的。第八节提出结论。

2、目标与方法：从语言描述到相似度数据

我们的行业分类的基础是：同一行业的公司会使用许多相同的词汇来识别和描述他们的产品。在这一节中，我们描述了我们建立产业关联性的新测量方法的目标，也描述了描述定义新行业的底层数据结构。

2.1、目标

我们的总体目标是通过使用灵活的网络方法，根据公司向客户提供的产品来捕捉它们之间的关联。通过这个方法测量出之前所描述的产品在空间中的距离，并且不会对网络内的成员强加关联的传递性。

我们的目标与传统的SIC或NAICS行业分类不同，传统的行业分类是根据生产过程，而不是根据公司向客户提供的产品，将公司归入预先定义好的行业类别。SIC和NAICS还会在不同产品之间强加关系的传递性，并且不提供行业内企业之间或相邻行业内企业之间的相似性度量。

我们的方法更适合这样的情况:对于同一行业内的不同对公司，公司之间的交叉价格需求弹性可能是不同的。在许多行业组织的研究中，研究人员需要获取详细的价格和数量数据，以衡量这些行业内部的交叉价格弹性。我们的分类不需要获得详细的数量与价格数据即可同时为所有的公司对提供距离度量，而对于许多有不同产品的竞争对手来说，获得所有的价格与数量数据非常困难。

我们的目标的第二个主要部分是频繁的年度更新。随着公司产品供应的变化，我们的行业每年都在更新。相比之下，公司的SIC和NAICS代码很少更新。

最后，我们可以捕捉公司之间的横向联系，而不是纵向联系。我们使用BEA的输入-输出表，从属于两个不同传统行业的相关数据对中删除了一些数据对。我们删除的数据对相对较少，仅占数据对的4%。因此，我们得出结论，我们的方法可以自然地捕获水平相关的产品供应，而不是垂直链接或垂直生产过程。

2.2、如何计算公司之间的关联——两两余弦相似度

构成我们研究的基本单元是一系列独特的词汇，他们来自1996年到2008年SEC Edgar网站上的10-K年度文件。这些词汇出现在描述部分，并被公司用来描述他们的产品。这些描述可以在每个公司的10-K档案中找到。法律要求10-K描述必须准确，还必须是最新的，代表当前的财政年度的。这很重要，因为我们的目标是度量行业如何随时间变化。

我们使用10-K描述内容来计算给定年份中每对公司的成对单词相似度评分。我们将注意力限制在名词(由Webster.com定义)和出现在所有产品描述中不超过25%的专有名词上，以避免使用常见词汇。我们将专有名词定义为在我们的10- k样本中，至少90%的情况下出现首字母大写的单词。我们还省略了超过25%的公司使用的常用词汇，我们还省略了地理词汇，包括国家和州名，以及美国和世界前50名城市的名字。

下面的直方图显示的是在产品描述部分拥有不同独特词汇的公司的比例。我们可以看到很多公司倾向于使用200个左右的独特词汇来描述自己，但有的公司也多达500-1000个，有的公司不到50个。我们将独特词汇数量少于20个的公司剔除，不予计算，因为这种描述很难提供有用的信息。

我们使用公司之间所使用的单词相互的余弦相似度评分来划分行业（具体算法请看原文，本文仅给出基本算法）。假设我们所测的所有公司的独特词汇总和是W。在我们的样本中，1996年与2008年的W值分别是61146和55605。一个公司的给点词汇i可以用Pi表示。如果这个词汇在公司描述中出现，那么就对它赋值1，否则就是0。然后我们对向量归一化，得到单位长度如下图所示：

假设每个向量的维数是W，并且由于我们将这些向量归一化为单位长度，因此在给定的年份中，所有的公司都位于一个形状为W维单位球面的空间中。我们设Qt为一个包含了所有公司i在第t年内标准向量化Vi的集合。那么Qt就是一个Nt×W的矩阵。其中Nt是第t年的公司数量Qt的第i行包含了i公司第t年的标准向量化Vi集合。因此Qt是对公司在产品空间中随时间变化的从公司到文字的空间表示的完整描述。

为了得到公司之间的网络表示，我们使用向量Vi和Vj来代表i公司与j公司，计算他们的余弦相似度公式如下：

公司之间的关系网络可以用Nt×Nt的矩阵Mt表示。该矩阵的第i行和第j列就是公司i与公司j的余弦相似度。

我们使用“余弦相似度”方法有很多原因。首先，由于其在信息处理研究中的广泛应用，它的性质已被很好地理解，而且由于其网络和空间表示，它也很直观。另外，这种方法只是稍稍地增加了计算的负担，但使它可以实际地复制或扩展。最后，此方法的规范化构建了文档长度的自然控制。

3、样本选取与两种分类方法

我们以企业两两余弦相似度评分矩阵为基础构建行业分类网络，我们考虑施加成员间关系的传递性与不施加传递性两种方法。

描述中使用的大量单词，以及余弦相似度方法的连续和有界属性，确保了Mt矩阵不会太分散，并且它的输入值[0,1]内的实数。相比之下，SIC和NAICS工业中的类似Mt受到严格的“限制”。

我们的第一种方法，如下文3.2部分所述，类似于SIC和NAICS分类，需要成员间关系传递性和固定位置属性来保持。我们将需要这两个限制性属性的分类称为“固定的行业分类”。我们下面3.3部分描述的第二种方法，放宽了这两个性质。我们将这类行业称为“基于文本的网络行业分类”。“随着技术和产品品味的发展，公司和整个行业都可以随着时间的推移进入产品领域。每个公司可以有自己独特的竞争对手。最后，当这些行业足够丰富，就能够计算行业内部和跨行业的相似性。

3.1、10-K样本与商业描述

我们使用电子收集的方式在Edgar资料库中收集10-K文件。主要样本包括1997-2008年结束的公司会计年度相关的文件。样本开始于1997年，因为这是第一次需要使用Edgar进行电子归档。我们使用独特的SEC公司标识符、中央索引键和Compustat gvkey将Edgar的10-K数据链接到Compustat。在CRSP和Compustat中都有关于1997-2008财年的公司年度报告，我们对CRSP/Compustat样本的覆盖率达到了97.9%。同时时我们样本的总体平衡性也很好。总之，我们认为我们的样本收集基本上是不带偏好，较为客观和全面的。

我们的目标是从10-K文件中提取其业务描述。文件的这一部分在大多数10- k中显示为项目1或项目1A。我们利用Perl web爬行脚本、APL编程和人工干预(当文档是非标准文档时)的组合来提取和总结本节。web爬行算法扫描Edgar网站并收集每个10-K年度报告的全部文本，之后APL文本读取算法处理每个文档并提取每个文档的产品描述及其中心索引键。当遇到非标准文档格式时，我们便采用人工干预的方法。这一套组合较为可靠，我们只排除了少数公司(大约100家)，因为它们不包含有效的产品描述，或者因为产品描述少于1000个字符，所以我们无法处理它们。

3.2、第一种方法：基于10-K的固定产业分类

为了保持与其他固定的分类(如SIC和NAICS)的一致性，我们只在第一年（1997）对10-K文件进行算法分类，形成一次行业划分，然后在之后过程中保持这些行业的固定。在以后的年份里，我们根据公司的10k文本相似度和1997年10-K产品描述中使用的频率加权词表将公司分入这些已划分好的行业。

我们最初的聚类算法的主要思想是：首先假设1997年的约5000家公司都有自己单独的行业，然后将最相似的公司分到一个行业。当所需的行业数量保持不变时，该算法就会停止。（详细信息请见原文附录）

下图显示了公司在基于10-K分析的300个行业中的分布、以及用SIC-3和NAICS-4行业分类的公司数量的分布。基于10 - k分析的行业的企业数量与基于SIC-3的行业和基于NAICS-4的行业的企业数量相似。然而，它们在两个方面有些不同。首先，考虑到一些公司有高度独特的描述，10-K行业分类中有更多的单一公司构成行业。第二，10-K分类有更多非常大的行业。

按照三种方法分类的结果大概有二分之一到三分之二的重叠。例如，同一SIC-3行业的两家公司也将在同一NAICS -4行业的可能性为61.3%。而按照10-K分类他们在同一行业的可能性为46.2%。相比之下，当两家公司处于相同的10- K行业时，它们出现在相同的SIC-3和NAICS-4行业的可能性分别为44.1%和54.2%。我们得出的结论是，基于10-K的行业分类与NAICS-4和SIC-3截然不同。

3.3、第二种方法：基于10-K的文本产业分类网络

接下来，我们放宽了固定位置和传递性要求，构建了基于文本的网络行业分类。我们设定一个简单的最小相似阈值，并定义每个公司i的行业。我们计算所有公司j与公司i的两两余弦相似度，判断其与所设阈值大小。太高的阈值会导致行业的竞争对手很少，而太低的阈值会催生出非常大的行业。

对于随机选择的两家公司i和j，如果它们属于同一行业，我们将它们标记为“成员对”。实际只有少部分相互关系被判定为“成员对”关系。虽然可以使用任意最小相似阈值来构建分类，但我们主要关注与SIC-3行业成员对比例相同的行业的阈值，这使我们能够以不带偏见的方式将我们的行业与SIC-3行业进行比较。

当我们设定21.32%为最低相似度阈值(100⋅Vi⋅Vj > 21.32)时，基于10-K分析的“成员对”比例与SIC-3一样，为2.05%,。我们考虑进一步细化以进一步减轻文档长度的影响。对于公司i，我们计算它和所有其他公司在给定年份的相似度的中值作为中值得分。从直觉上看，由于没有哪个行业大到足以覆盖整个经济，因此这个数字应该被校准为接近于零。我们通过从原始分数中减去这些中值得分来得到每个公司的最终分数。

值得注意的是，传递性属性并不适用于这些以公司为中心的行业。例如，公司A和公司B有25%的相似度。因为这比21.32%要高，所以A和B在同一行业。现有公司C，它与公司A有27%的相似度，与公司B有17%的相似度。公司C属于公司A的行业，但不属于公司B的行业，因此传递性不成立。

在定义可变的行业分类时，我们还考虑了垂直相关性。我们使用Fan和Goyal描述的方法研究了企业配对的垂直关系程度。经过分析我们得出结论，公司10-K文件中的公司业务描述确实着重于横向的公司产品供应，而不是纵向的公司生产投入。

内容转载自智能财会研究院（执笔人/洪振瀚）

智能财会系列公益讲座第三期预告

主题：人工智能时代财务机器人（RPA）的应用探索与思考

时间：2020年5月6日（周三）

主讲人：胡立军艺赛旗联合创始人&高级副总裁

直播间：请点击“阅读原文”

推荐阅读

“智能财会联盟”共同发起单位邀请函

学术前沿专题回顾

（点击题目即可跳转阅读）