A股语料势力榜

Original 李斌锦缎 2023-07-04

收录于合集

#GPT 11 个

#语料 1 个

#ChatGPT 5 个

#AI 66 个

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议

GPT-4初步证明了这一点：只要掌握足够多的宇宙知识，就能够还原出足够深的宇宙逻辑，就能够成为文明的一脉。

而人类社会繁衍至今，在对客观世界与颅内世界的认知、改造的整个过程中，所形成的所有宇宙知识，都以语言文字这个容器所承载。

人类的语言文字，即人类的文明本身。这也正是OPenAI的秘密：以能够实现“语言洛希极限”的算力，基于对脑科学的模仿，对人类语言文字库进行建模（Transfomer）计算，最终实现了所谓“智能的涌现”。

在对语言文字的计算过程中，语料的价值等级依次展开：

1.字：构建语言大模型，首先要为每个字赋予独特且足够多的向量参数（理解向量参数，可以颜色为例：字本身是没有颜色的，但它对应的客体在特定状态下都是有颜色的，所以需要以特定的向量数值去标记不同颜色的深浅程度）；

2.词：词的意义在于，当多个字构成词以后，一个完整的逻辑就出现了——它必然可以形成一个句子，一个或多个句子可以形成一个完整的垂直领域内的逻辑子集。逻辑本身，就是一幅图——这是为什么语言大模型可以平顺的生成图片的原因。

3.逻辑语料：数学、物理、化学、哲学等等各个基础学科的语料内容。凡是需要通过N个句子表达的基本宇宙逻辑，最终都将构成不同的学科。而这些学科内的逻辑语料，就是我们说的规律，即（认知）宇宙的基本框架。框架不断延展，最终无限趋于宇宙本身。

4.辅助语料：逻辑是抽象的、枯燥且晦涩的。需要通过辅助型语料予以润滑，进而使得计算体（比如人类）在无意识并行计算过程中，能够建立起彼此间的交互可能性——喜怒哀乐这类浅层次的感情，以及幽默、爱这种深层次感情，都是辅助语料，它们的作用是使不同算力(能力)的计算体，都能在一个参照系内形成非歧视的平衡关系。这类语料，最优质的即文学——文学通过对人性的抽离，实现人体计算的逻辑平权（人在人性上是平等的）。这也意味着，GPT-4这类机器智能最终如何得以与人类和平共处，需要未来在人与机器之间形成一种可平权的新型辅助语料体裁。

最近，业界出现了一个很“新颖”的点：用以训练语言大模型的中文语料不足。以上述4类语料为参照，其中的不足，可能主要在于第3类与第4类。

有基于此，在我们看来，那些握有——或有能力整理出版——第3、4类语料的公司机构，将在GPT时代，有机会获得价值中枢的擢升——毕竟ChatGPT、GPT-4更大化的向人类证明了那句名言：书籍是人类进步的阶梯。也就是说，无论对机器，还是对人，自此之后，读书已被确认为最核心的生存方式。

有鉴于此，本文将聚焦A股传媒企业，对各方价值一探究竟。

出版商—语料价值链核心

2021年全球传媒产业产值达到2.2万亿美元，同比增长6.5%，高于全球GDP增速5.8%。相较于门户网站和搜索引擎纷繁复杂，充斥着虚假信息的数据集，传媒出版行业的价值跃然纸上。

而出版发行行业产业链以出版社为核心，印刷和物资供应为产业基础，通过发行环节实现最终交易。根据国家新闻出版署出版物种类划分出版图书划分为书籍、课本、图书和附录四类，在我国，出版行业的平均利润率一般为15%-25%，其中出版环节占全行业利润额的70%以上。

图：出版发行行业产业链图示，来源：华福证券研究院

（1）出版：出版机构向上触达内容提供商、印刷商及纸张、油墨供应商，图书出版一般包括申请书号、封面及版式设计、排版、审校、印刷成书等流程，最后向下连接发行机构，整合资源后将核心内容呈现给市场。

出版机构按照职能可以简单分为社科类、科技类、大学类、教育类、古籍类、少儿类、文学类和美术类八大类。由于我国出版发行行业具有高意识形态特性，实行出版社许可制度，只有国企单位才具有出版资质，民营公司只能发行除教辅外的一般图书。

（2）发行：发行机构承接图书出版之后的工作，主要负责将作品上架到发行渠道进行宣发售卖的过程，具体包括进货、仓储、运输、销售、调剂等基本环节。目前中国主流的发行模式分为两种：一种是产销结合的直接发行，该种模式下由出版机构直接销售给消费者；另一种为产销分离的间接发行，该种模式出版单位通过出版物发行商将出版物销售给消费者，因此有些情况下，发行机构与出版机构会有重合。

关于语料价值链的认知有两个层面的理解：

纵向来看，无论是任何品牌的机器学习模型，对于语料的需求度仅是需求量+1，比如GPT如果学习辞海，只需要作为读者身份买一本书。对于出版商而言，只不过是新增了一位顾客，不会有指数级的价值增量。

横向来看，机器的学习能力远高于人脑，所以横向接触语料的光度非常高，对于出版商而言，可供出版的版权种类和广度就显得额外重要。

因此带着这两个层面的理解，我们来梳理下A股上市的出版商近况。

A股语料势力榜

1、基础概况

根据职能的不同，目前中国比较流行三种出版方式，分别是出版社出版、合作出版和自费出版。总体来看，行业中市值排名前五分别为凤凰传媒、中南传媒、浙版传媒、中文传媒和山东传媒。

图：出版企业市值排名，来源：Choice金融客户端

2、语料价值

根据出版图书类别的不同，各企业聚焦方向各有不同，但总体主要分布在少儿、社科、教辅教材几个大类中，其中少儿与教材教辅类别的销量与我国新出生人口呈现正相关性，而社科类图书的销量则与目前大热的ChatGPT直接相关。

行业市值排名前五的企业出版图书构成情况如下：

图：出版企业图书类别构成，来源：Choice金融客户端

因此从数据上来看，中文传媒的一般图书（社科、文学）比重最高，根据开卷网的信息，2021年出版集团层面实洋占有率排名前三的分别是中国出版，凤凰传媒和中文传媒。

除此之外，ROIC（投入资本回报率）也能体现出版企业的语料价值，出版商的盈利模式是在获取版权后，尽可能的获取长尾收益。因此高价值的版权长期回报率更高，代表语料价值也更高。我们可以看到，内蒙新华、新华文轩和凤凰传媒的ROIC排名前三。

图：出版企业ROIC，来源：Choice金融客户端

另外无形资产也是版权价值具象化的体现之一，目前南方传媒的无形资产超过了30亿元，高于同营收水平的其他企业，具体到构成上，南方传媒的无形资产主要为土地使用权，知识产权价值并不高。

图：出版企业无形资产及研发支出，来源：Choice金融客户端

3、盈利能力

A股出版企业营收横向对比，中南传媒营收最高，为126.17亿元，营收增速为8.20%。但从收入构成来看，出版类别的实际收入中南传媒为32.73亿元，排名第二，出版业务收入最高的为中国出版44.69亿元。

图：出版企业营收及增速，来源：Choice金融客户端

毛利率在一定程度上能够反映企业核心盈利能力和在产业链中的价值，出版作为产业链中的核心环节，行业多数企业毛利率较为平均，分布在30%-45的区间内。其中中文在线因为主营业务为线上出版发行，所以毛利率达到70.85%，为行业最高。

图：出版企业毛利率，来源：Choice金融客户端

4、研发能力

再来看出版企业的研发支出，研发投入排名前三的分别为中文传媒、中文在线和中南传媒，分别为2.38亿元、1.15亿元和0.63亿元。其中中文在线研发支出占收入比重居行业首位，为9.68%。

图：出版企业研发支出及占比，来源：Choice金融客户端

5、流动性

经营性现金流方面，行业整体成熟度较高，所以行业整体近三年经营性现金流入水平较为稳定，其中以凤凰传媒、山东出版、新华文轩现金流入规模最大，分别为33.21亿元、25.57亿元及20.47亿元。

图：出版企业库存现金情况，来源：Choice金融客户端

财务综合表现端，中南传媒是行业中的佼佼者，无论是代表企业整体盈利能力的毛利率方面表现，还是研发投入的持续性，亦或是无形资产储备以及营收增速方面都名列前茅；从成长性角度来看，在具备一定规模的基础上，时代出版成长性表现可圈可点，其同等营收水平的公司里，拥有较高的研发投入与无形资产储备，另外其流动性也较强，具备更高的抗风险能力。

具体到与ChatGPT的联动方面，如果考虑机器学习横向增长大于纵向增长，结合市值中文传媒的潜在增长空间较大，因为营收种类中一般图书占比最大，其次实洋也排名前三。除此之外，凤凰传媒和中国出版的实洋占比也比较高。

往期推荐

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

A股语料势力榜

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

生成图片，分享到微信朋友圈

A股语料势力榜

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议

您可能也对以下帖子感兴趣