其他
A股语料势力榜
本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议
在对语言文字的计算过程中,语料的价值等级依次展开:
1.字:构建语言大模型,首先要为每个字赋予独特且足够多的向量参数(理解向量参数,可以颜色为例:字本身是没有颜色的,但它对应的客体在特定状态下都是有颜色的,所以需要以特定的向量数值去标记不同颜色的深浅程度);
3.逻辑语料:数学、物理、化学、哲学等等各个基础学科的语料内容。凡是需要通过N个句子表达的基本宇宙逻辑,最终都将构成不同的学科。而这些学科内的逻辑语料,就是我们说的规律,即(认知)宇宙的基本框架。框架不断延展,最终无限趋于宇宙本身。
纵向来看,无论是任何品牌的机器学习模型,对于语料的需求度仅是需求量+1,比如GPT如果学习辞海,只需要作为读者身份买一本书。对于出版商而言,只不过是新增了一位顾客,不会有指数级的价值增量。
横向来看,机器的学习能力远高于人脑,所以横向接触语料的光度非常高,对于出版商而言,可供出版的版权种类和广度就显得额外重要。