抄袭与创新
最近经常听到一些大模型厂家的人在谈:
“如果没有追赶上国外先进模型厂家, 怎么能够超越呢?”
把抄作业说的那么冠冕堂皇, 然后每家都抄一点组成一个缝合怪出来... 但是这些国外“先进”的厂家都是对的么? 大家都在探索的过程中, 是否还有更好的解法呢?
其实背后存在着一个前置条件判断, 什么是“先进”.
抄作业并不可耻, 但可耻的是没品味的乱抄作业还觉得自己特么先进. 对于ScaleUP那些互联的争议就懒得多提了, 来说说大模型本身吧.
对于自回归模型, 最近经常在谈一个很极端的例子, 假如把的前1000亿位灌入大模型, 大模型能推理出后续位的数值么?
按照当前大模型从业人员的话术来说: 后面每一位输出预测正确的概率为10%, 然后按照test time scaling law. 只要有足够长的时间,MCTS死劲儿的造, 几乎可以确定(Almost Surely)能够预测对后续位的数值. 再极端点就是如果有无限只猴子和无限长的时间, 黎曼猜想的证明都可以产生出来.
当前大模型的路径本身是否有错误, 是否足够的“先进”?
对于Transformer本身的架构和算法来看是非常优秀的, 同时在计算密度和访存密度上充分的利用了现代GPU的计算资源, 另一方面Self-Attention的机制对于序列数据间的关系描述上相对于早期的LSTM/RNN以及针对时间序列数据的分析预测上, 超越了以往所有的经典模型.
但是从最早的Pre-train Scaling Law到后来的Inference Scaling Law. 模型本身的高维泛化能力和外推能力还是存在很多缺陷, 当然这句话可能很多人不认同, 但过一两年就能看到它的天花板了.
对于逻辑推理这些能力,本质上我们需要的是在Transformer的基础上建立一套高阶的代数结构, 构建出一套Composable Transformer的架构. 其实从最近的Anthropic Model Context Protocol(MCP)就能看到一些雏形了.
MCP Server是否还可以继续递归调用MCP Server, 多个MCP Server构成一个元组然后再添件一些条件执行, 也就是几年前就一直在谈论的一个话题
《谈谈DeepMind会做算法导论的TransNAR并引出基于SAE-GNN的可组合Transformer猜想》
《大模型时代的数学基础(6)-从word2vec谈谈表示论,组合性,幺半范畴和Dataflow Optics》
但是很遗憾的是国内的一众大模型厂商, 在商业化变现的压力下, 基本上都在走一条复现“先进”模型的路, 而并没有很大的定力去做一些深入的思考和实现, 大部分还是Llama缝合怪的路数, 只有极少数的一两家有一些让人眼前一亮的东西.
本质上对现有的基于Transformer的自回归模型的天花板的观点在于其数学工具的局限性. 而我一直以来有一个暴论:这一次人工智能革命的数学基础是:范畴论/代数拓扑/代数几何这些二十世纪的数学第一登上商用计算的舞台。
当然这条路非常艰难, 例如大模型怎么和真实物理世界的定律结合, 举个稍微简单的例子, 我们能否使用纤维丛理论来描述一些结构? 当然对于预训练构成的attention网络, 是否能用纤维丛来分析它们相互之间的关系和映射,构成一个更高维度的代数结构, 并在此之上构建自约束的训练?
我也没有答案, 但是相对于不停的消耗算力去复刻各种“先进”的LLM, 在算力逐渐被约束的情况下, 或许我们应该考虑一下别的路径了...