查看原文
其他

反思大模型公司的数据飞轮【2023Q4】

孔某人 孔某人的低维认知
2024-08-23

TLDR

  • 低垂的数据飞轮仍然存在,但需要大模型公司有有效地判断数据质量的方式,并直接向用户购买。

  • 应用场景中大模型会逐渐朝着渐进有监督的方向去演化。

  • 大模型公司的技术路线会朝着内部复杂数据工艺方向去演化(详见3.4节)

1、大模型公司的 数据飞轮是否存在

OpenAI到底有没有数据飞轮一直是个大家担心的问题。最近在这方面的评论是王小川在7月底说OpenAI的数据飞轮效应不明显。

那么大模型公司主要还是看模型技术而非数据么?我认为并不是,但这个数据飞轮可能也并非原本大家想象的用户越多就自动会更好的那种数据飞轮。

1.1、何为数据飞轮

数据飞轮这个概念广为人知应该是亚马逊CEO传播的,它本身描述的范围比较广,泛指一切可以通过数据来改善已有业务服务且具有正反馈效应的方式。

但这个方式要想长期维持并不是大部分场景都很容易,已有数据的收集可以用于改善智能化系统,但这个过程的收益是边际递减的是否具有长期显著的正反馈效应还要看效果的提升是否能够刚好突破用户对服务质量需求曲线上的拐点。

现在不少人把数据飞轮仅作一个容易实现的狭义理解,也就是随着数据的增加,业务“自然”地就会有正反馈效应。例如:平台上的数据内容越多,就越能吸引更多的用户,而更多的用户又能以某些方式导致更多的内容出现在平台上。这个过程不需要平台做非常困难的数据挖掘或者持续的智能化升级,以下把这种数据飞轮称为“低垂的数据飞轮”。

1.2、大模型公司的数据飞轮

大模型公司有数据飞轮么?是低垂的数据飞轮么?

很难想象说大模型公司没有数据飞轮效应,毕竟数据飞轮的定义过于宽泛,“数据变多了对于大模型公司没有任何作用”似乎不可能。

大模型公司的数据飞轮是低垂的数据飞轮么?大家一度认为“是的”,但现在大家则对此判断有分歧。大模型训练的数据清洗、数据增强工作被认为越来越重要,现在缺的并不是数据,而是“清洗过的数据”。单纯的新增大量低质量的数据不能说完全没有提升,但边际收益已经很低。即大模型公司不具有“低垂的数据飞轮”

2、现有场景分析

先从一些具体的场景来做一些局部分析。

2.1、LLM的数据截至日期

OpenAI在2023.11.6首次更新了其LLM模型的数据范围,这被认为是一个显著的提升,即使它没有太多技术上的难点需要突破。在现在快速发展的时代,之前的2021.9月的时间太早,都没法问OpenAI的LLM关于LLM应用的任何事情,看起来像是笑话但却是事实,因为那些信息基本都是2023年才有的。

这里大家在乎的是“它增加了从2021.9更新到2023.4月的数据”么?其实大家在乎的是“它增加了从2021.9更新到2023.4月的【信息和知识】”。

用户并不在乎说在这不到2年的时间里,英语的用词频率改变了多少、各种类型的文档的写作格式微调了多少、代码中tab缩进或空格缩进哪个流派变强了一点……

数据是重要的,但并不是其中所有的信息都同等重要。用户确实在乎其中的某些维度,而不在乎其他方面。

2.2、DALL-E 3

https://cdn.openai.com/papers/dall-e-3.pdf

DALL-E 3在我看来是2023下半年文生图赛道最大的进展,因为它认真地解决了一个数据痛点:高质量的图文对过少,已有的图文数据对的文字部分也过于简单。这种人工标注数据的缺失和过于简略问题是广泛存在的,我在 微调与RLHF在实际业务中的最佳实践思路【2023H2】 中也提过。

OpenAI专门做了一个图像的文字描述生成模型来为图像产生更详细的文字描述,以便文生图模型能够更好的建立文字描述到图片的关联。读者可以把它看成是一个与GPT4V类似的图像到文字的特化模型。

在DALL-E 3刚发布时,明确地展示了其策略流程:先使用LLM根据用户的简短描述生成若干细节更多的prompt文字,然后再用文生图模型去画图。目前已经把prompt过程阶段隐藏,但仍然可以通过查看生成图片结果来查看其对应的原始prompt。

这种方式除了能够弥合用户输入的过于简洁文字与文生图模型需求之间的gap,同时也能够利用LLM中的世界知识来构建一些原始数据集中没有的场景。

无论是图生文的标题生成模型,还是包含世界知识的LLM,新的数据/模型确实给这个功能带来了效果上的大幅提升。很明显这些数据的利用方式并非自动出现的,不是低垂的数据飞轮。这个过程也很难没有数据凭空完成,仍然需要很多原始图片,以及适当数量的人工标注。

2.3、多模态的左右互搏

现在OpenAI有了全球最好的图片理解模型和最好的文生图模型,它是否会将这两者结合起来进行交叉提升呢?应该会的,没有什么理由不这么做。

到这能说OpenAI已经实现了左脚踩右脚飞天,不再需要图文数据了么?并不是的。我们是可以不加入数据去训练一组文生图和图生文模型,但我们如何确保得到的两个模型都是基于人类文化的,而不是它自己随机得到的某种图像表达方式和“文化”呢?我们完全没法保证。

虽然这个方式已经能够实现某种程度的“数据生产”,但它做不到新的人类信息和知识的自动生产,这些内容仍然是要靠外部注入才行,需要不断的注入最新的信息来确保它跟上了人类文明的发展。从技术上来说,这个方式应该看成是一种数据增强的方式,即:更充分地利用数据中包含的信息和知识的方式,而不是新创造这些信息和知识。

2.4、训练集外的新场景

虽然大模型的训练语料/数据集中已经包含了很多知识和信息,经常被人说是包含了全人类所有已经数字化的知识,但实际上并不是这样的。

所有大模型公司并非大国的政府机构,也并非超越国家的组织。世界上没有公司或者国家或者超国家组织能够强制搜集到全人类的所有信息和知识。每个公司都是只能搜集到自己能搜集到的数据而已,这跟国内互联网生态的割裂没什么本质的区别。最明显的体现就是OpenAI的模型的中文能力明显弱于其他主流语言,中文的语音能力也明显弱于其他主流语言。这就是因为OpenAI能够搜集到的中文数据太少导致的,它能搜集到的更多是港澳台的数据,在中文数据方面远远不能跟国内互联网大公司相比。

实际上具体的大模型公司还面对很多方面的数据缺乏问题,例如:

  • 自己无法获取的领域/语言的数据

  • 尚未被大量数字化的场景/领域,例如私人社交、多人聚会等。

  • 并不允许公开商用的领域/场景,如高度隐私的领域。

  • 之前就没有人去完成任务的场景/领域,例如LLM出现之后大家试图让它的一些之前也没有人去完成的任务。

在这些数据缺乏的领域,新增数据的价值仍然很明显。虽然这些领域场景中,随着数据量的增加,边际效应也会明显。但这些领域/场景有很多,还会随着LLM应用的普及而不断增加,所以在普适模型的意义上数据飞轮还有很大空间。

3、总结与展望

3.1、新场景的低垂果实

在很多场景/领域中,现有的大模型技术并非瓶颈,低成本的收集到这方面的数据仍然是木桶最短板

这方面的低垂的数据飞轮还很显著。但大模型公司目前并不擅长低成本的生产和收集数据,它们的启动核心主要还是大模型的技术本身,即处理、提炼数据的能力,而非生产数据的能力。

由于新领域/场景众多,而又随着大模型的应用而不断拓展,所以这个方面会持续的有新的低垂果实出现。

未来一段时间,大模型技术、算力、和跨领域的数据交叉收益还是很显著的,相对于持有业务数据的垂直领域公司也并非毫无优势。大模型公司想要继续转动数据飞轮需要不断的增加新场景/领域数据,后续所有大模型公司都会在某种意义上成为数据公司,或者被有数据的公司圈养。

想要在数据来源上独立发展的话,低成本的新场景数据获取能力就至关重要。

“如何系统的规划低成本的数据获取方式”这个问题我还没有答案,仅讨论我看到的几点:

【1】直接做2C产品,以及给其他2C产品提供上层的业务API

最直接的获取数据的方式就是直接做业务,这样数据就自然获得了。现在轰轰烈烈的基座LLM创业公司转去做2C产品,我认为也是符合这点的,当然这只是原因之一。

是不是要获得这类方面的数据就得亲自做产品,而不能仅仅做一站式API呢?我认为并不是。在数据方面,大模型公司做业务只是手段,不是目的,只要能够获得业务数据,只提供API技术支持,把品牌、渠道等交给其他公司也并非不可行。2C产品的设计和运营能力是否是大模型公司所擅长的也是一个问题。

【2】在提供API服务的同时,为数据付费

虽然OpenAI一直承诺不会利用API请求的数据来优化模型,但并非所有调用API的客户或者使用产品的客户都不能接受“把数据用于改善模型”。他们更主要在乎的是“不要给自己带来伤害”,例如说数据被卖给别的公司、数据泄露、隐私信息或核心价值信息出现在未来别人的请求结果中。

那么一个不错的方式就是:在调用API的请求中,找出对自己当前价值较高的数据,在客户也同意的情况下为此付费,购买这部分数据的使用权。为数据付费的价格甚至可以超过API的调用费用,即变成给用户倒贴钱。但前提是真的能做好为每次或者每批数据评估对自己公司的价值。

衡量一次调用的数据是否对模型有用,无论是从非技术角度还是从算法角度来看,都不是一个简单的事情。在一个批次上进行非实时评估要简单一些,但仍然是有很大困难的。但这并非该绕过去的问题,即使在【1】的方式中,某种程度上也需要评价某个业务数据对自己价值的能力。这个方面能力我认为会成为拉开不同大模型公司之间企业效率差距的主要维度之一。

3.2、无监督/自监督的 边际提升正在快速降低

LLM这种自监督模型的巨大成功给了人们对此类思路的巨大期待。但事情并没有这么简单。

在我来看,到底是无监督/自监督、还是有监督,并非谁会替换谁,而是像钟摆一样地来回摆动。两个方向上技术都有发展,但长期来看两边是交替突破的。最近一个阶段无监督/自监督的方式刚取得了快速提升,在大部分文本模态上的取得了一波快速提升,之后呢?在每个具体问题上,无监督/自监督突破之后,下一波大概率会是朝着有监督的方向转化。有些方面由于算力和数据问题还没有完成无监督/自监督突破的,下一波可能会是无监督/自监督的方案,也可能不是。

无监督带来的提升很难持续,这和它的特点有关:数据的积累和算力等等基础能力的提升是渐进的,模型架构的升级是阶梯性的。所以刚上完一个台阶之后,数据量和算力的能力提升还很有限,除非模型架构的升级能够短时间内快速升级几次,否则这个方向的短期潜力就用完了。毕竟机器学习和优化算法在给定数据和量化目标的情况下,一次就能做到最好。没有说今天做了60分,明天做到65分,后天做到70分的渐进提升。同样的训练/优化过程,算法的人不跑到基本收敛的位置(接近最好)就不会停下来发布。目前大家训练LLM的经验还没有达到最好,这方面还可以改进,但在某个固定的配置下,单次LLM的训练没有明显的再提升空间。现在人训练LLM的经验能够快速提升么?受限于LLM极其昂贵的训练成本,即使是人自己来学习,速度仍然是很慢的。

OpenAI在GPT4发布之后,核心能力仍然没有大的提升,更多是把能力向横向扩展了。在我看来GPT4已经是OpenAI把各方面资源都几乎用到极致的结果,所以这导致它的进一步改进难产,到11月才发布了turbo版本和扩展上下文长度。我们看到的每个前沿成果都已经使尽浑身解数才得到的,下一次提升谁也无法保证在什么时候才能出现,这也是为什么说“10倍好于”GPT4的GPT5会遥遥无期。当然OpenAI可以在明年选个时间随便把一个GPT 4.1改成叫做GPT5,某种意义上GPT5总能发布,但效果不可期。

3.3、摆锤 摆向 有监督

无监督/自监督 和 有监督并非0即1的,完全的无监督/自监督只有一种,但有监督是可以灰度的。例如:

  • 使用prompt调用LLM构造了一批数据,prompt所包含的意图是人指定的。

  • 为文生图数据构造专门的详细文字描述生成模型,这个认知和过程是需要人的认知并进行设定的。

  • 各种数据增强方式都是人有意的去除某些信息/相关性。

这些方式并不是完全由人去标记了一批数据去做有监督学习,但确实是有人参与指导整个学习过程的,而非无监督或者自监督,仍然需要人来提供某种指导信息。目前这中中间地带究竟要叫什么仍然没有广泛的共识,我个人倾向于将其化作有监督的范围,以体现需要认真的人工设计这一点。实际上它应该是在无监督和有监督中间的位置,目前还比较偏向于无监督,但随着人工知识补充的增加,方案会越来越向有监督的方向移动

除了少数资源、数据、资源还不受限的领域或者公司外,大部分团队在达到目前它自己资源所能达到的无监督/自监督方案baseline效果之后,想要继续提升最好的方式就是多头并进:改善数据、提高算力、增加人工知识降低模型学习难度。而这其中,增加人工知识降低模型学习难度(即朝着有监督方向前进)是最便宜的,因为它需要的仅仅是人的思考和设计,相对于数据和算力的指数级提升,这个的成本还是比较低的

回顾OpenAI在模型研发方向上的决策,虽然它们主体上还是靠堆算力堆数据来大力出奇迹的,但很明显最近一年以来它们有了更多人工的设计和考量。OpenAI并不回避包含人工设计的方案,这是我对其评价很高的地方。反观不少其他的团队,反而可能没有这么务实。相对来说,国内由于人多、场景多、算力少、短期压力大,是更适合去走增加人工设计的方式的。当然人工设计的介入方案也是有高下之分的,长期使用还是中短期就被淘汰,这考验着整体方案架构者的视野和对技术发展的预测能力。

3.4、多模态联合 与 复杂数据工艺

虽然在多模态场景中体现的最明显,但在“多个场景之间进行联合设计,取得超过单个场景模型能力”这点,其他方面也有很多机会。某种意义上来说,这是迁移学习应用的爆发阶段。

未来像是OpenAI这种由多模态数据、全面的多模态模型研发能力的公司,在其内部模型和数据的生产流程可能会很复杂。如果把数据集和模型当成节点,那么这个研发路径依赖图的节点超过30也不是什么难以想象的事情。

我们现在看到的数据集类似于工业生产中的最初的铁矿石,需要反复经过多次工艺流程,把其中的知识逐步提取精炼,剔除不必要的内容,变成适合去训练最终模型的高质量数据集/知识库。我相信OpenAI内部已经做了一些这样的事情,即数据本身清洗过程会复杂到使用LLM和其他大模型。

当然这条线并非唯一路径,如果人类能在大模型的拆解上取得突破,那么可能也不需要在数据工艺流程上大动干戈,但在我来看那是一条更为困难的路线。在中期(3-5年)尺度上,在数据工艺流程上的投入会更快见效。

现在国内的追赶企业还在不断积累着数据清洗方式,但我估计应该还没有几个达到了“对全量数据使用大模型进行清洗和增强,且不止一轮”的程度。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

读者交流群见 公众号读者交流群 11.8

希望留言可以知乎对应文章下留言


本文于2023.11.11首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/666309718

个人观点,仅供参考
继续滑动看下一个
孔某人的低维认知
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存