其他
大模型套壳祛魅:质疑套壳,理解套壳
The following article is from 甲子光年 Author 赵健
今天,所有大模型的内核,都起源于 2017 年谷歌大脑团队(Google Brain,2023年 4 月与谷歌收购的 AI 公司 DeepMind 合并为 Google DeepMind )发布的Transformer 神经网络架构。Transformer 一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。在 Transformer 诞生的十年前,有一部好莱坞大片《变形金刚》在全球上映,这部电影的英文名字就叫「Transformers」。就像电影中能够灵活变身的变形金刚一样,作为神经网络架构的 Transformer 也可以通过改变架构组件与参数,衍生出不同的变体。Transformer 的原始架构包含两个核心组件——编码器(Encoder)与解码器(Decoder),编码器负责理解输入文本,解码器负责生成输出文本。在 Transformer 的原始架构上「魔改」衍生出三个变体架构——只采用编码器(Encoder-only),只采用解码器(Decoder-only),以及两者的混合体(Encoder-Decoder)。这三个变体架构分别有一个代表性模型——谷歌的 BERT ,OpenAI 的 GPT 系列模型,以及谷歌的 T5。今天,这三个模型名称通常也指代了其背后的模型架构名称(后文也以此指代)。
二阶:构建 Prompt。大模型可以类比为研发,Prompt 可以类比为需求文档,需求文档越清晰,研发实现得越精准。套壳产品可以积累自己的优质 Prompt,卷 Prompt 质量高,卷 Prompt 分发。
三阶:Embedding 特定数据集。把特定数据集进行向量化,在部分场景构建自己的向量数据库,以达到可以回答 ChatGPT 回答不出来的问题。比如垂直领域、私人数据等。Embedding 可以将段落文本编码成固定维度的向量,从而便于进行语义相似度的比较,相较于 Prompt 可以进行更精准的检索从而获得更专业的回答。
四阶:微调 Fine-Tuning。使用优质的问答数据进行二次训练,让模型更匹配对特定任务的理解。相较于 Embedding 和 Prompt 两者需要消耗大量的 Token,微调是训练大模型本身,消耗的 token 更少,响应速度也更快。
如果把模仿 Llama2 架构做预训练也算进去,可以看做第五阶。这五重进阶,基本囊括了大模型「套壳」的每一个场景。值得一提的是,上述行为能否被称为「套壳」,在业内也说法不一。算法工程师刘聪对「甲子光年」表示:「我觉得,只有一种情况算套壳——直接做 API 的买卖,比如说一些免费使用大模型的网站,用来收集数据、倒卖数据。其他情况其实都不算。在 to B 行业,要做行业化的解决方案,只会套壳不可能做到;就算是 to C,如果有自己对产品的理解,也不能说是套壳。难道做大模型应用的都是套壳吗?」「套壳这个词,贬义太严重。」刘聪说道。脱离具体的场景谈论「套壳」,都是贴标签的行为。当行业褪去了对套壳的污名化理解,把不同进阶的套壳行为看做一类正常的商业行为,才能更加理性客观地分析大模型的优劣。只是,大模型厂商在宣传的时候,应当更谨慎地使用「自研」,以及具体解释自研的内容。否则,只会加剧理解的困惑。「套壳」有竞争力吗?Suki 认为,一个 AI 应用产品如果停留在做一阶和二阶,注定是个门槛极低的产品,没有任何壁垒。而什么场景,何时以及如何使用三阶和四阶的能力,是个关键性的问题。一位算法工程师告诉「甲子光年」,大模型真正关键的问题在于业务的成本结构和护城河,而不是套壳与否。把成本降低、把「壳」做厚,自然就产生了竞争力。