查看原文
其他

一个有意思的关于ChatGPT的问题清单

zhpmatrix KBQA沉思录 2024-04-15

笔者中文医疗大模型系列文章目录:

Scaling Laws

随着模型的参数量(Parameters)、参与训练的数据量(Dataset Size)以及训练过程累积的计算量(Compute)的指数性增大, 模型在测试集上的 Loss 就线性降低,也就意味着模型的效果越好,谓之scaling laws[2]

相比运算量的增加,参数规模的增加可以起到更关键的作用。给定计算量且参数规模较小时,增大模型参数量对于模型效果的提升,优于增加数据量和训练步数。

因此Scaling Laws有可能是大模型演化的根本指导,在模型实践上,“暴力”真的可以带来“美学”。

Compute Optimal

在DeepMind[3]的工作中,给出了计算最优的观点。在计算量相同的情况下,达到最优loss的条件下,模型参数和训练数据量存在一个最优关系。

按照这种逻辑,文章中同样给出了几种更加具体的计算方式,目前存在一些大模型是没有得到充分训练的。从另外一个角度,比如做行业垂直模型7B/13B这样的量级,可以回答到底需要多少数据量的问题。但是在LLaMA[4]的工作中,提到“LLM might continue to improve the loss after optimal tokens.”

除此之外,loss也是可以预测的[5],可以写成模型参数量和计算的一个函数,如下:

batch_size也可以是loss的一个函数[5],如下:

相关结论在BMPrinciples[7]中可以了解到更多。

Compression

LLM本质上是一个无损压缩器。而压缩与涌现能力,甚至与AGI紧密相关。借用知乎许欣然[8]的举例:

  • 如果模型能把 123456789101112 压缩到极致的小,说明模型已经发现了排列的规律

  • 如果模型能把一堆行星的空间坐标都压缩的特别小,说明模型可能已经理解了牛顿定律

  • 如果模型能把海量的语言数据压缩的特别小,说明它已经洞悉了语言中的语法规律

在OpenAI看来,AGI基础模型本质是实现对最大有效数据集的最大程度无损压缩

在Stanford MLSys Seminar中,Jack Rae的Talk《Compression for AGI》[9]从MDL(最小描述长度)展开讨论,更详细地展开,在《为什么说GPT是无损压缩器》[10]和《压缩下一个token通向超过人类的智能》[11]中。

马毅[12]老师一直在推崇的“We learn to compress and compress to learn!”,认为对于离散信号,可以考虑无损压缩;对于连续信号,则必须考虑有损压缩。

理论非常的性感,朴素地讲,假设用y=f(x)来表征建模的流程,f可以表示多种方式,比如y=decode(encode(x)),假设f是一个compresser,则LLM是当下的SOTA。从这个角度,也许有更好的f。

故《ChatGPT Is a Blurry JPEG of the Web》[13]之类的观点,自然也是有意思的。

文章第二部分整合了张家俊老师的《关于ChatGPT八个技术问题的猜想》中的内容并做部分更改,笔者在大多数问题上和张老师观点一致,但也存在不一致的地方。

ChatGPT的通用性为何做得如此之好?

涌现是复杂系统中的概念,如果一项能力没有在较小的模型中出现,但出现在较大的模型中,则称为涌现。涌现能力是通用性的根源。Google做了一个关于instruction tuning的非常关键的工作叫做FLAN[1],其中针对“新意图识别能力”的涌现条件是:模型大小到达一定规模(比如65B),instruction任务的类型到达一定数量(比如40)。这篇文章的一作已经去OpenAI了。实际现在的一种主流观点是,不再对instruction任务的类型数量作限制,将模型大小达到10B及以上作为涌现的条件。更好地参考文章见这里[6]

为什么面向对话的微调没有遭遇灾难性遗忘问题?

对于ChatGPT而言,基于GPT-3.5,分别在SFT阶段和RLHF阶段完成了两次微调,前者是对问答任务的微调,后者是完成答案排序。但是微调之后的模型没有拟合在问答任务上,依然具备各项通用能力。比较容易想到的是,基座模型足够大,但是微调数据较少,故不会显著影响基座模型的通用能力。从另外一个角度,在微调阶段,除了问答任务,还有其他的比如代码生成,翻译,摘要等多样性的任务。这同样启发我们,针对ChatGLM-6B完成SFT阶段之后的对话能力遗忘的问题,也可以通过类似的方式缓解。

ChatGPT的大范围上下文连续对话能力是如何做到的?

可能来自两个方面的原因。SFT阶段的高质量多轮对话数据,RLHF阶段提升了回复质量,用间接的方式提升了多轮的一致性。在张家俊老师看来,还存在对较长Token的显式建模能力,比如8192,人类在一次对话过程中很难超出这个长度。但是实际测试过程中,对于超过这个范围的上下文也能得到还不错的理解。

ChatGPT的交互修正能力是如何炼成的?

在与ChatGPT交互过程中会发现,无论是用户更改自己之前的说法还是指出ChatGPT的回复中存在的问题,ChatGPT都能够捕捉到修改意图,并准确识别出需要修改的部分,最后能够做出正确的修正。ChatGPT不可能具备实时在线学习能力,一方面是模型太重,学不动。另一方面,由于是来自C端用户的反馈,在无法绝对保证准确的反馈输入前,模型在学习上要保守一些,万一被教坏了呢?针对这个现象,张老师给出了3点解释:

(1)OpenAI人工构建的对话数据中包含一些交互修正的案例,微调后拥有了这样的能力;

(2)人工反馈的强化学习使得模型输出更加符合人类偏好,从而在信息修正这类对话中表现得更加遵循人类的修正意图;

(3)可能大模型达到一定规模(e.g. 60B)之后,原始训练数据中的交互修正案例就被学到了,模型交互修正的能力自然就涌现出来了

ChatGPT的逻辑推理能力是如何学到的?

目前的主流观点是来自代码学习。通过混合代码和文本训练模型,也许代码注释建立了代码和文本之间的联系,使得模型习得强大的推理能力。而对于ChatGPT展现出来的multilingual能力,比如在中文任务上的能力,可能训练数据中存在的中英文对照在发挥着巨大的作用。

ChatGPT是否针对不同下游任务采用不同的解码策略?

张家俊老师给出的一个观察是:“对比不同类型的任务时,我们会发现ChatGPT的回复多样性针对不同下游任务差别比较大。针对“如何”、“为什么”等“How”、“Why”型任务时,重新生成的回复与之前的回复无论是表达方式还是具体内容具有较大差异,针对机器翻译、数学应用题等“What”型任务时,不同回复之间的差异非常细微,有时几乎没有变化。”,这里,我们倾向于相信ChatGPT能够学习到任务相关的非常理想的概率分布,也就是说,基于采样的解码策略就可以适用于所有任务。

ChatGPT能否解决事实可靠性问题?

目前不能。如果希望ChatGPT解决事实回答的可靠性问题,可能需要进一步提升模型的拒识能力,也就是过滤掉模型确定无法回答的那些问题,同时还需要事实验证模块来验证ChatGPT回复的正确性。实际上,目前的一个做法是借助搜索引擎的能力,基于搜索引擎返回的知识,ChatGPT做总结。在解决事实可靠性的同时,也能一定程度上解决知识和信息的时效性问题。不过,这里的问题是,不是所有的知识都能被搜索引擎检索到,这是另外一个话题了。

ChatGPT能否实现实时信息的学习?

难也没必要。比较实际的策略是,一方面每隔一段时间用最新的数据更新模型,另一方面,基于voting机制实现模型的在线实时学习能力,不过技术挑战依然非常大。

整体上梳理下来会发现在底层基础知识上会存在非常多有意思的问题,同时没有解决的问题也非常多。对于大模型,对于ChatGPT,我们似乎依然不甚理解。这也许就是这件事情的迷人之处~

相关参考

[0] https://zhuanlan.zhihu.com/p/606478660

[1]《Finetuned Language Models Are Zero-Shot Learner》

[2]《Scaling Laws for Neural Language Models》

[3]《Training Compute-Optimal Large Language Models》

[4]《LLaMA: Open and Efficient Foundation Language Models》

[5] 《Scaling Laws for Autoregressive Generative Modeling》

[6]《How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources》

https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1

[7]https://github.com/OpenBMB/BMPrinciples

[8]https://zhuanlan.zhihu.com/p/616903436

[9]https://www.youtube.com/watch?v=dO4TPJkeaaU

[10]https://bigeagle.me/2023/03/llm-is-compression/

[11]https://zhuanlan.zhihu.com/p/619511222

[12]https://weibo.com/3235040884/MzdjZ3cJK

[13]https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

扫码加笔者好友,茶已备好,等你来聊,

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存