其他
LMOps 工具链与千帆大模型平台
人工智能的发展路径; LMOps 相关的概念以及关键技术; 千帆大模型平台的功能和应用; 千帆大模型平台在产业中的实践。
数据:大模型的预训练通常需要 TB-PB 级别的数据, TB-PB 级别的数据规模和对应的数据加工技术,与之前的经典深度学习模型并不相同。同时,大模型大多以多模态、指令、对话数据作为训练或调优的输入,在数据内容上和之前的经典深度学习模型也有很大的差异。 训练和调优的方法:现在千亿参数级别的大模型,往往需要千卡、甚至万卡进行分布式训练,其中的调度、容错、通信技术和之前大不相同。大模型在调优过程中也出现了很多低资源开销、高效率的技术。 大模型效果评估方式:经典深度学习模型往往基于人工标注的测试数据集,来计算客观指标,并评估模型效果。因为大模型生成的海量内容暂无标准的答案,所以我们无法全部依赖人工去评判内容的质量。因此,大模型的效果和性能需要建立与以往不同的评估基准和评估方法。 推理:通过 Prompt 工程来调教大模型的输出,无论是在自然语言处理还是视觉生成领域,之前经典的深度学习模型都不具备这些能力。
首先是对特殊字符的一些清除,如火星文/ 特殊的标点清除等,替换部分异常文本。 删除低质量文档。建立低质文档的统计指标,超过某个阈值就进行删除。或通过定制的分类模型对文档质量进行自动分类。 文档去重。通常情况下,我们可以针对文档中的句子和段落等进行文档内的内容去重;针对两个内容重复阈值较高的相似文档,可以进行跨文档去重。 去除隐私数据。使用基于规则的正则表达式的方法检测个人信息,来进行隐私数据的脱敏。 建立词表( Tokenize 的过程)。目前建立此表常用的是 SentencePiece 等方法。当我们将原始的语料加工成 token,并建立 token_id 后,再喂给大模型进行训练或者推理。
对于大模型的评估我们需要建立新的评估标准,包括针对效果、性能、安全性、生态多样性等各个维度的评估。这些能力都需要在 LMOps 中构建相应的大规模的评估标准来实现。 在过去,针对经典的深度学习的模型已经有 Benchmark 存在,但是当大模型出现之后,发现这些已经存在的评测集已经不够用了。有些小规模的评测集可能已经包含在大语言模型的训练数据当中了,再去利用这些 Benchmark 做评估,它就没有区分度了,所以新的大规模的评测集需要构建起来。 因为大语言模型的能力在不断增强,所以评测集涵盖的方向需要进一步的拓展,包括像数学、历史、图像生成等跨模态等。 在评估环节,已经不是单纯的用一个指令或者 Query 输入去评估大模型的输出了,而是说会结合不同的评估模板,让机器去做自动的评估,包括通过让大语言模型去做选择题。这样的话就可以更加客观地评估在实际的使用过程中如何提升它的效果。 和评估环节相应的是评估工具,包括人工可操作的、以及面向机器的评估工具来进行自动化的评估。