得物大模型平台,业务效果提升实践
目录
一、背景
二、大模型如何帮助业务提升效果
1. 大模型应用场景
2. 接入大模型的方式
三、基础大模型选型
1. 业界提供的基础大模型有哪些
2. 大模型的评测数据集主要有哪些
3. 如何做大模型的选型
四、数据准备
1. 大模型训练需要哪些数据
2. 训练数据如何准备
五、大模型训练
1. 大模型都有哪些训练方式
2. 训练的过程
六、大模型部署
1. 目前的推理加速方案有哪些
2. 如何选择推理加速方案
七、总结与展望
一
背景
得物大模型训练与推理平台上线几个月后,我们与公司内部超过 10 个业务领域展开了全面的合作。在一些关键业务指标方面,取得了显著的成效,例如:
效率相关部门的合作,多维度打标总正确率取得 2 倍以上提升。利用大模型开辟了新的业务,提升了效率部门的人力产出。 某业务订单 NPS 的识别准确率由 70% (PROMPT 方式)提升到 85% (平台训练大模型) 。
二
大模型如何帮助业务提升效果
大模型应用场景
大语言模型是一种基于深度学习算法的人工智能技术,可以模拟人类的语言行为,并能够从大量的文本数据中学习到语言的特征和规律。其应用场景非常广泛,以下是一些主要的应用场景:
接入大模型的方式
要接入大语言模型,主要有两种方式:
三
基础大模型选型
基础大模型指的是各组织已经进行预训练的大模型,这些模型通常是在大规模文本数据上进行了通用性的预训练,可以作为基础模型供其他任务的微调和特定应用程序使用。
业界提供的基础大模型有哪些
业界的大模型可以分为闭源系列大模型,开源系列大模型。
闭源系列大模型通常通过 API 接口与聊天页面等方式提供大模型服务,例如 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列、百度的文心一言系列等。对于闭源大模型,通常建议使用 PROMPT 提示的方式来与模型进行交互。如果需要进行微调训练以适应特定任务或领域,一般建议使用开源大模型。
Llama2 系列,由 Meta 公司提供,开源了模型参数和训练论文。 Llama2 生态系列,指的是各组织在 Llama2 的基础上进行微调训练,以获得更好的效果,然后进一步将其开源。当前一些不错的开源系列包括 Vicuna 系列、XinLM 系列、WizardLM 系列、UltraLM 系列等。 国内开源系列,国内一些厂商也会自己去训练一些大模型开源,效果也不错。比如:QianWen 系列,BaiChuan 系列等等。
大模型的评测数据集主要有哪些
既然有这么多大模型可供选择,我们如何确定哪些模型更为出色呢?这涉及对大模型性能进行评估。通俗来说,大模型的评估是指将各种不同场景的问题提供给模型进行回答,然后根据回答的质量来评分。
如何做大模型的选型
预训练的大模型的应用可以分为通用模型和行业模型。在选择基础大模型时,用户应该根据他们的具体应用场景以及各大模型的评测得分来做决策。
四
数据准备
大模型训练需要哪些数据
大模型的训练过程通常包括预训练、指令调优和偏好学习。在选择了预训练的大模型后,您通常只需要进行业务微调,即指令调优和偏好学习。实际上,在大多数情况下,只进行指令调优就足够了。
{
"instruction": "简单解释人工智能的概念。",
"input": "",
"output": "人工智能(Artificial Intelligence,简称AI)是指用计算机程序来模拟人类智能的过程。它是一种能让计算机或程序在执行任务时表现出类似人类智能的技术。人工智能包括了机器学习、自然语言处理、语音识别和计算机视觉等领埴。简言之,人工智能就是赋予计算机类似人类的思维和行为能力。"
}
训练数据如何准备
五
大模型训练
大模型都有哪些训练方式
预训练:在这一阶段,大模型利用大量语料库进行自我学习,逐渐掌握自然语言处理的规律和技巧。这是为了建立一个通用的语言理解基础。 指令调优:这个阶段主要针对特定的业务场景进行训练。通过提供大量指令和相应的反馈,大模型逐渐适应并解决特定问题。这个阶段使模型更适应特定业务需求。 偏好学习:在大模型的训练过程中,还要考虑偏好学习,使大模型的回答更加贴近人类的偏好,遵循人类的意图。如语言风格和表达习惯等。
训练的过程
选择大模型。基于之前提到的大模型选择原则,在大模型平台上选择您需要的大模型。 上传训练数据。按照上述数据准备方法,将您准备好的数据上传到大模型平台。 配置训练参数。通常情况下,选择默认配置参数,如 Lora 即可。这些参数通常经过优化以获得最佳的训练效果。 训练。点击相应按钮,启动训练过程。大模型平台将自动处理训练任务,以便您专注于业务应用的开发和部署。
六
大模型部署
目前的推理加速方案有哪些
量化:通过将模型参数量化为 8 位或 4 位,可以在保持模型效果的同时,加速推理过程,减少计算和内存开销。一些常见的量化框架包括 AWQ 和 GPTQ。 显存管理优化:大模型的运算通常会占用大量显存,特别是 KV Cache。通过显存管理优化,如 Page Attention 技术,可以减少显存碎片,提高显存利用率。 Attention 运算优化:Attention 运算在计算时耗时较长,而且会导致大量的内存访问。通过结合 GPU 硬件的特点,减少内存访问和缓存,可以加速 Attention 运算。一些技术如 Flash Attention 和 Group Query Attention 可以改进 Attention 性能。 算子融合优化,通过合并大模型运算过程中的算子,可以减少计算和内存开销,从而提高推理速度。
如何选择推理加速方案
七
总结与展望
我们在前面的内容中详细分享了大模型的选择、数据准备、训练以及部署等方面的最新技术。未来,我们将进一步深入探讨这些技术的细节。
往期回顾
1. 得物商家域精准测试实践
2. 效率前端微应用推进之微前端研发提效|得物技术
3. 得物商品状态体系介绍
4. 线程剖析 - 助力定位代码层面高耗时问题|得物技术
5. 知识抽取简述|得物技术
6. 一文搞懂得物前端监控
关注得物技术,每周一、三、五更新技术干货
要是觉得文章对你有帮助的话,欢迎评论转发点赞~
未经得物技术许可严禁转载,否则依法追究法律责任。
“
扫码添加小助手微信
如有任何疑问,或想要了解更多技术资讯,请添加小助手微信:
线下活动推荐
主题:得物技术沙龙- 「项目管理」专场
时间:2023年12月3日 14:00 — 18:00(13:30开始签到)
地点:上海市杨浦区黄兴路221号互联宝地C2栋5楼 培训教室
活动亮点:随着业务的快速发展以及资源规模的增长,项目管理也需要根据团队规模及不同阶段的特点及时做好调整及应对。PMO/项目经理承担着资源使用、项目进度、团队协作等相关管理工作,过程的成功与否也决定着团队交付目标是否达成,结果是否符合预期。本次沙龙希望以得物PMO在公司发展不同阶段的实践来分享对资源使用、管理,价值交付的一些共性及差异化思考;活动也邀请了不同行业标杆来一起探讨项目管理各领域的现状及优秀案例。
本次项目管理专场沙龙由得物技术出品,将在上海(线上同步直播)为你带来四个令人期待的演讲话题:
《得物资源管理解码》
《OPM-组织的项目管理》
《自驱的威力 - 通过构建团队自驱力让项目管理更加高效》
《互联网企业项目管理与项目治理的思考与实践》
希望通过以上话题的分享,以及得物技术沙龙-项目管理专场这个交流平台,来自不同行业、拥有不同经验的项目管理/PMO从业者可以互相学习及借鉴业界最佳实践,进而实现项目管理能力的进一步提升。
欢迎线下参与!现场参与有机会赢互动礼品,还有和大咖面对面交流的机会~ (线下活动地点见下文「活动介绍」)如果没办法到现场,也可以锁定「得物Tech」视频号观看直播。
快快点击下面图片报名吧~