让更多人参与AIGC未来,PrimiHub 联邦学习大模型开源!
近日,国内首个全栈开源隐私计算平台PrimiHub开源了联邦学习大模型,实现了基于联邦学习的大模型训练和预测。这意味着AI大模型服务的开发和使用门槛将会逐步降低,让越来越多人能够参与到AIGC的未来里!
在ChatGPT 掀起的大热潮下,生成式AI背后的技术也越来越受人关注,其中又以联邦学习大模型最受人关注,它能够在保护各自隐私数据的同时,有效利用用户设备上的海量数据进行大模型的训练。
联邦学习的核心过程是参数的传递,即参与者将自己设备上训练得到的模型参数发送给中心服务器,中心服务器将所有参与者的参数进行聚合和平均,然后将更新后的参数返回给参与者,以此循环进行模型的训练和更新,以实现在保护用户数据隐私和安全的前提下,完成大模型的分布式训练和更新,提高了大模型的训练效率和可持续性。
三大亮点
”
1
PrimiHub 联邦学习大模型基于 ChatGLM6B,其参数量多,效果好。它具有超过60亿个参数,是目前最大的中文预训练模型之一,也是目前最先进的多模态预训练模型之一,在各种自然语言处理、计算机视觉、语音识别等任务上都取得了优异的性能和质量,为用户提供了更丰富、更精准、更个性化的内容和服务。
2通过 Ptuning 技术,实现通过调整一部分权重,来实现和调整全部参数一样效果的模型调参,降低了联邦学习的计算和资源开销。Ptuning 是一种新颖的模型微调技术,它可以在保持大部分参数固定的情况下,通过调整一小部分参数(如1%),来实现和调整全部参数一样效果的模型优化,从而显著降低了模型训练和更新所需的通信和计算资源,让用户能够在消费级的显卡就能体验联邦大模型的流程。PrimiHub 联邦学习大模型可以让用户在消费级的显卡(如NVIDIA GeForce RTX 3070)上轻松地进行联邦学习,无需高端的服务器或云平台,降低了用户参与联邦学习的门槛和成本。3
基于新的 PrimiHub SDK,仅需一行命令,即可实现基于联邦学习的大模型的训练,使用户能够简单上手。PrimiHub SDK 是一个开源的、易用的、高效的联邦学习软件开发工具包。它可以让用户在自己的设备上参与联邦学习,保护数据隐私和安全,同时享受大模型带来的智能服务,只需要用户输入一行命令,就可以自动完成大模型在联邦学习中的分布式训练和更新,无需复杂的配置和编程,提高了用户参与联邦学习的便利性和体验。
具体训练参数
”
场景:横向联邦场景
任务数据:Chinese MedDialog Dataset(医疗文本问答,110w)、ADGEN 数据集(服装标签分类,11w)
参数方:两个参与建模方,一个聚合服务方
环境:3070 8GB x 2
模型参数量:60亿 (6b, 6000M)
行业应用
”
随着数字化发展,医疗数据的流通,一方面可以推动智慧诊疗、新药研发等产业的发展,另一方面也可以促进现代化医学研究、公共卫生防疫以及临床医疗应用等生物科学技术的一些进步。但是医疗数据又具有极强的隐私属性,对隐私保护和数据安全的需求更为强烈。通过联邦学习大模型与医疗行业数据结合,能够在保证数据充分流通的同时不泄露用户隐私、合规合法地使用数据以推动数字医疗的发展。
在金融行业中,数据同样重要,其作为数字化风控的“血液”,但随着银行对数据共享的需求不断增加及监管对数据安全和隐私保护的严格要求,大大增加了其与外部机构之间数据共享的技术难度和成本。通过联邦学习大模型与金融数据的结合,则能在满足安全性的前提下,打破“孤岛效应”,通过数据资源的有效开发利用,实现风险的全面准确评估,从而推动业务快速发展。
同时,PrimiHub 联邦学习大模型除了在金融、医疗、互联网等多个行业可以深度结合带来行业数字化新形态外,基于 GPT+隐私计算的私人助理也有巨大想象空间。通过隐私计算则可实现敏感数据价值的可控使用,这将成为特定领域大模型的必由之路。
项目地址
”
项目地址:
https://github.com/primihub/primihub
使用指引:
https://docs.primihub.com/docs/advance-usage/create-tasks/fedreated-learning/chatglm/
热门文章:
隐私计算头条周刊(4.17-4.23)
招标 | 近期隐私计算项目招标中标35(常州市大数据管理中心、中国船级社、富滇银行等)