其他
PrimiHub 联邦学习大模型开源,打破数据限制,保护数据隐私安全
开源 PrimiHub 联邦学习大模型
”
PrimiHub 联邦学习大模型亮点
”
1
PrimiHub 联邦学习大模型基于 ChatGLM6B,其参数量多,效果好。它具有超过60亿个参数,是目前最大的中文预训练模型之一,也是目前最先进的多模态预训练模型之一,在各种自然语言处理、计算机视觉、语音识别等任务上都取得了优异的性能和质量,为用户提供了更丰富、更精准、更个性化的内容和服务。
2通过 Ptuning 技术,实现通过调整一部分权重,来实现和调整全部参数一样效果的模型调参,降低了联邦学习的计算和资源开销。Ptuning 是一种新颖的模型微调技术,它可以在保持大部分参数固定的情况下,通过调整一小部分参数(如1%),来实现和调整全部参数一样效果的模型优化,从而显著降低了模型训练和更新所需的通信和计算资源,让用户能够在消费级的显卡就能体验联邦大模型的流程。PrimiHub 联邦学习大模型可以让用户在消费级的显卡(如NVIDIA GeForce RTX 3070)上轻松地进行联邦学习,无需高端的服务器或云平台,降低了用户参与联邦学习的门槛和成本。3
基于新的 PrimiHub SDK,仅需一行命令,即可实现基于联邦学习的大模型的训练,使用户能够简单上手。PrimiHub SDK 是一个开源的、易用的、高效的联邦学习软件开发工具包。它可以让用户在自己的设备上参与联邦学习,保护数据隐私和安全,同时享受大模型带来的智能服务,只需要用户输入一行命令,就可以自动完成大模型在联邦学习中的分布式训练和更新,无需复杂的配置和编程,提高了用户参与联邦学习的便利性和体验。
PrimiHub 联邦学习大模型具体训练参数如下:
场景:横向联邦场景
任务数据:Chinese MedDialog Dataset(医疗文本问答,110w)、ADGEN 数据集(服装标签分类,11w)
参数方:两个参与建模方,一个聚合服务方
环境:3070 8GB x 2
模型参数量:60亿 (6b, 6000M)
未来我们还会做什么
”
随着数字化发展,医疗数据的流通,一方面可以推动智慧诊疗、新药研发等产业的发展,另一方面也可以促进现代化医学研究、公共卫生防疫以及临床医疗应用等生物科学技术的一些进步。但是医疗数据又具有极强的隐私属性,对隐私保护和数据安全的需求更为强烈。通过联邦学习大模型与医疗行业数据结合,能够在保证数据充分流通的同时不泄露用户隐私、合规合法地使用数据以推动数字医疗的发展。
在金融行业中,数据同样重要,其作为数字化风控的“血液”,但随着银行对数据共享的需求不断增加及监管对数据安全和隐私保护的严格要求,大大增加了其与外部机构之间数据共享的技术难度和成本。通过联邦学习大模型与金融数据的结合,则能在满足安全性的前提下,打破“孤岛效应”,通过数据资源的有效开发利用,实现风险的全面准确评估,从而推动业务快速发展。
未来,PrimiHub 联邦学习大模型也将在金融、医疗、互联网等多个行业深度结合带来行业数字化新形态,同时,基于 GPT+隐私计算的私人助理也有巨大想象空间。通过隐私计算则可实现敏感数据价值的可控使用,这将成为特定领域大模型的必由之路。
END
原语科技自主研发的隐私计算平台PrimiHub及管理平台PrimiHub-Platform均已在GitHub和Gitee上开源,欢迎交流体验 -
官方文档:https://docs.primihub.com
GitHub 地址:https://github.com/primihub/primihub
Gitee 地址:https://gitee.com/primihub/primihub
长按二维码添加小助手微信,
由小助手拉你进交流群,
这里有许多你的小伙伴哦~
往期推荐
原语科技
primihub.com