查看原文
其他

科技进步一等奖!

和大家分享一个好消息!
刚刚,中国电子学会公布2023科学技术奖获奖名单, 由腾讯主导,北京大学、北京科技大学共同参与的联合项目《面向大规模数据的Angel机器学习平台关键技术及应用》获本年度科技进步一等奖。

由多名院士等权威专家组成的鉴定委员会认为:

腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平,其中面向all-to-all通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。

Angel平台架构图

公示链接:2023中国电子学会科学技术奖奖励公告-中国电子学会



为什么是Angel机器学习平台?详解四大核心技术突破

着模型参数的增加和模型类型的多样化,算力平台发展从单机单卡逐渐演变成了单机多卡,随着 GPU 的崛起,从单机多卡又发展为分布式训练。大规模分布式训练架构布局,将千卡或者万卡算力的传递和计算纳入主流企业通用实践框架,结合平台特性和端到端特征的算力模型自适应分布式训练技术成为重要的创新方向。例如,结合算力平台的灵活资源调度管理技术、自动选择最优并行策略技术、高效计算与通信技术等。
腾讯Angel采用了分布式参数服务器架构,这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、计算需求更高的模型。
面对海量数据和超大规模模型训练需求 ,腾讯Angel机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。

为了提高训练效率,TB级机器学习模型通常采用分布式训练方法,需要大量的参数和梯度同步,以1.8T模型千卡训练为例,IO通信量达到25TB, 耗时占比53%,此外,加上不同算力集群间的异构网络环境,通信网络延迟不一,这些都对模型训练过程中的通信开销提出了较高的要求。腾讯Angel机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术,可有效解决TB级模型训练通讯开销大的问题,实现网络通信耗时减少80%,分布式训练性能达业界主流方案的2.5倍。

现有的算力条件下,尽管模型达到TB级,而主流GPU的显存仍只有80G,参数存储有瓶颈。针对TB级模型训练参数存储难的关键问题, 腾讯Angel机器学习平台提出了显存主存统一视角存储管理机制,实现模型存储容量比业界增加1倍,训练性能是业界主流方案2倍。

大模型要向通用模型发展,离不开对多模态数据的处理支持,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯Angel机器学习平台针对广告场景,提出多模态融合学习的全链路排序广告推荐技术,助力广告召回率提升40%以上。

另外,针对面向推荐系统的图模型训练, 腾讯Angel机器学习平台设计了图节点特征自适应图网络结构搜索技术,可自动输出最优结构,解决了TB图模型应用中“图数据挖掘难”的问题,实现模型训练性能提升28倍,与业界比具有最优扩展性。

腾讯Angel机器学习平台如何支持腾讯混元大模型的打造

作为腾讯人工智能技术的基础平台,腾讯 Angel 平台诞生于 2015 年,支持 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。

2017 年,Angel 框架在 Github 开源,向开发者开放,同时,技术上,Angel 解决了异构网络下的通信问题,性能进一步提升。2019 年,在可扩展图模型多模态理解技术取得突破,解决万亿节点可扩展图模型问题。2021 年,提出 GPU 显存统一视角存储技术,解决大模型 参数存储与性能问题。

在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 机器学习平台也发挥了重要作用。

2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。

面对建设腾讯混元大模型的需求,腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF,支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支持单任务万卡级别超大规模训练。在推理上,腾讯 Angel 机器学习平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

此外,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。

腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩展至万亿级参数规模,推动了性能提升和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在文本生成、数理逻辑和多轮对话中性能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。

腾讯大量的应用场景,为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。

以腾讯广告为例,采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术,广告业务场景中的多模态大模型训练速度提升 5 倍,模型规模提升 10 倍,实现广告召回率大幅提升。

—END—

修改于
继续滑动看下一个
鹅厂技术派
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存