查看原文
其他

胡晓光:让未来照进现实,超大规模图学习训练技术

百度AI 2023-06-15


近日,百度举办 Create AI 开发者大会(下称“Create 大会”)。作为首个“人机共创大会”,AIGC(利用AI技术自动生成内容的生产方式)技术被深度应用,创造、搭建、连接了多个科技感爆棚的数字化演讲场景。Create 大会每年都会吸引全球开发者关注,不仅仅是中国的 AI 技术高地,也是全球新兴技术产业发展的“风向标”。


大会中,百度创始人、董事长兼 CEO 李彦宏、百度 CTO 王海峰先后发表主题演讲。李彦宏率先解密“增长从何而来”,王海峰提出人工智能发展进入“深度学习+”阶段。


此外,百度最强科技天团携十大“黑科技” 重磅亮相。九位科技大咖分享了百度在人工智能、自动驾驶、智能交通、智能搜索、量子计算、人工智能科学计算等领域的最新进展与思考。



会上,百度杰出架构师胡晓光以《让未来照进现实:超大规模图学习训练技术》为主题进行了分享。


▎分享实录

全文1420字

预计阅读4分钟


如果说 AI for Science,帮助未来的科研成果加速来到现实,那么飞桨深度学习平台,同样可以构建在生活中帮助我们“预知未来”的能力引擎,也就是超大规模图学习训练技术 PGLBox


它可以大幅提升我们生活中所经常需要的出行时间预测和信息推荐等服务的准确性。


随着深度学习技术的持续发展,数据规模和模型参数规模呈现出越来越大的趋势。硬件算力持续提升的同时,深度学习框架技术也不断取得突破。直观地说,我们为了“预知未来”,就需要把大量数据、以及数据之间的关联,构建为一张“超大的图”,图的规模越大,那么一张图里能表达的信息量就会更丰富。



机器通过对图中各个节点的分析,找到更复杂的关系,就可以实现一定的预测。例如,交通路网上两个地点,虽然它们在物理上不相连,但通过相关性建模可以把两个具有相似交通规律的地点关联起来,从而构建更具准确性的预测。图的结构信息越丰富,相应就能越好地建模交通规律。


百度地图很早就上线了通行时间预估功能,这个功能背后的原理,是把路网中的路口和道路组成一张“交通图”。基于这张“交通图”,机器可以对交通路网的流量进行精细建模,然后就具备了路况的预测能力。而在百度 App 里,我们可以看到精准的搜索结果、以及主动推送的符合我们需求的内容,似乎它可以预知我需要什么样的信息。它的原理是将海量的网页,转化为图中的大量节点,再根据网页中的信息,让这些节点相互关联。于是,所有的互联网公开信息就成为一张巨大的图。利用相同的计算逻辑,就能够让具有相似规律的搜索和推荐都做到更好的效果。由数百亿节点和数百亿边构成的庞大图对算法和算力都提出了巨大的挑战。基于规则的图计算方法已经无法完全适用,这时图神经网络算法就发挥了关键作用,我们再通过扩大图神经网络算法的参数量,对图的特征进行更完整的表达,从而达到了模型越大、效果越优的极致表现。



而数据规模和模型参数规模的增大,带来了计算成本更高、训练稳定性差、策略迭代周期长等一系列问题和挑战。由此,我们基于百度飞桨平台完成了图神经网络架构的全新升级,为业界带来了超大规模图学习训练技术 PGLBoxPGLBox 是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD 三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模。PGLBox 为百度业务创新提供了广阔的空间,目前已经在智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存