查看原文
其他

旷视开源深度学习框架「天元」,提供人人可用的AI“生产力工具”【星特写】

联想之星 2022-05-20


今日,旷视宣布开源自研深度学习框架MegEngine(Brain++核心组件之一),中文名天元——取自围棋棋盘中心点的名称。


这意味着,耗费资源打造优化6年,迭代到8.0版本,旷视技术体系的关键支柱,现在正式对外开源。


据悉,天元是旷视 1400 名研发人员一直以来使用的深度学习引擎,已部署在上百个产品、几十种计算平台上,可以帮助开发者做到“协同设计训得好,高效系统训得快,大规模数据或模型训得动


AI 基础设施层决定产业跑速


一直以来,AI 的生产力被高昂的算力成本、人才成本所掣肘,AI 技术往往成为众多企业的成本中心而非价值中心。先进技术如何能真正带动传统产业发展,提高 AI 生产力的解在哪里?

 

一个产业的发展,离不开一套能用、好用的基础设施,降低生产成本,提高生产效率,吸引更多人参与。旷视成立八年,一直奔跑在 AI 这条赛道上,看到众多基于 AI 的硬件、软件、解决方案,但真正影响产业跑速的是 AI 的基础设施。

 

旷视认为:AI 的基础设施只有两部分组成—— 芯片平台和生产力平台。其中,芯片平台承载 AI 的计算,那么 AI 生产力该如何理解? 

 


AI 算法的生产与程序生产不同,是一个系统工程,需要能够协同优化数据、算法、算力的平台级产品。六年间,旷视打造了自己的基础设施,如今,旷视想与更多的企业、开发者开放,合作共赢,促进 AI 产业繁荣。

 

同时这套基础设施的核心——深度学习框架“天元”也将全面开源,正式邀请全球开发者参与共建这套中国自研的生产力平台核心部分。

 

天元,意为棋盘核心,亦为万物本源,旷视希望越来越多的开发者基于天元可以从 0 到 1 创造属于自己的算法,在 AI 时代提供一套人人可用的生产力工具。

 

旷视开源,落子天元。

 

AI 时代的三位一体生产力平台

 

开源发布会上,旷视联合创始人、首席技术官唐文斌用厨房来做比喻,解释旷视的三位一体生产力平台——Brain++。

 

“Brain++ 平台的意义是为了能像 Visual Studio 一样为用户提供更完善的集成开发环境,满足 AI 开发者从 AI 生产(输出算法模型)到应用(实现算法工程化封装)各环节中,一站式、全流程算法研发的切实需求,将产品从实验室原型到工业部署原本数周或数月的时间成本,缩短到小时级。”唐文斌介绍。

 

 

简单来讲,算法研发过程就像炒菜。在“美味算法”的研发中,数据就是各种各样的食材,需要清洗,分类管理,是“炒制”算法的原材料;而算法的训练和推理就像是烹制的过程,需要锅具(深度学习框架)来承载;算力则是一灶猛火,火候到位才能烧得好菜。  

 

如果没有一套厨具和厨房,大厨就像在野外生存,不仅要逐兔追鸡,还得自己打铁铸锅、生火劈柴,菜品生产力很低。同样的,对于有一定的机器学习经验和框架基础的开发者来说,他们的开发工具往往需要东拼西凑,再强的学术造诣也无法加快算法的生产。

 

降低开发者的门槛,让 AI 变得平凡,才是真正的释放 AI 生产力。旷视希望通过开源、开放的方式逐步将 AI 生产力平台 Brain++ 的能力传递给业界广大开发者,让每一个 AI 开发者都有能力快速实现算法从 0 到 1 的创造,进而创造更大的价值。


着力赋能 AI 开发者


发布会上,天元开源项目的产品负责人田忠博详细介绍了天元的技术细节。天元是一套训练推理一体化、动静态合一的工业级深度学习框架,架构上具体分为计算接口、图表示、优化与编译、运行时管理和计算内核五层。



怎样才能简单开发?在传统开发环境中,AI 开发者们会根据方向不同选用不同的框架,但是从原型设计到部署还需要切换开发工具,就像厨师每炒一道菜还要换个锅,锅和灶眼也不见得适配。

 

天元对于 AI 开发者来说,就是一套从菜谱到美味的端到端一体化智能锅,覆盖从训练到推理再到部署装盘全流程。不仅自带菜谱(模型库)还支持自定义菜谱(模型导入),具备显示屏灵活可控、方便操作,特别适合既要求美味,又追求效率和体验的 AI 生产者。

 

而现在这口“好锅”的 Alpha 版本已经在 GitHub 和 OpenI 平台中开源。


天元跻身全球主流框架


天元是旷视Brain++的核心组件之一,具备训练推理一体化,动静合一,兼容并包和灵活高效四个特点,使其在与其他主流深度学习框架对比中,不落下风。



训练推理一体化,指的是通过天元训练得到的模型和产物,可以直接用于产品的推理、封装。在部署时,它还能帮助开发者自动删除冗余代码,实现模型自动优化。


动静合一,是指天元集成了“静态图性能高、占用资源少且易于部署”、“动态图简单灵活、方便调试且易于上手”的优点。在充分利用动态图模型训练优势时,开发者可以通过天元动静态一键转换功能,以静态图的形式完成生产和部署;此外,天元还支持动静态的混合编程,灵活性更强。

兼容并包,体现在天元的易用性上,其具备Pythonic的API——习惯用Python进行传统机器学习的开发者,学习成本更低、易于上手。而且,天元还支持PyTorch Module功能,可以直接导入模型,迁移成本低且极大方便模型复现。


灵活高效,专指天元具备很强的多平台多设备适应能力,能通过类似汇编和指令重排等技术,使得天元内置算子能够在推理或生产环境中充分利用多核优势,灵活调用设备的计算力,尤其适用于大模型算法训练。


 让一部分企业先实现 AI+

 

除了为解决开发者生产力而开源的天元,一同发布的还包括为了帮助企业实现 AI+ 升级的 Brain++ 开放计划。

 


旷视云服务业务资深副总裁赵立威向业界展示了 Brain++ 商业化的全景。“我们不仅将把深度学习框架开源使用,也将开放数据能力、算力能力给企业级种子用户,至少能够先让一部分企业实现 AI+。”  

 

“从目前的现实情况来看,产业实现 AI+ 的共性难题莫过于无法解决场景过小而技术升级投入过大之间的矛盾,因此 AI 解决方案难以落地。以一家制造业领域的客户为例,工厂在配电产品质量检测中,会出现零部件颜色搭配错误、字符印刷残缺等情况,靠人工目检费时费力效率低,靠机器视觉方案就需要在数据、算法和算力投入大量的人力、物力,且模型效果难以维持。”


赵立威在介绍现有 Brain++ 方案时介绍到,“旷视为客户提供了基于 Brain++ 平台的智能质检解决方案,综合统筹数据、算力的能力,帮助客户实现了模型的快速选型、优化和封装。工厂在 Brain++ 的助力下,极大地提升了质检效率和生产效率。”

 

从今天起,用户也可以拥有专属的 Brain++ 平台,可以使用 AI 的力量实现企业技术升级。


天元“背后的故事”


据CSDN报道,从 Theano 为源头,不断迭代到今天发布的MegEngine Alpha 版本,天元的诞生来之不易,背后是旷视研究院团队从 0 到 1 的打磨过程。


起初,旷视用 Theano 框架写模型代码,训练神经网络,但随着网络越训越大,越来越复杂,低效耗时的框架令人崩溃,公司中的一些大牛开始琢磨其他的办法。


2013 年底,旷视当时的研发负责人曹志敏提出打造一套能够打通数据、训练和业务的自动化算法研发系统 Cycle++,不需要投入过多人力和时间就可以实现算法从研发到应用的自循环体系(旷视 Brain++的早期设想)。于是,2014 年初,旷视自研的初版深度学习框架诞生了。


经过磨合,旷视在 2015 年年中完成了自研框架与公司内部所有业务的接轨,公司业务线上的模型全部换成了自研框架训练出来的版本。


2015 年 11 月 9 日,Google 正式发布并开源 TensorFlow,旷视发现原来他们是殊途同归,都是基于计算图的方式来做框架,但这也给旷视的自研框架造成很大冲击,公司内部在是否要继续坚持自研框架上发生分歧。经过激烈的讨论和详细的评测后,旷视发现当时的TensorFlow 的性能并不理想,竟比自研框架要慢若干倍。最终旷视选择了坚持自研的道路。


此后,经过不断迭代,同时在工业实践的锻炼中,除了最底层的框架,旷视也在同时进行数据和算力基础设施的变革。2013 年,旷视研究院成立了自己的数据团队,随着业务数据的暴增,数据管理不断出现问题,旷视又开始建立自己的数据管理系统 MegData。


2015 年底,天元MegEngine 已经进入了稳步发展期,但公司“小作坊”模式开始扛不住业务需求,计算资源成为瓶颈问题,于是旷视建设了“正经的机房”,研发出深度学习云计算平台 MegCompute,并仅用一个季度的时间完成了业务从单机到集群的彻底迁移。


旷视从研发到业务全面向自有深度学习框架和自有计算集群的迁移,标志着旷视数据、算法和算力三个核心组件正式完成“大一统”,自此旷视 AI 生产力平台 Brain++ 雏形初现。



2016 年,旷视开始组建大规模的团队持续优化 Brain++ 的整个套件开发流程,2019 年开始筹备将 Brain++ 最核心的深度学习框架开源,并为 MegEngine 起了一个中文名字——天元。这期间框架研发团队可以说是经历了一场浴火重生,把原来封装好的代码分解再重组,让开发者上手更快。


经过一年的筹备,天元今天终于如期开源,赋能开发者。天元的开发路线图也首次曝光:



田忠博表示,本次旷视开源的天元是 Alpha 版本,未来的开发计划是在今年 6 月份发布 Beta 版本。届时天元将提供ARM 系列  CPU 支持,更多的加速设备支持,以及量化和低比特计算支持;到 9 月 份发布正式 1.0 版本时,天元支持的主流计算设备将更全面,动态能力升级,并优化训练推理全流程使用体验。


他说,在 Beta 版本和正式版本之间,希望更多人能够参与并贡献 code,“也许下一代天元并不是由旷视的研发团队做出来的,而是与你一起共创出来的 Beta 和正式版本,所以我们也希望跟大家一起来共建更好的深度学习框架。”

 

用 AI 的力量创造更大价值


生产力发展,本质是更多的人能够参与到世界的协作网络。AI 产业发展,同样是需要更多的人、企业参与,但需要一个循序渐进的过程。

“天元就像是旷视的孩子,今年 6 岁了 ,她有很多的优点,我们非常喜欢她。她在旷视研究院算是小有所成。” 孙剑表示, “今天,是她走出房间去迎接阳光,想为这个社会去做更多事情的时候。我们希望产学研各界的朋友对她有更多的呵护,帮她一起更快地成长。”

 

 

唐文斌在介绍开源计划时也强调,“代码自己用和拿出来与人分享,会有巨大差距,需要渐进式地升级,这次我们诚实地向大家宣布,当前开源的天元是 Alpha 版本,在向 Beta 版本和正式版本演进期间,我们希望更多优秀的开发者,以及院校以及企业能够参与进来,一起贡献 code,提出建议,共建更好的天元。”

 

开源不是一个简单的事。但旷视始终秉承技术信仰与价值务实的企业基因,相信只有敢于创新、勇于创新,坚定地去做那些难而正确的事情才能找到科学的通路。希望天元的开源,能让更多的企业、开发者可以使用 AI 的力量,创造更多价值。

 



相关阅读:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存