查看原文
其他

OneFlow,这个国产框架有点东西 | 九合分享

九合创投 2022-06-26

The following article is from HyperAI超神经 Author 神经三羊


如今,人工智能正在渗透到零售、医疗、金融等各行各业,从应用层来看,AI 几乎无处不在。这得益于中国丰富的产业结构、数据积累,以及中国企业尤其是创业公司对于 AI 应用创新的积极性。


但是在 AI 的底层,应用广泛的算法和框架大部分还是来自于国外。底层技术能力的创新,对于中国经济长远发展和企业核心竞争力的提升至关重要。


九合系企业一流科技(OneFlow)所研发的就是 AI 领域操作系统级的深度学习框架。九合认为,中国需要一套完全有自主知识产权的深度学习框架和模型,这是 AI 领域非常重要的战略入口。


一流科技在今年 7 月宣布开源,进入了全新的发展阶段,目前正在招聘机器学习工程师以及深度学习工程师,欢迎有识之士的加入!


来源  | HyperAI 超神经 (ID: HyperAI) 

作者  | 神经三羊

编辑  | 九合创投


在深度学习领域,PyTorch、TensorFlow 等主流框架,毫无疑问占据绝大部分市场份额,就连百度这样级别的公司,也是花费了大量人力物力,堪堪将 PaddlePaddle 推入主流。


在这样资源主导、肉食者谋的竞争环境下 ,一家国产深度学习框架的创业公司 OneFlow 出现了。


它以处理大规模模型见长,甚至今年将全部源码和实验对比数据,在 GitHub 进行了开源。创业公司有可能在竞争中脱颖而出么?


我们借着 CosCon 20' 开源年会的机会,采访了一流科技 CEO 袁进辉,了解到了他和一流科技的工程师们,1300 多个日日夜夜、数十万行代码背后的故事。


光环再多,创业也得一步一个脚印


2016 年 11 月,袁进辉在清华附近的一栋写字楼里,写下了 OneFlow 的第一版设计理念。此时的袁进辉刚刚从工作了近 4 年的微软亚洲研究院(MSRA)离职。


「MSRA 前员工」并不是袁进辉身上唯一的 tag,2003 年从西安电子科技大学本科毕业后,他被保送到清华大学计算机系继续直博学习,师从中国科学院院士、中国 AI 学科奠基人之一张钹教授。


2016年12月,袁进辉在微博发布零号员工工位照片,宣布创业


2008 年袁进辉从清华大学毕业后,先后加入网易、360 搜索。他开发的鹰眼系统,被中国国家队作为日常训练辅助系统。除此之外,他在 MSRA 工作期间,专注于大规模机器学习平台,还研发出了当时世界上最快的主题模型训练算法和系统 LightLDA,被应用于微软在线广告系统


LightLDA 于 2014 年面世,仅仅两年之后,独具慧眼的袁进辉就又萌生了一个大胆地猜想:随着业务需求和场景的丰富,能高效处理大模型训练的分布式深度学习框架,必然成为继 Hadoop、Spark 之后,数据智能时代基础设施的核心


但是当时主流的深度学习框架都是由 Google、Amazon、Facebook 等大厂牵头开发的,即使是国内情况也类似。这由于开发深度学习框架不光需要雄厚的研发成本,更重要的是能耐得住寂寞,做好打持久战的准备,因此尚没有初创企业敢在该领域试水。


已有的深度学习框架都已经打的如火如荼了,一家初创企业,又搞出来一个新框架,会有用户买单吗?行动派袁进辉不但敢想,他还敢干。


敲下 OneFlow 第一行代码的时候,他的想法很简单,又很复杂,要做一款「开发者爱用」的产品。


 一群天才+21 个月,OneFlow 初版上线


2017 年 1 月,袁进辉成立一流科技,召集了 30 多位工程师,开启了 OneFlow 的正式「团战」。尽管大家对困难已经做了充分预估,但是随着开发的逐渐深入,还是涌现了重重困难。


深度学习框架的技术非常复杂,况且 OneFlow 采用了一个全新的技术架构,没有先例可以参考,光是把技术设想跑通,就花了快两年时间。


从成立时一个孤独的工位,到如今精干的团队


2018 年秋天,一流科技的发展进入了最挑战的阶段,产品研发尚未定型。


在创业圈有个「18 个月魔咒」的说法,意思是一年半没看到希望,没有正反馈,创业团队的心态就会发生变化,失去耐心。袁进辉意识到,不能再等了,必须要尽早在真实场景去使用 OneFlow,让大家看到 OneFlow 的创新的确是有价值的, 从而形成正反馈。


2018 年 9 月,在经历了长达 1 年 9 个月的研发后,袁进辉和团队推出了 OneFlow 闭源版。当时 OneFlow 还没有开源,也存在大大小小的问题,但产品正式发布了,总算是给团队成员吃了个定心丸。


专注大规模训练,效率秒杀同类框架


2018 年 11 月,幸运之神降临到一流科技。Google 推出了最强自然语言模型 BERT,开启了 NLP 新时代。这验证了袁进辉的预测,擅长处理大规模训练的新架构,是必须且必要的。


很快,一流科技的工程师就基于 OneFlow 支持了 BERT-Large 的分布式训练,这也是当时唯一一个支持分布式 BERT-Large 训练的框架,性能和处理速度远超已有的开源框架。 


OneFlow 异构分布式流式系统架构图


OneFlow 「一战成名」,这也为一流科技积累第一批头部互联网企业用户提供了契机。令人倍感意外的是,当时的袁进辉因为「仍对产品不满意」,所以选择了一条格外低调的路。


从 2018 年 9 月闭源版本发布,到 2020 年 7 月正式开源,袁进辉又用了 22 个月来打磨 OneFlow。他和团队一边持续优化经典模型,一边解决原来没预计到的问题,在袁进辉看来,哪怕是产品文档没做好,他都不会轻易把 OneFlow 推到台面上。


2020 年 7 月 31 日,OneFlow 正式在 GitHub 开源。这个以训练大规模模型著称的开源框架,第二次站到聚光灯下,完美诠释了四个字--效率为王。


深度学习框架版图几乎由美国企业主导

国内开源的深度学习框架版图中,只有 OneFlow 是由初创企业研发并开源


训练速度更快、GPU 利用率更高、多机加速比更高、运维成本更低、用户上手难度更低,五个强大优势让 OneFlow 能快速适应各个场景,并进行快速延展。袁进辉和团队对 OneFlow 的性能追求和优化,达到了极致。


近期,OneFlow 发布了 v0.2.0 版本,更新的性能优化多达 17 个,使得 CNN 和 BERT 的自动混合精度训练速度大幅提升。


开发团队还建立了一个名为 DLPerf 的开源项目,将实验环境、实验数据、可复现算法完全开源,测评了在相同的物理环境上(4台 V100 16G x8的机器),OneFlow 和其他几个主流框架在 ResNet50-v1.5 和 BERT-base 模型上的吞吐率及加速比。


7 个框架在 ResNet50-v1.5 模型上的吞吐率对比


结果证明 OneFlow 在单机单卡、多机多卡下的吞吐率都明显领先其他框架,成为在主流旗舰显卡(V100 16G)上训练 ResNet50-v1.5 和 BERT-base 模型最快的框架,OneFlow ResNet50-v1.5 AMP 单卡比 NVIDIA 深度优化过的 PyTorch 快 80%, 比 TensorFlow 2.3 快 35%


具体评测报告可访问以下链接:

https://github.com/Oneflow-Inc/DLPerf


直面质疑,做赛道的「少数派」


事实上,OneFlow 从诞生至今,受到的质疑并不在少数,对此袁进辉表现出了超乎寻常的坦然。


在他看来,深度学习框架本就是一个新生事物,技术和产业都在中早期,不存在上车早晚的问题。在技术收敛之前,性能高、易用性强、符合用户使用价值的产品,就会受到用户的青睐。


至于生存空间,开源让小公司和大公司的产品有机会公平竞技,优秀的新生框架挑战权威的框架,正是开源精神的内核之一。


质疑声并没有阻碍 OneFlow 的发展,相反,袁进辉和团队加快了 OneFlow 的升级和完善进程,更新优化性能、梳理开发者文档、收集社区反馈……这些努力和坚持,为 OneFlow 吸引了更多用户,其中不乏最初的「怀疑论者」。


OneFlow 开源后,吸引了众多铁粉


在 COSCon'20 中国开源年会上,袁进辉做了题为《深度学习训练系统演进》的分享,向所有开发者介绍了 OneFlow 下一步的开发规划,除了坚持效率为王、继续性能优化外,开发团队还在努力降低用户的学习成本和迁移成本


目前 PyTorch 用户迁移到 OneFlow 的成本已经相当低了,因为二者的用户接口几乎一样,已训练好的模型转换成 OneFlow 的成本也足够低。


点击播放袁进辉在 COSCon'20 的完整分享


虽然 OneFlow 在完备性和易用性上,与 TensorFlow 和 PyTorch 相比还有差距。但是,OneFlow 的特色是效率高、扩展性好以及分布式特别容易使用,非常适合大规模人脸识别、大规模广告推荐系统、以及类似 GPT-3 这种模型参数巨大的模型训练场景。


采访的最后袁进辉老师也毫不掩饰对人才的渴望,他表示 OneFlow 正在招聘机器学习工程师以及深度学习工程师,非常欢迎有识之士加入这个朝气勃勃、渴望胜利的团队。


END


推荐阅读


长按上方二维码,关注九合创投

关于我们


九合创投成立于2011年,由前“百度七剑客”之一王啸创立。作为国内领先的早期风投公司之一,我们以智能互联网为中心,专注助力产业升级,投资方向涵盖人工智能、企业服务、消费升级、泛娱乐等。目前,九合管理着 4 支基金,资产管理规模近 20 亿元人民币,已投资 200 多家早期初创公司,投资轮次涉及天使轮、Pre-A及A轮。


 九合代表Portfolio包括: 


科技升级类:自动驾驶技术研发商Momenta,影像辅助诊断AI医疗平台Airdoc,人工智能公司彩云天气,无人机物流技术公司迅蚁科技,主动降噪静音方案提供商安声科技,企业级云计算服务商青云QingCloud,物联网安全整体解决方案青莲云,人工智能客服公司晓多科技,深度学习整体解决方案提供商一流科技


企业服务类:创业生态服务平台36氪,企业员工餐综合解决方案提供商美餐 ,互联网人力服务平台51社保,可多人实时协作的云端Office 石墨文档,企业用户预测SaaS平台探迹科技,AI人工智能数据服务提供商龙猫数据,蓝领发薪和服务平台安心云人事


产业升级类:专业的MRO工业用品分销采购平台工品汇,大数据驱动餐饮定制平台六膳门,智慧楼宇解决方案提供商耘申DFoucs,下沉市场汽车新零售平台车集,智能制造领域原材料配方优化方案提供商信传信息,新车B2B交易平台牛牛汽车,农业种植业保险服务商一米农业


消费社交类:中文最大的家庭美食分享社区下厨房,新媒体影视内容出品发行平台新片场,二手市场电商平台红布林,宠物用品订阅制电商MollyBox魔力猫盒,移动能源共享平台来电,智能无人便利售货终端在楼下,私人仓储服务企业考拉迷你仓,竞技机器人研发商工匠社,家居分享社交平台好好住,文化创意家居品牌吱音,手机相机软件黄油相机,短视频Vlog剪辑应用VUE,Gif搜索引擎闪萌


九合站在科技与人文的十字路口,着眼未来,脑冷心热,信奉「做有价值的事情,商业价值便会随之而来」。我们致力于做投资圈中的价值极客,期待与更多优秀的创业者长久合作。


联系我们:contact@unityvc.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存