查看原文
其他

初心资本2021企服新趋势01|人工智能:数据井喷,市场将倒逼AI底层框架升级


此前,初心资本发布了《2021中国企业服务新趋势报告》(关注初心资本公众号,回复“企服2021”获得完整版),报告中涵盖初心资本对企业服务七大领域的趋势预测。本篇文章为人工智能趋势的相关展开讨论,数据井喷,市场将倒逼 AI 底层框架升级,AI infra 领域会诞生创新型的创业公司。


人工智能从1956年被首次提出以来,已经经过了60多年的发展。在这60年的过程中,人工智能在算法、算力(计算能力)和算料(数据)等“三算”方面取得了重要突破,正处于从“不能用”到“可以用”的技术拐点,并逐步包括人脸识别、智能客服、智能安检等多个应用场景。而随着AI模型越来越成熟,AI模型的准确度的提升已经不仅仅是AI发展最重要且唯一的指标,人工智能的发展正经历着从AI模型为中心,转向以数据和应用为中心的阶段。



在这一阶段,AI落地的成功与否已经不单单取决于AI模型本身,AI的发展将会从原本的AI模型为中心转向以数据和应用为中心,更加关注从数据处理到AI部署的全流程。市场的需求也从解决AI不能用的问题,转向如何解决AI更普遍用的问题。

在一个完整的ML项目中,根据实际项目需求,包括以下四个环节:数据的收集和处理,数据标签与特征工程,模型训练以及模型部署与应用。而在实际工程化落地的过程中,存在着大量的问题和挑战亟待解决。


随着数据井喷以及AI应用的普适化落地,在数据的收集和处理、数据标签和特征工程、模型训练和模型部署等方面,如何更进一步提高效率同时降低成本,从而让越来越多的模型能够落地应用。在此基础上,市场将倒逼AI底层框架进行进一步的迭代升级,越来越多的创新型公司在AI Infra层面涌现。

数据收集与清理

数据的收集和清理依旧是数据科学家的一大挑战,占据了他们近80%的时间。核心原因除了数据本身的繁杂以外,传统ETL工具缺乏灵活性,对非结构化数据的支持较差等问题也有很大的改善空间。在数据井喷的背景下,对于数据的自动化处理以及如何更友好的建立和管理企业内部的数据工作流,数据分析师和开发者需要新的工具。


数据标注目前多数机器学习依旧采用监督学习算法,即训练样本需带有属性标签,数据集越丰富、标签质量越高,算法的准确度往往越好,因此数据的标注工作虽然繁琐且相对技术门槛比较低(一些专业领域的数据标注除外),但是却对模型的准确性有很大的影响。传统的数据标注更加依赖人力众包,而随着相关技术的成熟,数据标注的自动化一直是大家在探索的方向。今年4月,硅谷AI数据标注公司Scale AI完成E轮融资,估值已经达到73亿美金,Scale AI所研发的软件能够通过算法自动、快速甄别物体,通过初筛的图片再经过外包团队的二次筛查和标注,从而极大提升标记效率。这种算法为主、人工为辅的标注模式,也许会随着相关技术的愈发成熟以及数据标注服务覆盖面的愈加广泛,逐渐成为未来机器学习训练数据整理的趋势。
特征工程在特征工程方面,特征的选择有助于提升模型的可预测性,在AI落地的过程中,相关特征的选取需要商业分析师与数据科学家的相互配合,将行业know-how与特征选取有机结合。而实际生产落地过程中,特征的选取以及筛选也并非一次性的工作,即使模型训练完成并实现部署,也需要在之后不断对于模型以及特征向量进行进一步的迭代和更新。因此,如何高效实现特征向量的管理,实现其在团队内的分享以及重复利用,也引起了越来越多的关注。Uber在2017年提出了Feature Store的概念,之后Airbnb、Databricks、Google等公司陆续跟进,数据科学家和数据工程师开始使用Feature Store来开发、部署、监测以及维护相关特征库。而其中的新起之秀就是2019年才成立的Tecton,去年刚刚完成B轮融资,并获得Atlassian、Zego等知名公司机器学习团队的认可。
模拟训练在模型训练方面,开源框架(Tensorflow, MxNet, PyTorch, CNTK and Keras)依旧是公认的王者,但相关模型优化平台也得到了一定的关注,比如2014年成立的SigOpt帮助数据科学家进行大规模的超参数优化,并在去年被Intel收购。与此同时,随着AI的实际应用逐渐普遍,一站式数据科学平台(如Dataiku)的兴起,则更强调数据科学家与商业分析师之间的协作。


模型部署与应用相比于前几个方面,AI在部署和应用领域的问题则更偏向工程化。由于大部分的AI进展都以研究为导向,大家专注于研发许多很厉害的算法,一方面算法在特定领域的应用确实越来越多,算法的准确率也越来越高,但另一方面,这些算法也越来越复杂。因此当这些科研领域验证可行的AI算法,大规模落地到各类企业应用以及C端应用中,算法的庞大复杂导致算法在训练和运算过程中都需要高算力的支撑,同时也是高功耗和高成本的代名词。同时在实际部署过程中,针对不同的终端,如何实现自动化的模型部署以及编译也是大家一直在探寻的方向。

其中核心想和大家分享关于算力的问题。终端算力问题本质上可以通过硬件,云端计算或者软件优化手段解决:

  • 硬件解决方案层面,通过高性能算力硬件能够满足算力。现今,全球有不少于100家的AI芯片初创公司,各种新硬件层出不穷,从重塑可编程逻辑和多核设计,到开发自己的全新架构,再到使用神经形态架构等;

  • 云端计算则是目前更为常见的解决方案,主要靠服务器集群运算后回传的云端计算,即用户端将数据传输给云端服务器进行运算,云端再将结果传回给用户,比如常见的语音助手等都是采取这一形式;

  • 软件解决方案层面,主要通过合理的AI模型优化,能够减少模型对于算力的需求,比如初心近期布局的CoCoPIE(项目详情,查看文末),针对移动AI落地场景,通过对于软件方面模型剪枝和编译方面的自动化引擎研发,能够批量化在不损失过多精度的情况下,减少模型的算力要求,从而实现模型在移动端和低端硬件上的实时运算。

不可否认的是,相比于AI Infra在美国百花齐放的局面,中国在AI领域的项目则在更多着墨于应用层。但初心相信,随着中国成为AI应用侧的超级大国,AI上层应用的繁荣将会倒逼Infra层的变革,也会有越来越多创新型公司在这一领域涌现,也欢迎对这一大方向感兴趣或者正在探索的创业者随时和我们联系、交流和探讨。

欢迎创业者投递BP至:bp@chuxincapital.com。

   关于初心   

初心资本成立于 2015 年 4 月,是一家以科技与互联网为中心、积极布局新兴业态的早期股权投资基金,专注于科技创新、企业级软件等领域的投资。初心资本致力于捕捉因科技赋能而改变行业的新格局、企业服务降本增效优化企业新模式并进行投资布局。代表项目包括新型分布式数据库 PingCAP、人工智能客服系统乐言、全场景数据智能服务商滴普科技、互联网互助保障社群水滴互助、工业机器人翼菲自动化、RPA解决方案提供商影刀、视觉 PaaS 平台极视角、可多人实时协作的云端Office石墨、高性能四足机器人公司宇树科技、电商代运营公司云雀科技等。
我们关注创业的初心,希望在陪伴创业者共同成长的过程中,等待下一个指数级增长公司、下一位新生代的商业领袖,通过科技赋能,让我们的生活方式变得更美好。
   推荐阅读   



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存