初心资本2021企服新趋势01|人工智能:数据井喷,市场将倒逼AI底层框架升级
在这一阶段,AI落地的成功与否已经不单单取决于AI模型本身,AI的发展将会从原本的AI模型为中心转向以数据和应用为中心,更加关注从数据处理到AI部署的全流程。市场的需求也从解决AI不能用的问题,转向如何解决AI更普遍用的问题。
在一个完整的ML项目中,根据实际项目需求,包括以下四个环节:数据的收集和处理,数据标签与特征工程,模型训练以及模型部署与应用。而在实际工程化落地的过程中,存在着大量的问题和挑战亟待解决。随着数据井喷以及AI应用的普适化落地,在数据的收集和处理、数据标签和特征工程、模型训练和模型部署等方面,如何更进一步提高效率同时降低成本,从而让越来越多的模型能够落地应用。在此基础上,市场将倒逼AI底层框架进行进一步的迭代升级,越来越多的创新型公司在AI Infra层面涌现。
数据的收集和清理依旧是数据科学家的一大挑战,占据了他们近80%的时间。核心原因除了数据本身的繁杂以外,传统ETL工具缺乏灵活性,对非结构化数据的支持较差等问题也有很大的改善空间。在数据井喷的背景下,对于数据的自动化处理以及如何更友好的建立和管理企业内部的数据工作流,数据分析师和开发者需要新的工具。
特征工程在特征工程方面,特征的选择有助于提升模型的可预测性,在AI落地的过程中,相关特征的选取需要商业分析师与数据科学家的相互配合,将行业know-how与特征选取有机结合。而实际生产落地过程中,特征的选取以及筛选也并非一次性的工作,即使模型训练完成并实现部署,也需要在之后不断对于模型以及特征向量进行进一步的迭代和更新。因此,如何高效实现特征向量的管理,实现其在团队内的分享以及重复利用,也引起了越来越多的关注。Uber在2017年提出了Feature Store的概念,之后Airbnb、Databricks、Google等公司陆续跟进,数据科学家和数据工程师开始使用Feature Store来开发、部署、监测以及维护相关特征库。而其中的新起之秀就是2019年才成立的Tecton,去年刚刚完成B轮融资,并获得Atlassian、Zego等知名公司机器学习团队的认可。
模拟训练在模型训练方面,开源框架(Tensorflow, MxNet, PyTorch, CNTK and Keras)依旧是公认的王者,但相关模型优化平台也得到了一定的关注,比如2014年成立的SigOpt帮助数据科学家进行大规模的超参数优化,并在去年被Intel收购。与此同时,随着AI的实际应用逐渐普遍,一站式数据科学平台(如Dataiku)的兴起,则更强调数据科学家与商业分析师之间的协作。
其中核心想和大家分享关于算力的问题。终端算力问题本质上可以通过硬件,云端计算或者软件优化手段解决:
硬件解决方案层面,通过高性能算力硬件能够满足算力。现今,全球有不少于100家的AI芯片初创公司,各种新硬件层出不穷,从重塑可编程逻辑和多核设计,到开发自己的全新架构,再到使用神经形态架构等;
云端计算则是目前更为常见的解决方案,主要靠服务器集群运算后回传的云端计算,即用户端将数据传输给云端服务器进行运算,云端再将结果传回给用户,比如常见的语音助手等都是采取这一形式;
软件解决方案层面,主要通过合理的AI模型优化,能够减少模型对于算力的需求,比如初心近期布局的CoCoPIE(项目详情,查看文末),针对移动AI落地场景,通过对于软件方面模型剪枝和编译方面的自动化引擎研发,能够批量化在不损失过多精度的情况下,减少模型的算力要求,从而实现模型在移动端和低端硬件上的实时运算。
不可否认的是,相比于AI Infra在美国百花齐放的局面,中国在AI领域的项目则在更多着墨于应用层。但初心相信,随着中国成为AI应用侧的超级大国,AI上层应用的繁荣将会倒逼Infra层的变革,也会有越来越多创新型公司在这一领域涌现,也欢迎对这一大方向感兴趣或者正在探索的创业者随时和我们联系、交流和探讨。
欢迎创业者投递BP至:bp@chuxincapital.com。
关于初心