作为新一轮产业变革的核心驱动力,AI(人工智能)随着专家系统的出现,深度学习的发展,不断实现跃迁。越来越多的企业认识到 AI 技术的变革优势并应用,AI/ML 模型被快速开发、部署。
从开发、场景分析、预训练、到部署上线,模型的精准度会随时间下降,而随模型数量和种类增多,模型部署、部门间沟通和监控、训练等任务渐渐繁重。粗放式的发展,造成对 AI 的使用走向“重开发,轻治理”的局面,开发与运维之间的鸿沟、部门之间协作不畅带来的“隐藏技术债”逐渐暴露,模型从实验室(开发)到投产(运维)的“最后一英里”变得举步维艰(这一现象对大企业尤甚)。这一背景下,企业亟需科学的治理方法来帮助“偿还”技术债。而随着 ModelOps 在企业中的应用,科学的 AI 治理方式正在使这一现象逐渐好转。ModelOps(Model Operations)扩展自 DevOps,是数据科学和软件工程的结合的产物。继承了 DevOps “敏捷开发—持续集成—持续交付”的 ModelOps,通过将模型运维部分的某些环节前置嵌入开发环节,梳理出模型全生命周期的流程化、标准化闭环。在闭环内,以持续监控及验证不断训练模型,达到生产优化的效果。这一企业级的模型治理方式能使数据科学家、各个工程师及运维人员间权责清晰,协作顺畅。同时,ModelOps 将企业维度所有模型进行入库管理,模型库的存在使模型真正成为企业资产,复用性提升,解决了重复开发的问题。除了使模型开发到部署的“最后一英里”更加通畅之外,ModelOps 工作流程自动化、持续监测和高复用性的优势,使得模型更具可靠性。图 丨 ModelOps 对模型生命周期进行治理的主要环节(来源:CB Insights 中国)除机器学习模型外,ModelOps 从更通用的角度,对所有模型进行需求管理、流程管理、资产管理、风险管理、安全管理及模型后评估等,从这一角度看,MLOps 可以理解为是 ModelOps 的一个子集。通过实时监控、分析以及不断重复训练,ModelOps 保证了模型的准确度及可靠性;集成化的管理也使有新的开发需求时,从业者可以调用模型库中的模型,避免了许多重复开发的工作。这一科学的治理方式使得 “隐藏技术债”问题得以解决,企业的 AI 计划更容易达到规模化、量产化的部署。“伴云而生”是 ModelOps 的主流产品形式之一。云服务提供商降低了 AI 技术应用的门槛,使得企业不必进行高额的基础设施投入即可引入人工智能。加之“云原生”的普及,与 DevOps 的敏捷式开发珠联璧合。以 IBM、Google、Microsoft、Amazon 为代表的云服务商纷纷将 ModelOps、MLOps 与云服务一起推出,在“AI 大众化”及“AI 自治化”的进程中起到推进作用。除云服务商外,AI 平台厂商也是 ModelOps 的主要参与方之一。此类厂商多以 DSML 平台(Data Science & Machine Learning Platform)切入,或提供全栈 ModelOps/MLOps 平台为企业赋能,提供科学治理方式并降低企业应用机器学习技术的门槛。如 Databricks、H2O.ai、ModelOp、DataRobot、九章云极DataCanvas 以及专注工业智能的天泽智云CyberInsight 等企业。或是对机器学习、AI 模型应用中的构建、训练、部署、监控等某些环节提供增强。这一类代表玩家有 Grid AI、Arthur AI、Fiddler AI、Truera 及 Algorthmia 等。除以上两类主流参与方,数据服务商从另一角度切入该赛道。对于机器学习而言,目前仍以监督学习为主,大量无标注的训练样本对数据标注产生需求。机器学习领域的著名学者吴恩达认为,确保数据始终如一的高质量是 MLOps 的关键,一些公司从数据合成、数据标注、数据质量管理切入 MLOps/ModelOps 市场,是产业链中相对上游的企业。代表企业有数据合成领域的 Ai.Reverie、DataGen Technologies,聚焦数据质量增强的 Aquarium,数据准备阶段(以数据标注为主)的 Scale.ai、Hive.ai 等。图丨ModelOps 部分参与方图景(来源:CB Insights 中国)消除技术债,通向自治化,ModelOps 的应用优势ModelOps 不仅是 AI 模型的操作/管理框架,更通过科学的模型治理,将企业的 AI 应用流程标准化。如同标准化集装箱的普及与航运技术的发展共同催生了大航海时代,ModelOps 的普及也将使企业 AI 技术的应用、部署和治理更加顺畅。标准化让企业应用 AI 时,不再对模型数量、种类增多带来的边际成本增加而感到困扰。谈及 ModelOps 的实际应用,天泽智云副总裁金超博士讲道,“以工业场景为例,目前智能化的挑战并非技术本身,而在于以领先于客户需求的技术,倒逼企业进行变革。从这个角度看,ModelOps 是一种‘敏捷开发、科学治理’的企业文化的输出。”基于以上认知和工业场景赋能经验,天泽智云借鉴 ModelOps 构建了完整的跨领域、跨部门、跨阶段、跨环境的工业智能建模体系,从算法的设计、探索、验证,以及监控和部署,形成了一套完整的模型全生命周期管理的闭环平台。在设备预测与健康管理(PHM)等场景为工业企业赋能。未来,企业为实现规模化效应,将更加重视 AI 计划从模型算法设计到生产决策系统落地间的均衡。随着 ModelOps 对更多企业的 AI 管理方式产生影响,“重开发,轻治理”之风将逐渐消散。AI 技术应用的初衷是用机器替代人去做基础、重复性高的工作,从这类工作中解放人工,完成更高维、复杂的工作。在 ModelOps 的应用中,企业的模型治理流程被持续监控、流程化、标准化,这使得“对模型的治理”在某种程度上可以变作一项重复性较高的基础性工作,AI 自治化——“以 AI 治理 AI”变为可能。在自治化趋势下,随着技术的更迭和治理方式的改变,AI 将拥有部分能动性,实现更高维的智能。同时,当人工从“治理 AI”这项工作中解放时,也意味着 AI 应用、治理的技术门槛进一步降低。目前,ModelOps 的应用仍处于起步阶段。随着企业对“隐藏技术债”的察觉,对模型治理的重视程度提高,ModelOps 这一高效赋能、科学治理的方式将逐渐普及,成为企业 AI 治理的“标配”。【1】Guo, Ziqi, et al. “IAI DevOps: A Systematic Framework for
Prognostic Model Lifecycle Management.” 2019
Prognostics and System Health Management Conference (PHM-Qingdao), Oct.
2019, 10.1109/phm-qingdao46334.2019.8943069. 【2】Hummer, Waldemar, et al. “ModelOps: Cloud-Based Lifecycle
Management for Reliable and Trusted AI.” 2019
IEEE International Conference on Cloud Engineering (IC2E), June 2019,
10.1109/ic2e.2019.00025. 【3】Sambasivan, Nithya, et al. “‘Everyone Wants to Do the Model Work,
Not the Data Work’: Data Cascades in High-Stakes AI.” Proceedings
of the 2021 CHI Conference on Human Factors in Computing Systems, 6 May
2021, 10.1145/3411764.3445518. 【4】Sculley, D, et al. Hidden
Technical Debt in Machine Learning Systems.