2022 年科学家必须知道的顶级MLOps工具数据
今日份知识你摄入了么?
机器学习运营(Machine Learning Operations,简称 MLOps)是将机器学习模型投入生产的过程,持续维护和监控这些模型是 MLOps 的核心目标。作为一项集体项目,MLOps结合了数据科学家、数据工程师、机器学习工程师和 DevOps 工程师的技能和专业知识。
MLOps 的主要优势是高效率、可扩展性和可再现性。
MLOps 包括从数据流到机器学习模型部署的所有内容。在某些情况下,MLOps 只是用于模型部署,但你也可以找到更成熟的企业,它们已经在各种 ML开发领域实现了MLOps,如探索性数据分析(EDA)、数据预处理、模型训练等。
(图片来自Databricks)
✦+
+
MLflow
MLflow 是一个用于管理端到端机器学习周期的开源平台。它具有以下主要组件:
Tracking:允许你跟踪实验以记录和比较参数和结果。
Models:允许你管理和部署来自各种 ML 库的模型到各种模型服务和推理平台。
Projects:允许你以可重用、可复制的形式打包 ML 代码,以便与其他数据科学家共享或转移到生产中。
Model Registry:允许你集中模型存储,以管理模型从试运行到生产的整个生命周期阶段转换,并具有版本控制和注释功能。
Model Serving:允许你将 MLflow 模型作为 REST 端点托管。
✦+
+
Kubeflow
Kubeflow是一个开源的机器学习框架,创建它是为了在Kubernetes上协调和部署可扩展的机器学习管道。(例如进行数据处理,然后使用 TensorFlow 或 PyTorch 训练模型,并部署到 TensorFlow Serving 或 Seldon)。Kubeflow 是基于 Google 内部部署 TensorFlow 模型的方法构建的,称为 TensorFlow Extended。
根据官方网站:
“Kubeflow 项目致力于使机器学习(ML)工作在 Kubernetes 上的部署变得简单、便携和可扩展。我们的目标不是重新创建其他服务,而是提供一种直接的方法,将最佳的 ML 开源系统部署到不同的基础设施上。无论你在哪里运行 Kubernetes,都应该能够运行 Kubeflow。”
✦+
+
FastAPI
FastAPI 是一个现代的、快速的(高性能的)Web 框架,能基于Python 类型提示,用于使用 Python 3.6+ 构建 API。它完全支持异步编程,可以与 Uvicorn 和 Gunicorn 一起运行。
其主要特点是:
Fast:具有非常高的性能,与 NodeJS 和 Go 不相上下(也多亏了 Starlette 和 Pydantic)。是最快的 Python 框架之一。
Fast to code:能将开发功能的速度提高约 200% 至 300%。
Intuitive:拥有强大的编辑器支持,对地点和时间需求大幅度降低。
Easy:设计为易于使用和学习,能减少阅读文档的时间。
Automated Documentation:随附自动化交互式文档。
Standards-based:基于(并完全兼容)API 的开放标准:OpenAPI(以前称为 Swagger)和 JSON 模式
✦+
+
Docker
假设你正在构建一个 Web 应用程序。在开发阶段,你和团队中的其他开发人员将很可能使用本地开发环境。如何确保应用程序在生产环境中按预期工作?你的笔记本电脑可能有一个特定的操作系统,一个特定的 Python 运行,一个特定版本的成百上千的库/框架,而你的应用程序依赖于这些东西。一个软件应用程序或机器学习应用程序有很多依赖项,如果没有正确处理,你的应用程序将有无数种可能会失败。为了解决这个问题,开发人员使用“Containers”。
一个container是一种标准化的软件组件,它封装代码及其所有依赖项,以确保应用程序在不同的计算机环境中快速、一致地运行。应用程序的代码、运行、系统工具、库和设置都包含在一个称为“Docker container image”的轻量、独立、可执行的打包中。
那么 Docker 是什么?Docker 是一家提供软件(也称为 Docker)的公司,允许用户构建、运行和管理containers。虽然 Docker 的containers是最常见的,但也有其他不太有名的替代品,如 LXD 和 LXC,它们也能提供container式解决方案。
✦+
+
结语
根据 NewVantage Partners 最近的一项研究,在排名前 70 的企业组织中,只有 15% 的企业组织将 AI 能力引入了大规模生产。不能用来创造价值的 AI,只是一个极其昂贵的实验。尽管有着高度技术性的成就,这些实验并没有产生投资回报。MLOps 通过简化企业在生产中的安装、监控和模型更新,为 AI 和 ROI 打开了大门。
原文作者:Moez Ali
翻译作者:高佑兮
美工编辑:过儿
校对审稿:明慧
原文链接:https://moez-62905.medium.com/top-mlops-tools-data-scientists-must-know-in-2022-94bf143a80d
本周公开课预告
往期精彩回顾
Marketing数据分析如何做Attribution Model?
点击“阅读原文”查看数据应用学院核心课程