查看原文
其他

2022 年科学家必须知道的顶级MLOps工具数据

数据应用学院 大数据应用 2023-08-17

今日份知识你摄入了么?

机器学习运营(Machine Learning Operations,简称 MLOps)是将机器学习模型投入生产的过程,持续维护和监控这些模型是 MLOps 的核心目标。作为一项集体项目,MLOps结合了数据科学家、数据工程师、机器学习工程师和 DevOps 工程师的技能和专业知识。


MLOps 的主要优势是高效率、可扩展性和可再现性。


MLOps 包括从数据流到机器学习模型部署的所有内容。在某些情况下,MLOps 只是用于模型部署,但你也可以找到更成熟的企业,它们已经在各种 ML开发领域实现了MLOps,如探索性数据分析(EDA)、数据预处理、模型训练等。


(图片来自Databricks)

+

+

MLflow


MLflow 是一个用于管理端到端机器学习周期的开源平台。它具有以下主要组件:


  1. Tracking:允许你跟踪实验以记录和比较参数和结果。

  2. Models:允许你管理和部署来自各种 ML 库的模型到各种模型服务和推理平台。

  3. Projects:允许你以可重用、可复制的形式打包 ML 代码,以便与其他数据科学家共享或转移到生产中。

  4. Model Registry:允许你集中模型存储,以管理模型从试运行到生产的整个生命周期阶段转换,并具有版本控制和注释功能。

  5. Model Serving:允许你将 MLflow 模型作为 REST 端点托管。


+

+

Kubeflow


Kubeflow是一个开源的机器学习框架,创建它是为了在Kubernetes上协调和部署可扩展的机器学习管道。(例如进行数据处理,然后使用 TensorFlow 或 PyTorch 训练模型,并部署到 TensorFlow Serving 或 Seldon)。Kubeflow 是基于 Google 内部部署 TensorFlow 模型的方法构建的,称为 TensorFlow Extended。


根据官方网站:


“Kubeflow 项目致力于使机器学习(ML)工作在 Kubernetes 上的部署变得简单、便携和可扩展。我们的目标不是重新创建其他服务,而是提供一种直接的方法,将最佳的 ML 开源系统部署到不同的基础设施上。无论你在哪里运行 Kubernetes,都应该能够运行 Kubeflow。”


+

+

FastAPI


FastAPI 是一个现代的、快速的(高性能的)Web 框架,能基于Python 类型提示,用于使用 Python 3.6+ 构建 API。它完全支持异步编程,可以与 Uvicorn 和 Gunicorn 一起运行。


其主要特点是:


  1. Fast:具有非常高的性能,与 NodeJS 和 Go 不相上下(也多亏了 Starlette 和 Pydantic)。是最快的 Python 框架之一。

  2. Fast to code:能将开发功能的速度提高约 200% 至 300%。

  3. Intuitive:拥有强大的编辑器支持,对地点和时间需求大幅度降低。

  4. Easy:设计为易于使用和学习,能减少阅读文档的时间。

  5. Automated Documentation:随附自动化交互式文档。

  6. Standards-based:基于(并完全兼容)API 的开放标准:OpenAPI(以前称为 Swagger)和 JSON 模式


+

+

Docker


假设你正在构建一个 Web 应用程序。在开发阶段,你和团队中的其他开发人员将很可能使用本地开发环境。如何确保应用程序在生产环境中按预期工作?你的笔记本电脑可能有一个特定的操作系统,一个特定的 Python 运行,一个特定版本的成百上千的库/框架,而你的应用程序依赖于这些东西。一个软件应用程序或机器学习应用程序有很多依赖项,如果没有正确处理,你的应用程序将有无数种可能会失败。为了解决这个问题,开发人员使用“Containers”。


一个container是一种标准化的软件组件,它封装代码及其所有依赖项,以确保应用程序在不同的计算机环境中快速、一致地运行。应用程序的代码、运行、系统工具、库和设置都包含在一个称为“Docker container image”的轻量、独立、可执行的打包中。

那么 Docker 是什么?Docker 是一家提供软件(也称为 Docker)的公司,允许用户构建、运行和管理containers。虽然 Docker 的containers是最常见的,但也有其他不太有名的替代品,如 LXD 和 LXC,它们也能提供container式解决方案。


+

+

结语


根据 NewVantage Partners 最近的一项研究,在排名前 70 的企业组织中,只有 15% 的企业组织将 AI 能力引入了大规模生产。不能用来创造价值的 AI,只是一个极其昂贵的实验。尽管有着高度技术性的成就,这些实验并没有产生投资回报。MLOps 通过简化企业在生产中的安装、监控和模型更新,为 AI 和 ROI 打开了大门。

原文作者:Moez Ali

翻译作者:高佑兮

美工编辑:过儿

校对审稿:明慧

原文链接:https://moez-62905.medium.com/top-mlops-tools-data-scientists-must-know-in-2022-94bf143a80d


本周公开课预告

往期精彩回顾

长文详解Python数据预处理,快收藏!

数据分析求职最常用的30种大数据工具,你掌握几个了?

三个月如何搞定机器学习的数学原理?

Marketing数据分析如何做Attribution Model?

数据/商业分析师求职,如何准备统计相关面试题?





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存