查看原文
其他

七个实用的Python机器学习库

数据应用学院 大数据应用 2023-08-17

今日份知识你摄入了么?

图片来自Unsplash,作者 Eden Constantino


谚语说“你不必重新发明轮子”,数据库就是最好的例子。它帮助你以简单的方式编写复杂而耗时的功能。根据我的说法,一个好的项目需要一些最好的数据库。在这里,我整理了七个有用的Python库,这些数据库将有效帮助你进行机器学习的开发。


1

Prophet



这是一张来自Facebook的图像。它提供了一种基于加法模型的时间序列数据预测程序,其中的非线性趋势与年、周和日季节性以及假日效应相吻合。它最适用于具有强烈季节性影响的时间序列和几个季节的历史数据。它对丢失的数据和趋势变化具有鲁棒性,并且能够很好地处理异常数值。该库在GitHub有15k多星。


GitHub - facebook/prophet: 为线性或非线性增长的多个季节性时间序列数据生成高质量预测的工具(https://github.com/facebook/prophet)


2

Deeplake



这是深度学习应用程序的数据湖。它能将所有数据存储在一个地方,从简单的注释到大型视频,并在大规模训练模型的同时快速解锁数据流。Google、Waymo、 Red Cross、 Omdena、Yale还有 Oxford都在使用它。该库在GitHub上有5000多星。


GitHub-activeloopai/deeplake:深度学习的数据湖。构建、管理、查询、更新和可视化数据集。将数据实时传到PyTorch/TensorFlow。(https://activeloop.ai(https://github.com/activeloopai/deeplake)


3

Optuna



这是一个专门为机器学习设计的自动超参数优化软件框架,它具有一个命令式、按运行方式定义的用户API。正因于此,它的代码具有很高的模块性,用户可以动态构建超参数的搜索空间,也可以将其用于任何机器学习或深度学习框架中。该库在GitHub上有7k多星。


GitHub-optuna/optuna:一个超参数优化框架(https://github.com/optuna/optuna)


4

Pycm



这是一个支持输入数据向量和直接矩阵的多类混淆矩阵库,也是支持大多数类和总体统计参数的分类后模型评估的独特工具。它好似一把混淆矩阵的瑞士军刀,主要适用于那些需要一系列预测模型指标和对各种分类器进行准确评估的科学家们。该库在GitHub有1k多星。


GitHub - sepandhaghighi/pycm:Python中的多类混淆矩阵库(https://github.com/sepandhaghighi/pycm)


5

NannyML



该库可评估部署后的模型性能(无需访问目标)、检测数据漂移,并智能地将数据漂移警报与模型性能的变化联系起来。它提供了一个以交互可视化、模型独立性为特点的界面,并且操作起来极其简单。目前,它支持所有的表格用例、分类和回归。该库在GitHub上有1k多星。


GitHub-NannyML/nanonyml:检测静态模型故障。NannyML使用表格数据估计回归和分类模型的性能。它提醒发生变化的时间与原因。目前, 它是唯一能够充分捕捉数据漂移对性能影响的开源库(https://github.com/NannyML/nannyml)


6

ColossalAI



此库提供了一组并行组件,旨在支持你编写分布式深度学习模型,就像在笔记本电脑上编写模型一样。它还是可以在几行数据中启动分布式训练和推理的用户友好型工具。该库在GitHub上有6.5k多星。


GitHub-hpcaitech/CorossalAI:CrossalAI--面向大模型统一时代的深度学习系统(https://github.com/hpcaitech/ColossalAI)


7

Emcee



这是Goodman和Weare(2010)提出的马尔可夫链蒙特卡罗(MCMC)仿射不变集合采样器的Python工具。在天体物理学文献中,它已被用于相当多的项目中。该库在GitHub上有1k多星。


GitHub-dfm/emcee:用于仿射不变MCMC的Python集成采样工具包(https://github.com/dfm/emcee)


今天就介绍到这里,我相信这些库将在你开发过程中给你提供很大帮助。如果你还知道其他好的机器学习库,请分享在评论区。谢谢!

原文作者:Farhan Tanvir

翻译作者:王文龙

美工编辑:过儿

校对审稿:Chuang

原文链接:https://medium.com/geekculture/7-useful-python-machine-learning-libraries-you-should-use-in-your-next-project-9406b5e0e390


本周公开课预告

往期精彩回顾

2022年IDEAS全球人工智能大会火热抢票中!

招募志愿者啦!2022 IDEAS全球人工智能大会,与你不见不散!

Python的自回归分布滞后模型简介

3步走方略——用Python为数据科学项目收集数据

担任数据科学经理的前半年,我学到了什么?






点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存