查看原文
其他

【新开元报道 14】微软开源用于Spark的深度学习库MMLSpark

2017-10-25 开源最前线
开源最前线(ID:OpenSourceTop) 猿妹编译

来源:https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。每年各大科技巨头在这方面的研发投入也是十分巨大的,最近微软开源了一项用于 Spark 的深度学习库 —— MML Spark


Spark 的深度学习库 MML Spark


授权协议:MIT

开发语言:Scala

操作系统:跨平台

开发厂商:微软

Github:https://github.com/Azure/mmlspark 397


微软正式开源 MML Spark,用于 Apache Spark 的机器学习库, MML Spark 为 Apache Spark 提供了大量的深度学习和数据科学工具,包括与 Microsoft Cognitive Toolkit(CNTK)和 OpenCV 的,帮助用户快速创建强大的、高度可伸缩的图像和文本数据集的预测分析模型。


通过大量的实践发现,Spark 确实是构建可伸缩ML模型的强大平台。但是,需要耗费大量时间在调用底层 API 上,例如将字符串、特征向量和强制数据整合到机器学习算法的布局中。Microsoft 机器学习 Apache Spark(MMLSpark)简化了在 PySpark 中的重复性工作。


该库为处理不同类型的数据(如文本或分类)提供了简化的 API。例如,以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:



为了使用 SparkML 来对该数据进行特征化和训练,你需要将字符串转换成数字向量,再将数字向量组合在一起,并索引标签列。这些操作使得代码很难实现模块化,因为它依赖于数据布局和 ML 算法。但是,在MMLSpark中,在MMLSpark中只需要两行代码,就可以实现




深度学习和计算机视觉


深度神经网络(DNNs)是一种强大的技术,它能对图像分类、语音识别等领域的实力和人类不相上下。但是,训练 DNN 模型通常需要具备专业知识的人员。而且DNN库与SparkML 不容易集成。数据类型和 API 不容易兼容。


有了MMLSpark,我们提供了易于使用的 Python API,可以方便地训练DNN算法。MMLSpark可以方便地使用现有模型进行分类任务、在分布式GPU节点上进行训练、以及使用OpenCV建立可扩展的图像处理管线。


例如,考虑使用神经网络对图像的集合进行分类。有了 MMLSpark,您就可以简单地从 Microsoft Cognitive Toolkit(CNTK) 中初始化一个预先训练的 DNN 模型,并使用它以简单的几行代码,从图像中抽取特征。然后将其传递给传统的 ML 算法,如逻辑回归:



如今我们将 MML Spark 开源,并托管至 GitHub 上,发布到 Docker Hub 上,使用下面的命令即可在单机部署:



附:新开源报道汇总

《【新开源报道 13】Facebook 开源帮助开发者消灭最顽固的软件 bug 的工具》

《【新开源报道 12】不只是阿里巴巴的操作系统,AliOS 宣布开源》

《【新开源报道 11】重磅!阿里巴巴正式开源全球化OpenMessaging和ApsaraCache项目》

《【新开源报道 10】IBM 和谷歌等巨头联手为开发者推出开源容器安全工具Grafeas》

《【新开源报道 9】Google开源Abseil,为C++和Python开发提供支持》

《【新开源报道 8】serverless 领域的福音!Oracle 宣布开源 Fn project》

《【新开源报道 7】苹果在 GitHub 上公布 macOS 和 iOS 内核源码》

《【新开源报道 6】百度开源移动端深度学习框架mobile-deep-learning(MDL)》

《【新开源报道 5】百度正式开源其 RPC 框架 brpc》

《【新开源报道 4】IBM 开源动态的应用服务器运行时环境 Open Liberty》

《【新开源报道 3】微信后台团队最近开源力作:PhxQueue分布式队列》

《【新开源报道 2】喜大普奔!阿里即将开源 ApsaraCache,云数据库 Redis 版分支》

【新开源报道 1】腾讯 Web UI 解决方案 QMUI Web 正式回迁开源》



●本文编号62,以后想阅读这篇文章直接输入62即可

●输入m获取文章目录


↓↓↓ 点击"阅读原文" 进入GitHub详情页  

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存