精选近期机器学习 GitHub 项目及 Reddit 热门话题

PRANAV DAR 数据分析与开发 2019-03-18

(点击上方公号，快速关注我们)

英文：PRANAV DAR，转自：数据派（ID：datapi），翻译：蒋雨畅

介绍

你有没有想过不懂画画甚至不知道如何拿画笔也能成为一名艺术家？借助计算机视觉技术，您现在可以做到这一点。更妙的是，机器学习社区非常棒，以至于执行此操作的代码已经开源了！这就是GitHub的强大功能，以及为什么我鼓励所有有抱负或成熟的数据科学家定期使用它。

GitHub一直是开源数据科学和机器学习的核心。无论您是为现有存储库做贡献还是构建自己的存储库，您都可以获得大量的知识。

下面有一些非常酷的存储库 - 深度学习，GAN特定，自然语言处理（NLP）相关的文本匹配，以及用于扩展和重新构想现有图像的计算机视觉（如上所述）。这里有适合每个人的东西！

来到Reddit，我们选择了深度学习和人工智能相关的讨论。这些将帮助您评估和了解行业中某些技术的现状以及将来的方向。

您可以查看以下前6个月的顶级GitHub存储库和热门Reddit讨论（从4月开始）：

一月：
https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/
二月：
https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/
三月：
https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/
四月：
https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/
五月：
https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/
六月：
https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/

GitHub存储库

图像修复

Github地址：
https://github.com/bendangnuksung/Image-OutPainting

这是本系列中最酷的存储库之一。“修复”最近一直是一个趋势概念，但这项由斯坦福大学的几位研究人员设计的技术，却运用了相反的概念。“Outpainting” 这个概念扩展了GAN用于修复的用途，来估计和想象现有图像在超出可见范围后，可能看起来的模样。然后运用算法将图像扩展到现有边界之外。正如您在上图所示，结果非常出色。

此存储库使用Python中的Keras的开源实现。您可以从头开始构建模型，也可以使用此存储库作者提供的模型。无论哪种方式，试试吧！

关于这个方法的详细文章：

Become a Computer Vision Artist with Stanford’s Game Changing ‘Outpainting’ Algorithm (with GitHub link)：
https://www.analyticsvidhya.com/blog/2018/07/become-computer-vision-artist-stanfords-outpainting-algorithm-github-keras/

使用TensorFlow的文本分类模型

Github地址：
https://github.com/dongjun-Lee/text-classification-models-tf

这个存储库实现了它所说的 - 各种文本分类模型的TensorFlow实现。我喜欢这个存储库的是它包含已经讨论过的每个模型的链接。这样可以了解您正在做的事情，这非常有用。这里实现的模型是：

字级CNN
字符级CNN
非常深的CNN
字级双向RNN
基于注意的双向RNN
R-CNN

MatchZoo

Github地址：
https://github.com/faneshion/MatchZoo

虽然不是严格意义的上个月创建的库，但最近这个存储库得到了一个重大更新。MatchZoo基本上是一个文本匹配工具包。它的创建是为了设计，比较和分享各种深层文本匹配模型。MatchZoo可以做的潜在任务包括文档检索，会话响应排名，问题回答和释义识别等。

一些深度匹配方法有DRMM，MatchPyramid，MV-LSTM，aNMM，DUET等。你可以查看存储库以获取有关如何安装和利用这个库的详细信息。

GANimation

Github地址：
https://github.com/faneshion/MatchZoo

以上的面孔集合让你对这个存储库感到兴奋吗？绿色边框内是原始图像，其余图像使用GANimation在解剖学上改变主体的面部表情。这是一种稍微复杂的方法，但如果您对深度学习感兴趣，则可以进行探索。

作者提供了入门所需的一切 - 初学者指南，先决条件，数据准备资源，当然还有Python代码。你在等什么？快进来！

GAN稳定性

Github地址：
https://github.com/LMescheder/GAN_stability

这个Python项目是这篇上个月在2018年国际机器学习会议上提出的论文的部分实验代码：

Which Training Methods for GANs do actually Converge?
https://avg.is.tuebingen.mpg.de/publications/meschedericml2018

对于任何对深度学习尤其是GAN感兴趣的人来说，这是一个引人入胜的案例研究。

这个存储库入选的原因是它能让您对在顶级机器学习会议中接受和呈现的论文中的研究和思考水平有了一个很好的了解。您还可以在下面链接中查看ICML 2018中的最佳论文：

The Best Research Papers from ICML 2018 – A Must-Read for Data Scientists
https://www.analyticsvidhya.com/blog/2018/06/best-research-papers-icml-2018/

Reddit讨论

Source: Wikipedia

我应该实施哪些深度学习论文？

Reddit相关链接：
https://old.reddit.com/r/MachineLearning/comments/8vmuet/d_what_deep_learning_papers_should_i_implement_to/

如果您是深度学习的新手，这将成为您必读的讨论。许多深度学习专家在最近发表的论文中提供了他们的观点（以及大量的链接），您应该阅读并实践这些论文。这将加强您所学到的知识，并使您具有与最新技术保持同步的额外优势。

如果你是一个深度学习的老手，这将刷新你的概念或告诉你在这个多元化领域发生的所有事情。您永远无法获得足够的知识，因此我建议您查看所提供的所有资源。您还应该阅读其他数据科学家提供的所有意见，这些意见将完善您自己的观点。

在Google Brain / FAIR / DeepMind等组织对科技的使用

Reddit相关链接：
https://old.reddit.com/r/MachineLearning/comments/8yvlzy/d_debate_about_science_at_organizations_like/

这个标题足以引起数据科学家的注意。这个讨论产生于Twitter关于科技如何被大型技术组织使用的辩论。虽然辩论从悲观的观点开始，但它却从那些与这些公司合作过的人那里获得了更多积极或自信的观点。

您不仅要了解Google Brain等人的科学定义和使用方式，还要了解数据科学人员对行业当前科学状况的看法。

加深理论理解的一些好书

Reddit相关链接：
https://old.reddit.com/r/MachineLearning/comments/8wcjcm/d_what_are_some_good_books_to_get_more/

如果你想进入机器学习的研究方面，你需要了解事物如何运作的理论。Thin包括核心数学，概率等主题。该主题列出了一些关于各种机器学习概念的更高级的书籍。

这里有大量的建议（几乎100条评论！）和链接，所以你不能抱怨缺乏资源。从高级机器学习到强化学习的介绍，这个讨论是顶级资源的金矿。

讨论人工智能将如何影响当前和未来的工作

Reddit相关链接：
https://www.reddit.com/r/artificial/comments/8zx2mx/artificial_intelligence_will_create_as_many_jobs/

这是几十年来一直在进行的讨论，并且随着最近机器学习和AI的兴起而变得更加突出。尽管专家竭尽全力减轻恐惧，但这种担忧仍然存在。请完整的阅读这篇讨论 - 它包含了来自AI爱好者和专家的意见，包括他们如何看待AI影响不同国家的工作。

还有大量的统计数据和链接共享，有助于衡量人工智能的发展方向。请您也对整体讨论提出宝贵的意见。你自己参与得越多，你对数据科学的信心就越大。

人们在数据可视化中犯的常见错误

Reddit相关链接：
https://www.reddit.com/r/datascience/comments/8wj1nr/play_your_charts_right_an_illustrated_collection/

数据可视化是任何机器学习项目的关键方面。但它也有它自己的独立应用程序，如仪表板，报告等。商业智能如今是一个蓬勃发展的领域，随着越来越多的人进入它，他们需要意识到人们犯下的一些最常见的错误。给定的图像很好地说明了这一点。

这是您将在数据科学之旅中遇到的一个有趣但重要的主题。你不需要虔诚地坚持已经展示过的每一个观点，但是了解整个领域的领导者如何思考这个观点是一件好事。

结束笔记

这个月的文章更倾向于深度学习，但我试图通过分享一些适合初学者的Reddit讨论来保持平衡。我再说一遍——请尝试为GitHub存储库和Reddit讨论做出贡献，因为这些将对您的职业生涯有很大的帮助。您阅读和分享的越多，您自己的知识就越好。

【关于投稿】

如果大家有原创好文投稿，请直接给公号发送留言。

① 留言格式：
【投稿】+《文章标题》+ 文章链接

② 示例：
【投稿】《不要自称是程序员，我十多年的 IT 职场总结》：http://blog.jobbole.com/94148/

③ 最后请附上您的个人简介哈~

看完本文有收获？请转发分享给更多人

关注「数据分析与开发」，提升数据技能

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！