【陋室推荐】| 2018-5-8

Original 叉烧 CS的陋室 2022-08-08

【陋室推荐】

本栏目主要依据我近期的阅读和科研情况，每周为大家推荐1本书以及2篇论文，主要都会和数据科学、自然语言处理等有关，希望大家会喜欢，也欢迎大家给我推荐大家喜欢的材料，我会根据实际情况推荐给大家！

往期回顾：

《数据挖掘导论》

Pang-Ning Tan, Michael Steinbach, Vipin Kumar.

开始想推荐统计学习方法的，但是感觉推荐多了没什么意义，而且里面的方法其实比较少，有一些现实的应用场景很多原理不需要理解这么深（但是不代表说就可以不会哈），因此在这里我想推荐的是《数据挖掘导论》这本书。这本书虽说是偏向数据挖掘的（数据挖掘和机器学习本身其实是一个问题和方法之间的关系，数据挖掘本身和数据分析的含义还比较接近。），但是涉及了大量机器学习的方法，讲的相对比较简单，我觉得非常适合用来入门，我的关联规则很早之前就是看他开始理解的，理论讲的很浅，很友好，《统计学习方法》对大部分人而言看起来实在是太痛苦了，这本《数据挖掘导论》是一本非常好的书。

Glove: Global Vectors for Word Representation

Pennington J, Socher R, Manning C.

做NLP的人应该不会对Word2Vector很陌生，但是说到GloVe可能很多人就不知道了，实际上，在很多应用场景中，GloVe的效果其实并不逊色与Word2Vector，而且，相比之下GloVe的理论非常简单，关键词简单的就是“共现矩阵”、“训练代价函数”，没了通过词汇之间的共线性来推算词向量，相比Word2Vector的“CBOW”和“Skip-Gram”以及进一步的Hierarchical Softmax、Negative Sampling要好多了（当然也会有一些人会认为Word2Vec会更加直观，各有各的观点吧，我个人觉得GloVe似乎是更简单。。。），但是GloVe吃内存是各界公认的，所以尤其在生产环境上，Word2Vec会更加吃香（就是所谓的牺牲一点点最优性来换取很多的空间呗），最近我就在走GloVe，我会花点时间来走这个过程，走完感觉还是很不错的，（说起来你们可能不信，其实网上的Python实现还蛮多坑的），近期我会写一篇文章讲讲原理顺带说说怎么实现的（我现在已经走通了哈哈哈）。

VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text

Hutto C J, Gilbert E.

说VADER可能很多人都不知道，但是说到NLTK肯定很多人不会陌生。大家可能看过很多关于NLTK的书，也知道NLTK里面有很多关于NLP的功能，词性标注、rooting等等，但是我发现很多书里面其实都不会去谈NLTK中的sentiment模块，谈到VADER就少之又少了，但是最近研读NLTK的时候发现了这个，然后看了这篇文章，从输入输出的角度，这个算法能实现对全文的文本情感分析（什么情感分类都弱爆了，人家直接给你一个连续值）和极性分析（就是主观性和客观性），优秀吧~

最后侃几句

NLP还是一个比较深的坑，而且研究起来也有比较多的应用，但是其实还是一个比较年轻的学科（不知道现在能不能上升到学科这个水平额），有很多理论上的东西还没有共识，也没有很完整、靠谱的教程，还是有很多坑指的我们去研究和学习，然而现实生活中却已经爆发了比较大的需求，很多理论和技术都在一边研究一边加入应用，我们不仅承担了创造y=f(x)的角色，还参与f(x)=kx+b的模型构造，最后还需要把真实的x带进去求出所需的y，说起来还具有较大的社会使命哈哈哈（我说这种话一般都不需要打草稿的哈哈哈），有兴趣的欢迎交流，我的水平。。。其实也就只是这么多而已，还要进一步学习哈哈，共勉。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

【陋室推荐】| 2018-5-8

《数据挖掘导论》

Pang-Ning Tan, Michael Steinbach, Vipin Kumar.

Pennington J, Socher R, Manning C.

Hutto C J, Gilbert E.

最后侃几句

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

【陋室推荐】| 2018-5-8

《数据挖掘导论》

Pang-Ning Tan, Michael Steinbach, Vipin Kumar.

Pennington J, Socher R, Manning C.

Hutto C J, Gilbert E.

最后侃几句

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡