【陋室推荐】| 2018-5-8
【陋室推荐】
本栏目主要依据我近期的阅读和科研情况,每周为大家推荐1本书以及2篇论文,主要都会和数据科学、自然语言处理等有关,希望大家会喜欢,也欢迎大家给我推荐大家喜欢的材料,我会根据实际情况推荐给大家!
往期回顾:
《数据挖掘导论》
Pang-Ning Tan, Michael Steinbach, Vipin Kumar.
开始想推荐统计学习方法的,但是感觉推荐多了没什么意义,而且里面的方法其实比较少,有一些现实的应用场景很多原理不需要理解这么深(但是不代表说就可以不会哈),因此在这里我想推荐的是《数据挖掘导论》这本书。这本书虽说是偏向数据挖掘的(数据挖掘和机器学习本身其实是一个问题和方法之间的关系,数据挖掘本身和数据分析的含义还比较接近。),但是涉及了大量机器学习的方法,讲的相对比较简单,我觉得非常适合用来入门,我的关联规则很早之前就是看他开始理解的,理论讲的很浅,很友好,《统计学习方法》对大部分人而言看起来实在是太痛苦了,这本《数据挖掘导论》是一本非常好的书。
Glove: Global Vectors for Word Representation
Pennington J, Socher R, Manning C.
做NLP的人应该不会对Word2Vector很陌生,但是说到GloVe可能很多人就不知道了,实际上,在很多应用场景中,GloVe的效果其实并不逊色与Word2Vector,而且,相比之下GloVe的理论非常简单,关键词简单的就是“共现矩阵”、“训练代价函数”,没了通过词汇之间的共线性来推算词向量,相比Word2Vector的“CBOW”和“Skip-Gram”以及进一步的Hierarchical Softmax、Negative Sampling要好多了(当然也会有一些人会认为Word2Vec会更加直观,各有各的观点吧,我个人觉得GloVe似乎是更简单。。。),但是GloVe吃内存是各界公认的,所以尤其在生产环境上,Word2Vec会更加吃香(就是所谓的牺牲一点点最优性来换取很多的空间呗),最近我就在走GloVe,我会花点时间来走这个过程,走完感觉还是很不错的,(说起来你们可能不信,其实网上的Python实现还蛮多坑的),近期我会写一篇文章讲讲原理顺带说说怎么实现的(我现在已经走通了哈哈哈)。
VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text
Hutto C J, Gilbert E.
说VADER可能很多人都不知道,但是说到NLTK肯定很多人不会陌生。大家可能看过很多关于NLTK的书,也知道NLTK里面有很多关于NLP的功能,词性标注、rooting等等,但是我发现很多书里面其实都不会去谈NLTK中的sentiment模块,谈到VADER就少之又少了,但是最近研读NLTK的时候发现了这个,然后看了这篇文章,从输入输出的角度,这个算法能实现对全文的文本情感分析(什么情感分类都弱爆了,人家直接给你一个连续值)和极性分析(就是主观性和客观性),优秀吧~
最后侃几句
NLP还是一个比较深的坑,而且研究起来也有比较多的应用,但是其实还是一个比较年轻的学科(不知道现在能不能上升到学科这个水平额),有很多理论上的东西还没有共识,也没有很完整、靠谱的教程,还是有很多坑指的我们去研究和学习,然而现实生活中却已经爆发了比较大的需求,很多理论和技术都在一边研究一边加入应用,我们不仅承担了创造y=f(x)的角色,还参与f(x)=kx+b的模型构造,最后还需要把真实的x带进去求出所需的y,说起来还具有较大的社会使命哈哈哈(我说这种话一般都不需要打草稿的哈哈哈),有兴趣的欢迎交流,我的水平。。。其实也就只是这么多而已,还要进一步学习哈哈,共勉。