【NLP.TM】听说想看我写NLP?
有些人看到我在做自然语言处理,像我聊聊关于自然语言处理的事情,我回忆前面想着缩减将算法和代码的篇幅,但是看不少人还是多少感点兴趣的,想了想我就讲吧,但是我不会讲很深或者很难,然后让大家不好接受,也缩短篇幅方便大家阅读,有兴趣的可以结合我给的材料看看,这样能有更大的收获,另外我会开放我的代码,供大家下载下来看看。
我是做自然语言处理没错,但是能力有限所以先从一小块入手,目前只做文本挖掘,类似情感分析等,运用文本挖掘得到的信息支持股票决策、股票分析等内容,因此我后面的推送重点放在文本挖掘这块。
关于自然语言处理(Natural Language Processing)的定义,1999年美国计算机科学家马纳瑞斯的定义是“自然语言处理可以定义为研究人与人交际中以及人与计算机交际中的语言问题的一门学科”,目标就是研制表示语言能力和语言应用的模型,建立计算框架实现该模型,并提出相应方法来不断改善,根据模型设计出使用系统,探讨使用系统的评测,这样的一门学科成为自然语言处理,说白了就是研究人说话,研究好了再来结合人说的含义等去进行应用,包括现在人们看到的机器翻译、语音识别、问答机器人之类的内容。
文本挖掘(Text Mining)是自然语言处理的一个分支,但是这个分支不算是正统的自然语言处理分支,而是里面包含了自然语言处理中很多块的内容,例如信息抽取、语义识别与分析、情感分类等,说白了,就是重点分析文本,例如一条评论,一条微博,一篇新闻,一条聊天记录等,研究他们的对某件事的看法,识别目前舆论焦点是什么,舆论对该焦点的观点是什么,不同的人对某个事物的看法差异,从而采取进一步的决策。
在自然语言处理方面,国内中文的最好的书应该就要数宗成庆的《统计自然语言处理》了,这本书很特别,摒弃了传统的叙述方法,而改用文献综述的形式,给出方法的名称、简述和参考文献,让有兴趣的人去自己查,这样能丰富内容的同时让读者各取所需。
除了《统计自然语言处理》,想推荐的还有王威翻译的《精通Python自然语言处理》和动物园系列的《Python自然语言处理》,都是基于NLTK包的,感觉写的还不错。
关于文本挖掘,其实专门讲的非常少,我的入门和第一篇论文主要是从文献学习的,后来随着学习的深入才找到一些和文本挖掘有比较多的重合的书籍,可以供大家参考。首先说英文的,这本书我现在还在看,感觉非常全,“THE TEXT MINING HANDBOOK Advanced Approaches in Analyzing Unstructured Data”,其实是比较全的,但是英文嘛,难度比较高。中文没有很类似的只有一本比较接近的,俞勇的《Web数据挖掘》,和宗成庆的书有异曲同工之妙,但是有些细节把思想说的蛮清楚的,现在我也在看,很推荐!
有些人可能在上视频课,首先推荐炼数成金和七月在线,我上过炼数成金的,感觉还行,是按照《统计自然语言处理》讲的,如果是想整体了解自然语言处理,课程还算不错,但是如果是文本挖掘,里面涉及到的可能会比较少,代码班没上过,之前自己上网查NLTK和sklearn就够了。
关于论文,建议还是要去看,这么说吧,书是有了较为完整的理论才能出的,一本书大概要1年甚至更多,所以知识的前沿性可想而知,最前沿的东西一定是论文,虽然论文是零散的,内容是参差不齐的,但是总有一些比较厉害的东西在里面,这就是我们需要去挖掘的。下面我推荐两篇我最近非常喜欢的两篇我相关研究领域的综述文献。
Text mining for market prediction: A systematic review:
http://umexpert.um.edu.my/file/publication/00012975_106596.pdfA survey of the applications of text mining in financial domain
http://www.sciencedirect.com/science/article/pii/S0950705116303872
结合综述,找里面的论文,就能了解文本挖掘在金融领域能做什么,怎么做,有什么结果,有什么漏洞,也是非常好的学习方式。
这个系列的内容我会用【NLP.TM】来开头,大家注意一下。
数据的一整套流程主要涉及4个方面,数据采集,数据存储,数据分析和数据处理四个板块,而自然语言处理和文本挖掘主要就是针对数据分析这块的,以文本挖掘为例,数据分析方面就分为文本表示(包括数据预处理)、特征抽取和降维、分析挖掘、结果转化与迭代、得出结论等几步,我后面就会根据这几个步骤的一些内容进行阐述。
主要形式有,论文简述和点评,重点算法讲解,算法实现等。
另外,由于我对自然语言处理的知识主要是根据问题的需求,查论文学习的,所以知识结构比较零散,最近我在深蓝学院报了班学习,有一些笔记我会结合着放出来,供大家参考。
还是按照往常的风格,我的算法讲的比较飘,公式可能不多,代码质量比较低,欢迎大家吐槽。