查看原文
其他

【NLP.TM】NLP和TM的深度概述

叉烧ZBayes CS的陋室 2022-08-08

【NLP.TM】

本栏目是结合我最近上的课,和我最近的研究方向,自然语言处理和文本挖掘而设计的,会讲一些和自然语言处理以及文本挖掘相关的内容,欢迎大家关注和交流!


往期回顾:

【NLP.TM】听说想看我写NLP?

python爬虫基础

python爬虫帮你百度“相关”的内容


今天刚上完自然语言处理课程的第一天,我简单的把自己的笔记整理了一下,记录一下今天的主要内容,但是当然的,考虑课程的版权,考虑自己的理解,下面的内容不一定和今天的课完全匹配。

在此之前说自己的一个观点,自然语言处理是很大的一个领域,涉及机器翻译、情感分析、问答机器人、语音识别等,具体要做什么,研究什么,要结合自己的实际问题来进行选择,虽然这几个问题有一些共同的内容,但是仍有非常明显的不同,不建议全都看(看到没看到没看到没,这里加粗了)。

NLP背景1

自然语言是指人类日常使用的语言,众所周知,语言是人类交流和沟通的重要桥梁,几乎所有信息都是通过语言来传递的,据统计人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。在目前,信息爆炸的时代,无论是信息检索,信息查询,信息反馈等,都有强烈的需求,在大数据的兴起、计算设备的升级等方面的推进下,自然语言处理成为一门流行的学科。

NLP主要子领域2

NLP涉及的子领域众多,包含但不限于下面几个方面:
1. 机器翻译:据统计世界上有5000多种语言,而其中联合国的工作语言包括汉语、英语、法语、俄语、阿拉伯语与西班牙语,即在联合国内沟通这几种是最规范的,其他语言均需要翻译成这几种,而日常,不同语言的人之间交流也需要翻译,可见机器翻译的需求量并不小;当然的,除了自然语言的翻译,还有机器语言的翻译,补充一下,不细说了。
2. 自动问答:最常见的例子就是问答机器人,这个在商业中非常常见,例如机器人客服等,日常生活中,微软小娜、Siri等,都属于问答机器人,和用户产生自动化交互。
3. 信息处理:比较底层的信息处理,信息检索(例如百度搜索,Google搜索),信息过滤(如过滤垃圾信息,垃圾有加过滤,不文明用语过滤),信息抽取(识别关键信息或者关键词)等。
4. 文本分类:针对一定的信息对文本进行分类,如图书馆管理、情报管理、信息监控、情感分类等、用户评价等。
5. 自动摘要:从原文中提取关键信息形成摘要文档或者关键词提要。
当然还包括语音识别、语义消歧等,所以可想而知有多热闹。

词典和语料库3

巧妇难为无米之炊,要进行分析和计算,必须要数据,自然语言处理当然就是要各方面的文本数据了。

词典是指针对单词、短语或者词语的库,这些库里面可能包含各种比较复杂的属性,如词性、关联词、近义词同义词等,目前比较常见的是HowNet、WordNet、新华社词语数据库、北大汉语语法信息词典(哈工大SCIR实验室好像也有,但是具体怎么找不记得了,有记得的帮忙提醒一下~)。

语料库,这个则比较多样,有一些比较官方的语料库,而在论文里面,很多人会根据自己的实际问题建立语料库进行实验(额,因此有些文献的结果可能难以重现),先说比较官方的,Brown语料库,Longman语料库,ACL语料库,宾州大学树库等,而自己的语料库怎么建立呢?简单点,买或者下载,搜狗有比较完善的微博、新闻等类型的语料库,要是都没有,只能用网络爬虫了,简单的网络爬虫可以用python来实现,我的公众号里面也有提到一些,但是网站的信息怎么可能给你顺利爬走?所以会有很多反扒措施,你需要更加高级的方法才能爬取相关的内容(所以爬虫是一个无底洞啊)。

最后再说说文本挖掘4

文本挖掘可以说是一个非常接地气的分支,主要是对文本中的信息进行挖掘,也算是数据挖掘的分支。挖掘,当然是不定向的,挖到有价值的东西,就有意义。例如我做的观点分析,股票与社交网络的关系,事件提取等等。但是换句话,文本挖掘在整个项目里面是一个中间的部件,处理文本,分析文本,是为核心业务和需求服务的,分析得到信息,将这些信息运用到其他方面中,如商品定位,用户画像,股票预测,问答机器人等,都是可以的。

今天的课没什么干货,所以我就先不上什么干货,我先结合着这个课来,这个栏目绝对是长期的(具体什么叫做长我说了算哈哈哈哈哈),课完了我再补充,敬请期待。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存