专著推荐 | 《文本挖掘概论:研究设计、数据收集与分析》
文本挖掘概论:研究设计、数据收集与分析
在大数据时代,海量的文本数据已经成为发现新知识、新观点、新规则的金矿。从表情包、缩略流行语、隐喻和各种人际对话形式,到关系国计民生的政策文件、紧跟时事热点的新闻报道,形形色色的文本之下是社会生活中的普遍现象和重要规律,对于想研究社会热点、发现新的社会现象的研究者来说,学习文本挖掘的必要性已经越来越凸显。
但是,对新手而言,特别是非计算机专业的学人,文本挖掘就好像一个完全陌生的异世界,贸贸然闯入,很可能只会晕头转向。要想进入这个世界并挖到宝藏,你最好是手握一份好地图,不然很容易迷失自己的研究初心。
美国的加布和拉达两位学者,根据自己多年的教学和科研经验写作的实用指南,对文本挖掘的基本概念、各型方法和实操技术介绍全面,在内容安排上由浅入深、循序渐进,提供的范例覆盖多个知识领域,正好能够为非计算机专业的新手们提供一份文本挖掘世界的地图,让他们高效、便捷地定位自己的研究起点。
相较于单一且详尽的方法教程,本书的目的更多是在于指导学生运用社会世界的文本数据来设计一项可行的社会科学研究。本书将文本挖掘研究看作一个建房子的过程:夯实地基——设计图纸——选择方法——确定工具。
扫码购买本书
本书的第一部分“基础入门”介绍了文本挖掘和文本分析的方法论、数据在文本挖掘研究中的重要性,以及基于文本的人文社会科学研究设计面临的伦理和哲学问题。毕竟,若一个研究项目的逻辑或伦理站不住脚,研究的“大厦”也终将崩塌。
本书的第二部分“研究设计和基础工具”则为搭建房子的框架提供指导。就像建筑工程施工前需要严密筹划,从研究的初始阶段开始,就必须仔细思考如何进行研究设计。然而,针对研究问题来设计研究项目面临很多挑战,因此有必要借鉴优秀学者采用文本挖掘方法构建的研究设计的思路。
本书的第三至第五部分则概述了基于文本的各种研究方法,“文本挖掘基础”“人文社会科学与文本分析”“计算机科学与文本挖掘”,辅之以附录的一系列数据资源和实用软件,研究者能在夯实地基、设计图纸和选择方法的同时,在预算范围内选定工具,确保研究的成功开展。
但归根结底,文本挖掘研究的每一个步骤都离不开写作。本书的第六部分,“写作和展示”,就回顾了学术写作的基本原则,讨论了社会科学写作的具体方法,以帮助读者撰写和汇报自己的研究成果。
此外,本书还特别强调了文本挖掘的实践性。通过丰富的案例,作者从多学科的角度介绍了如何利用不同的原理和技术对文本数据进行处理和分析,方便来自不同领域的文本挖掘研究者理解和学习。章节末尾都设计了“本章要点”“简答题”“讨论题”“研究计划”“拓展阅读”等栏目,有的章节还对涉及的资源和软件工具进行了详细介绍。读者可以通过实际操作来巩固所学知识,并且在实践中不断提升自己的文本挖掘能力。
文本贯穿于社会生活的方方面面,形形色色的文本已经成为了解社会生活的重要信息媒介。而基于算法的文本挖掘技术,则能让我们从这些非结构化的文本中发掘到有价值的隐含信息,探究特定社会议题的答案。相信无论是初学者还是有经验的专业人士,都可以从这本《文本挖掘概论:研究设计、数据收集与分析》中获得重要的知识和实践经验,提升文本挖掘的研究能力和水平。
扫码购买 《文本挖掘概论》
扫码学习文科生的Python编程课
扫码学习语料库入门十讲