大数据工具 | 介绍一种傻瓜式旅游目的地形象感知分析方法
最近在操作一个某旅游城市项目策划案的政府招标case,涉及大数据分析方法,就把大学时候使用过的一款软件翻了出来,发现虽然手法已经生疏,但逻辑方法论还在,而且这篇针对“香港游艇”的未发表文章时效性显然已经不强,就当做介绍一种分析方法分享给“不在场”的读者朋友(重方法逻辑,内容性分析仅供参考)。
下为该论文节选:
随着网络信息的爆炸式增长和互联网应用的不断普及,基于网络平台的学术研究也逐渐跃入人们视野,已有大量组织机构和学者利用互联网进行网络文本的调查分析,包括旅游学领域的旅游消费意愿、旅游满意度及旅游目的地形象研究等。但目前关于目的地形象的网络文本研究多从博客、游记及论坛评论等资料入手,主要以游客的视角来探讨目的地形象,往往情感因素较多,并不十分客观。因此,有必要对旅游地进行媒体形象分析,从新闻媒体的客观报道出发,更能够准确把握地区旅游发展的脉搏。
媒体形象先于个人认知,是大众首先感受到的地区形象。而区域形象作为一笔巨大的精神财富,不单是社会公众对一个地区政治、经济、文化等要素的综合评价和总体印象,也是地区发展的重要动力。本文基于百度新闻检索平台,对主要网络媒体关于香港游艇旅游的新闻报道进行内容分析,提炼出香港游艇旅游发展基于互联网传播的媒体形象主题。具体包括:关联产业协调发展、游艇配套设施完备、奢华的消费理念、良好的亲水运动文化、私密性较高的游艇休闲体验及政府支持等。另外,通过进一步分析,发现香港游艇旅游发展的地区合作性极强,且不同类型网站对其关注程度也有所差异。研究结果将为游艇发展滞后地区的旅游开发工作提供借鉴,也为地区游艇旅游发展塑造良好的媒体形象提供政策建议。
本文的基本研究方法的是基于网络文本的内容分析,该方法最早产生于传播学领域,按照被学界广泛引用的美国传播学家伯纳德·贝雷尔森1952年提出的经典定义,内容分析法即是“一种对具有明确特性的传播内容进行的客观、系统和定量描述的研究技术。”【1】目前,该方法已被广泛应用于图情学、新闻传播学、医学、心理学及社会学研究领域,作为一种半定量研究方法,具有把媒介上的非量化信息转化为定量数据的优点,可以通过构建类目来分析信息的特征或做比较研究。
在旅游学研究中,内容分析法也是一个非常有效的文本定量处理方法,国外学者Edwards(1996)【2】、Albers & James(1988)【3】、Markwick(2001)【4】、Hunter & Suh(2007)【5】等对旅游地照片、明信片等视觉符号进行分析,Reilly(1990)【6】、Tapachai & Warysza(2000)【7】、Andsager & Drzewieeka(2002)【8】等则运用内容分析法对目的地文字符号进行了研究。国内也有部分学者利用内容分析法进行了旅游研究,如周广永(2007)等利用携程旅游论坛的评论留言对黄山景区满意度的研究、肖亮(2009)等通过两岸网站内容对比对台湾旅游形象的分析、崔毅(2011)以QQ聊天记录为资料对旅游者情感进行的分析等。【9】
(补充多说一点,沈阳老师当时还在武大任教,文sir工作后他已经到清华负责新媒体教学,官方的title是清华大学新闻与传播学院教授,博士生导师,可以说是大数据这个新兴领域内比较明星级别的一个学者。)
ROSTContent Mining System(ROSTCM6)内容挖掘软件由武汉大学信息管理学院沈阳教授(时任)设计编码,功能涵盖数据采集、文本处理、内容挖掘以及分析结果的可视化显示。其中,数据采集与整理主要限于特定类型网站,如微博客、博客圈、论坛及SNS等;文本处理可以对获得的数据进行基于字段特征、辅助词群或自行编码的批量处理,如信息提取、替换、删除、增补等;功能性分析首先需要在前述基础上对文本进行分词,随后可按需要进行协助挖掘和分析,如字频分析、中英文词频分析、聚类及分类分析、相似性分析、情感倾向分析、流量分析、语义网络分析、社会网络分析等,并针对分析结果进行可视化显示。此外,作为ROST软件包的扩展,还配套有ROST Word Parser(单词语法分析器)、ROST News Analysis Tools(新闻分析工具)和ROST WebSpider(全站下载工具)等独立的分析软件,进一步丰富了ROSTCM系列软件的内容和功能。
1、样本选择及文本内容获取
因各搜索引擎对新闻收录存在大量重叠,因此仅在国内较常用的百度新闻检索平台上,以“香港_游艇_旅游”为关键词检索,共得到相关新闻193000篇。但由于其中大量新闻属于无关内容,因此应用“Rost News Analysis Tool”的新闻数据获取功能,剔除与研究主题无关的新闻报道,针对转载情况则只保留原始出处的新闻语料,共得到558条相关新闻数据的文件包,具体包括新闻标题及摘要、网址链接和域名文件。其中,新闻标题和摘要是本文进行内容分析的主要语料库,域名文件则有助于分析不同媒体对香港游艇旅游发展关注程度的差异。
2、文本内容的预处理
因为网络新闻搜索功能并不十分完善,得到的检索结果中包含了大量噪声文本,因此首先应用ROSTCM软件对获得的原始文本进行基于辅助词群的预处理,并结合人工编码方法,删除与香港游艇旅游无关的文本行,处理后得到350篇新闻文本。
自定义一个与本研究相关的词典,用于对文本的分词操作,具体包括与游艇旅游相关的各个要素,如“码头”、“游艇会”、“游艇展”等,以及带有香港特征的专有名词,如各家游艇会所名称、景点、地名等。在此基础上,对文本进行分词,再对分词不恰当的词组进行人工归并。同时,将含义一致的词予以统一,如“游艇会所”和“游艇俱乐部”均采用“游艇会”代替、“游艇展览会”均采用“游艇展”代替,修正后的文档另存为ROSTCM软件能够识别的txt文件,用于进一步分析。
3、文本内容分析
采用ROSTWordParser软件对修正后的文档进行内容分析,在此之前还需要自定义一个过滤词词汇表,用于在词频分析时去除与研究不相关的词汇,如“的”、“是”、“在”等介词、连词、助词、语气词和不明主谓的动词等,此过程往往需要结合文本的修正反复进行,多次累加降噪直到词频分析结果中不出现无意义词,最终提取文档的高频特征词。
观察发现,排名靠前的词组中大量为城市及地区名称,这一方面说明了媒体关注多倾向于地区合作,同时香港游艇旅游发展的国际化程度较高,另一方面却对突出香港本身的游艇旅游形象产生了干扰。因此,单独为上述地名词汇建立一个文档,将其过滤后再次进行词频分析,并生成香港游艇旅游媒体形象社会关系网络图,汇总两次分析结果。
2、语义网络
备注:该文中,其后还针对媒体关注度等进行了繁复分析,此处不尽表。