你最关心的马蜂窝事件舆论全景图在这里,用文本挖掘一挖到底
原创作者:谭婧,苏格兰折耳喵
企业作为社会基本的细胞,在守法盈利的同时,担负着服务消费者、社区、社会等利益相关方的重要责任。互联网企业是互联网时代的宠儿,举手投足备受关注。所谓成也萧何,败也萧何。大众的高度关注成就了品牌知名度,但是,这种关注度也变成了无形的压力,增加了互联网企业和利益相关方沟通的难度。中国互联网企业的创始团队往往见长于技术,在如何主动与公众沟通方面还有很长的路要走。常在“爆料式”传播事件中占不了辩论的上风,被动得很。于是乎,一有危机事件发生,互联网就成了信息传播速度最快,但信息也最为混沌的地方,事实与谣言边界模糊。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
这不是一个国产的问题,前不久Facebook也因面临挑战,在软件中推出反辱骂等限制不良评论的功能。早在1947年,美国学者奥尔波特(Gordon W.Allport)和波斯特曼(Leo Postman)就提出谣言的传播公式:谣言的流通量=事件的重要性×事件的模糊性(Rumor=Importance×Ambiguous)。该公式自提出后一直被学界奉为圭臬。纵观中国互联网企业危机事件的大事记,涉事企业往往保持沉默,置之不理或者回应回避要害,导致事件的模糊性不断放大,而法律诉讼又具有一定的滞后性。几件要素共同作用,形成了网络谣言与真相起此彼伏的奇景,群众看不到事情的真相,涉事企业或委屈满腹,或诚惶诚恐,或羞于提及。虽然互联网拉近了人与人距离,使得信息处理无比高效,不断激发出新的传播方式,可是每一次热点事件爆发,人们距离真相依然非常遥远。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
本文采取文本分析与数据挖掘的数据科学方法对本次「马蜂窝涉嫌数据造假」事件的舆情进行分析,挖掘本次传播现象,主要侧重于分析全网媒体对该事件的参与。以最直观的方式做出呈现与描述,不做结论性判断,意欲抛砖引玉,鼓励与企业利益最紧密相关的利益相关方从各自视角,积极发声、站出来为公众解读事实。
(一)分析篇
一、我们用什么工具一挖到底?
原始数据:我们分析了全网2000条以上的新闻数据,数据来自新浪、网易、搜狐等门户网站,以及虎嗅、36氪等科技资讯网站,以上新闻文本数据经过标题去重,也就是说,媒体平台之间相互转发的文章,我们已经将重复标题的新闻文本数据去除。
时间段:10月21日、22日、23日。
工具:编程语言Python,Scrapy爬虫抓取框架,Genism文本分析库,Wordart绘制个性化词云
二、热度指数,大家究竟有多关注?
图一:热度指数趋势与爆发时间段。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
因为考虑到事件检索的相关性,所以我们设定热度指数的关键词检索方案为「马蜂窝+数据造假」。我们观察热力指数图,本事件首日,也就是2018年10月21日的热度指数仅约为13.00,但是在第二日(10月22日),峰值冲到61.56,随后正常回落。
第三日(10月23日)事件热度指数回落后,再次冲向41.00。这样的变化,符合关注此事件人们的直观感受,舆论的潮水一浪未平又起一浪,一浪更比一浪强。爆料团队在23日的再一次发声,将本来已经平息的事件再次推向高潮。此处,我们横向对比日常新闻事件的热度指数。虽然娱乐人物流量属性较强,但是“王源调侃失败自拍尝试” 热度指数为43.55。社会公众对此次事件的关注度不言自明。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
图二:活跃媒体对此事的跟进与报道,如图所示,新闻报道来自新浪、网易、搜狐等门户网站,来自微信公众号、百度百家号和今日头条的信息平台。排名前五的媒体都贡献了10%以上份额,可见媒体均对此事充分重视,并无哪家媒体的声量一家独秀,其中信息量贡献最大的依然是微信平台。这也符合关注此事件人们的直观感受,爆料团队在微信公众号平台首发消息,各家媒体紧随其后进行报道与解读,显示了媒体对此事反应非常迅速。也符合文章开头所提到的社会现象,互联网企业吸引眼球、备受关注。既因为存在互联网群众对信息获取的刚需,也因为媒体对互联网敏锐的嗅觉。如此供需匹配,形成信息供需的有效闭环,良莠不齐的资讯都会被这轮信息流吸收和放大。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
三、关键词词云图,大家都在讨论啥?
词云图是文本数据可视化的常用工具,我们选取排名前五十的关键词来绘制关键词云图。可以看到,排名前十的词语分别是:
1. 马蜂窝
2. 点评数据
3. 点评
4. 内容
5. 抄袭
6. UGC(中文为,用户创造内容)
7. 交易
8. 虚假账号
9. 平台
10. 数据造假
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
舆论关注点一:内容
马蜂窝以游记和攻略起家的公司,与用户有着较深的情感连接,在消费者的品牌意识里,马蜂窝不仅仅是一款旅游产品/平台,它提供给人们的是对于自由生活的向往,是一种不被束缚、逃离俗世的情感归属感,一种正面的价值观。而这种价值观让品牌个性年轻有趣,让人向往,具有很强的品牌领导力,这也是马蜂窝虽然处在在线旅游市场的第二梯队,营业收入(GMV)远远低于第一梯队携程等企业的情况下,其品牌知名度、口碑不亚于第一梯队。正如马蜂窝所主张的:向崇尚自由的加勒比海盗致敬。
根据其性质,马蜂窝的核心竞争是源于其社区里活跃着一批不断生产内容,并对社区品牌有认同的用户,产生大量优质的原创旅游攻略等内容。而我们从分析中可以看出,在与马蜂窝相关的全部信息中,被提及频次最高的词语分别为「点评」、「内容」和「抄袭」。从广义上讲,抄袭是原创的反义词。「内容」一词反复出现,是关键词中的关键词,可见舆论重视程度之高,与其类似的「评论」、「问答」、「游记」、「攻略」均排在前五十,可见舆论对马蜂窝涉嫌作假的细节有所了解,清楚知道哪一块出现了问题。按照马蜂窝的所属行业,有关旅游产品的词汇包括机票、酒店、自助游、自由行、目的地旅游等,这类词没有一个出现在前五十的关键词中,可见舆论聚焦度高,讨论的火力都集中在举报团队质疑的核心问题上,事件的焦点充分聚焦,没有出现指东骂西,东拉西扯的谣言。
关于内容的词汇,以「假」字居多,「抄袭」、「造假」、「虚假」成为核心关键词,可见马蜂窝的品牌形象有所跌落,品牌美誉度受损。
另外,「马蜂窝」一词,在此次事件语境下,一语双关。既是公司名称,又意喻招惹麻烦,惹祸上身。词云图中字体大小与重要度相关。「马蜂窝」一词字体最大最突出。我们可以直观感受到,确实也有不少媒体拿捅了「马蜂窝」用作新闻标题。
在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:
1. 近日,某自媒体账号发布文章称,马蜂窝旅游网部分点评及评论信息存在虚假内容,并以此质疑马蜂窝旅游网的数据及用户真实性。
2. 标题:马蜂窝:餐饮点评非内容核心 自媒体报道有明显误导
舆论关注点二:投资方
第二个舆论关注的焦点是关于马蜂窝的投资方。「投资人」、「资本」、「估值」、「融资」均排话题中的主题词在前五十。马蜂窝被业内人士称为旅游界的大众点评。第一、由于马蜂窝的业务涉及旅行的所有环节,具有覆盖旅游前、旅游中、旅游后全旅游周期的用户行为数据。第二、原创是互联网内容最有价值的部分,马蜂窝内容产出中心自然而然成为马蜂窝最大的流量入口。简单的说,拥有了数据与流量,马蜂窝可以在这个链路的任何一个结点上变现。从某种角度,讲和其他的互联网公司一样,马蜂窝是一家数据公司。有说得通的商业逻辑,又有一定的营业收入,使得马蜂窝在融资的路上顺风顺水。
截图来源于B站
这次事件与上市企业的危机有本质的不同,原因在于公司的性质。马蜂窝属于融资轮次企业,并没有公开向公众发售股票来融资。一旦这个类型的公司出现负面问题,最受伤害的是投资方。由于马蜂窝估值较高,达175亿,所以「估值」、「融资」成为重点。不仅「估值」一词受关注,关于融资情况的一整句话——2017年12月12日,成立11年的老牌旅游网站马蜂窝宣布获得D轮巨额融资,淡马锡、今日资本等合计投资1.33亿美元。入选「马蜂窝+数据造假」话题中的代表性语句。事实上马蜂窝确实受到鸥翎投资、美国泛大西洋资本集团、高瓴资本、Coatue、CoBuilder、启明创投、Rich Barton、今日资本等机构的青睐。
那么,投资人和马蜂窝的底气在哪里?
据了解,2017年中国出游人次达51.3亿,整体收入为5.4万亿,年度增幅为15.1%。近年来,旅游市场保持着稳定增长,国内排名靠前的在线旅游平台都活得风生水起,份额稳定。马蜂窝的底气来源于三点:
第一、如今的马蜂窝已经不仅仅是一家靠出售流量和广告进行导流和转化的平台,慢慢地向一端连接海量用户,一端对接合作商户的平台转变。商业变现的可行性会增强。
第二、旅游消费习惯发生了变化,“专家型”消费者的比例大幅提升。业内人士表示,这一变化也推动着像中青旅这样的老牌企业转型。例如,中青旅的签证业务增长较快,观察用户数据发现,一个中青旅的老用户,一个自然年度在中青旅办七次签证,也不会报名一次跟团游。这种市场的转型,对于马蜂窝是有利的,有旅行需求的专业型消费者越多,对专业的、细致的旅游信息需求越旺盛,这是马蜂窝的优势。
第三、旅游产品具有长决策周期的属性,且消费者对旅游目的地的选择容易受到信息的影响,进而影响决策。如果有刚需存在,受到签证办不下来、航班、线路等负面问题的影响,消费者有较大可能更改旅游目的地。马蜂窝所产出的信息对消费者决策影响力比一般电商所售卖商品的用后评价更有说服力和影响力,提高内容的精准度,就能够带动用户粘性和销售转化率提高。
「投资人」、「资本」、「估值」、「融资」等关键词的本质是有大家都在关心马蜂窝的商业模式和核心盈利能力。这些也是投资人与机构能够为其做出175亿估值,并且买单的原因。这块是本次话题讨论的第二大焦点。相关报道中,存在不少报道直接以175亿作为新闻标题。
在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:
1. 如果大量造假情况真实存在,马蜂窝的融资计划还能顺利进行吗?
2. 标题:马蜂窝被曝大规模抄袭用户点评 新一轮融资前陷危机
3. 标题:马蜂窝被爆“点评造假”,或将像熊猫直播一样融资落空?
4. 标题:被捅的马蜂窝:融资暗战和五毛党江湖
我们认为,可以做出合理推论:投资机构的投资行为成为困扰舆论的最大问题。
舆论关注点三: 围绕话题风暴的中心「马蜂窝+数据造假」,网民还讨论了什么?
当网民在讨论「马蜂窝+数据造假」这个问题时,还讨论了哪些问题?我们需要挑选出之前报道中出现频率较高的词汇,进行文本相似度计算。技术原理是用Python工具包Gensim跑多种主题算法。
我们选取了“马蜂窝+数据造假”作为检索条件,按照「马蜂窝」「数据造假」的关联词的相关程度,从高到低排序。「承认」「指控」「维护」「攻击行为」「发酵」「歪曲事实」排在前面。分析中可以看出:
第一、大家都在讨论与事实相关的信息。
与事实相关的包括,基于事实的「声明」、「歪曲事实」、对事实的「质疑」、对事实的「否认」,讨论的话题都没有离开事实。换句话说,人民群众高度重视事实,想要了解真相,这是一场围绕寻找事实真相的大讨论。总体看来,追求事实的真相是本次热议的关键。
第二、辩论双方和其举动。
「声明」「承认」与「指控」是爆料团队与被爆料企业在事件中你来我往的举动,也就是说,双方的一举一动都牵动着互联网人民群众的心。「起家」一词也被多次讨论,涉事一共有两方,「起家」显然是关于马蜂窝的企业成长历史,可见关于涉事企业本身的讨论也是热点议题,网民关心涉事企业是一家什么样的企业,拥有哪些服务,有着怎样的历史。「攻击行为」则是属于对于爆料团队的推测。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
第三、与话题相关度上来看,「抄袭」「水军」「账号」关系最为密切,其次,「数据造假」与「搬运」等词的关系很近。「水军」也与话题关系很近。依据常识,水军和僵尸是内容作假的主力。此次事件也将互联网的造假术推上风口浪尖。
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:
1. 评马蜂窝扒友商用户评论:互联网企业不能没底线。
2. 南都记者梳理网上公开资料发现,在同类型的旅游APP中,马蜂窝旅游并非首家被质疑涉嫌数据造假,同程等旅行网站也出现过类似情况。
3. 标题:旅游数据造假?马蜂窝旅游被指涉嫌造假1800万数据
4. 马蜂窝“点评造假”?
数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日
(二)拷问篇
目前该事件已有司法部门介入,尚无定论。在本文中,我们谨慎用词,仅用“涉嫌”一词对本事件的主角进行描述。可以这样说,「马蜂窝捅了马蜂窝」事件,在大数据与人工智能如此火热的气候环境里,用大数据技术给大众上了一堂生动的科普课。
但是,关于此次事件,尚存许多问题值得拷问:
如果涉嫌一事坐实,这会不会成为互联网投资史上最响亮的耳光?
如果涉嫌一事坐实,为什么能用假数据圈了将近175亿人民币?
如果涉嫌一事坐实,著名资本看好,甚至不止一次看好的公司为什么会出问题?优秀的VC都是眼瞎吗?还是心系击鼓传花,无意刺破那窗户纸?
如果涉嫌一事坐实,高估值的互联网公司是距离公开发行的股票的资本市场最近的企业,VC投资人上市套现,下一步股民买单,风险投资人的社会责任感在哪里?
如果涉嫌一事坐实,多方信息显示不止马蜂窝一家造假,那么互联网的造假手段到底有没有人管?
如果涉嫌一事为假,爬虫软件涉及法律的灰色地带该如何从法律的角度解读?有关部门和有关专家是否能抓住这次普法的大好时机,有针对性解答社会热点问题。
如果你要爆料,欢迎后台留言~~
完
1.微信群:
添加小编微信:tangguoyemeng,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
2.征稿:
投稿邮箱:lijy@csdn.net;微信号:tangguoyemeng。请备注投稿+姓名+公司职位。
推荐阅读
扫描以下二维码即可参与“2018 年 CSDN 软件开发者大调查活动”!我们还为你准备了精美的礼品,华为 nova3 智能手机、小爱智能音箱、CSDN 背包、CSDN 定制T恤、数百本技术图书等你来拿!参与即有机会获赠,还等什么,快来试试吧!
↓↓↓ 点击【阅读原文】查看「CSDN云计算」往期精彩内容