查看原文
其他

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

AlfredWu 程序人生 2019-04-27


“你看这个面它又长又宽,就像这个碗它又大又圆”。一直被网友们调侃的freestyle梗,没想到真的被吴亦凡写成了自黑的歌——《大碗宽面》。

此微博发布的不到一天的时间里,转发数量超过36万。本文作者用Python爬取其中的10万条数据,告诉你大家是怎么看待《大碗宽面》这首歌的呢?这些惊人的转发数据里,是否有假流量呢?

作者 | AlfredWu

责编 | 伍杏玲

封图 | CSDN付费下载自东方IC

由于时间点也挺凑巧,刚好赶在蔡徐坤发律师函给哔哩哔哩之后,不禁让大家对他们进行一番对比。同为我们印象中的流量明星,吴亦凡跟蔡徐坤之间有什么不一样吗?大伙儿是怎么看待他们的?又是怎么看待《大碗宽面》这首歌的呢?

我们通过微博移动端随机抓取了吴亦凡发布新歌《大碗宽面》的微博转发数据10万条(时间节点2019年4月20日01时)。该微博于2019年4月19日10时发布,到4月20日01时已被转发超过36万。


吴亦凡该微博的转发是否存在假流量?


当然,关注我的朋友们估计最关心的问题是,吴亦凡的微博转发是否像蔡徐坤一样,有很多都是假流量?

我们先从粉丝性别比例入手。我们统计了102118条转发数据中,有77279条是女性转发的,占75.7%,其余24839条是男性转发的,占24.3%。这是一个比较合理的比例。

我们随机抽取了男性的转发,发现这里的男粉丝几乎都是有简介、微博粉丝数、关注数都大于50的真粉丝。

咦,不是说吴亦凡是流量明星吗?难道很多假流量都存在于女性的转发里?我们又随机抽取了女性转发的数据,发现,这里面的女性粉丝几乎也都是有简介、微博粉丝数、关注数都大于50的真粉丝。

我们就更奇怪了:吴亦凡的假流量哪儿去了?

我们按照跟蔡徐坤一样的标准,把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据(注意,这里的条件都是“且”的关系,而不是“或”,也就是需要满足所有条件才会被判定是假粉丝),以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。看看吴亦凡的真假流量各是多少。

可见,吴亦凡的《大碗宽面》微博102118条转发中,只有6100条是疑似假粉丝转发的,占6%,有94%都是真粉丝转发的。这跟蔡徐坤的转发数据截然相反。

96018条真粉丝转发的数据中,除去重复转发刷榜的数量,里面还有81872个真粉丝。也就是说,真实转发的粉丝数量,占总转发量的80.2%。这比蔡徐坤3.84%的真实转发粉丝数量高出了一大截。也说明至少在这首歌上,吴亦凡的假流量占比是很少的。这首歌能火起来,靠的是大家对这首歌的接受度。


大家对于《大碗宽面》怎么看?


既然这样,那大家是以一种什么样的态度看待这首歌的呢?我们利用SnowNLP这个中文文本挖掘库对转发中所带的每一条评论进行情感倾向分析并打分(分值为0-1,越接近0情感越负面,越接近1情感越正面,0.5为中立)。

所有转发所带的评论,对《大碗宽面》的平均情感倾向评分是0.686。也就是大家整体对于这首歌的评论都是偏正面的,这跟这首歌的豆瓣评分6.5分(10分制)也相差不远。

随机抽取出情感倾向高的评论,大家都认为吴亦凡可以自嘲自黑很酷、很接底气、很可爱,认为吴亦凡可以通过这种方式来破网友对自己的吐槽梗,心胸很开阔。跟律师函警告相比之下,不知道高出了多少。


有多少人拿吴亦凡与蔡徐坤作对比?


由于这首歌发布的时间比较凑巧,刚好在蔡徐坤发律师函给哔哩哔哩并引起网友一阵吐槽之后,所以大家难免会把吴亦凡和蔡徐坤放在一起比较。那么,拿他们两个一起比较的人多吗?

我们把评论中带有跟蔡徐坤有关字眼(比如包含“kun”、“坤”、“律师函”等)的评论都抽了出来,发现足足有6229条,也就是大概15条评论中,就有一条把他们两个放在一起比较的。

抽取其中点赞数最高的10条,看看大家都怎么进行比较的。

大伙儿都对吴亦凡的公关团队表示佩服,可以把槽点转变为亮点,有很多人佩服吴亦凡的气度和格局,还有很多人认为这和律师函相比,高下立判。


有多少人开始路转粉了?


既然这首歌风评那么好,是不是很多人开始路转粉了呢?我们把带有“转粉”、“圈粉”等字眼的评论抽取了出来,发现这里面有足足3646条评论是关于转粉的。

而这3646条评论中,有2441条是女性的评论,还有1205条是男性的评论,占1/3!按照比例保守估计,目前37万的转发中,吴亦凡已成功圈粉13000人!并且使很多原来不喜欢他的黑粉,开始转变为路人。

评论的词云图


按照惯例,我们把转发中所带的评论制作成了词云图。

可以看到:

1. 正如微博配词所说“大碗宽面能让你开心,这确是我本意”,大家对于这首自嘲歌的最大反应是“哈哈哈”;

2. 大家觉得这首歌很好听、有趣、有意思,觉得吴亦凡很可爱;

3. 有人第一次对吴亦凡说了“对不起”,对吴亦凡开始有Respect,开始路转粉;

4. 还有人拿蔡徐坤出来比较,拿律师函出来调侃。

看来,在娱乐圈里生存,开阔的心胸和善于自嘲的态度是很必要的。眼看着吴亦凡被万千吐槽,今天还能收获掌声一片,从一开始的流量明星转变为一个具有真流量的谐星。

所以说,千万别虚荣心作祟,娱乐圈嘛,快乐才是真谛,何必针锋相对。有时候不缺硬刚的勇气,缺的是娱乐的智慧。人生如戏开个玩笑,听完歌就洗洗睡。

作者简介:Alfred,毕业于暨南大学,数据挖掘算法工程师,主要研究领域为数据挖掘、机器学习。

源码:

https://github.com/Alfred1984/interesting-python/tree/master/KrisWu

作为码一代,想教码二代却无从下手:

听说少儿编程很火,可它有哪些好处呢?

孩子多大开始学习比较好呢?又该如何学习呢?

最新的编程教育政策又有哪些呢?

下面给大家介绍CSDN新成员:极客宝宝(ID:geek_baby)

戳他了解更多↓↓↓

 热 文 推 荐 

微软 GitHub 超百名工程师联名:我们挺 996.ICU!绝不删库跑路!

小程序的侵权“生死局”

谁才是世界上最好的编程语言?| 每日趣闻

码二代的出路是什么?

@996 程序员,ICU 你真的去不起!

Elastic Jeff Yoshimura:开源正在开启新一轮的创新 | 人物志

机器学习萌新必备的三种优化算法 | 选型指南

19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?

她说:为啥程序员都特想要机械键盘?这答案我服!

System.out.println("点个在看吧!");
console.log("点个在看吧!");
print("点个在看吧!");
printf("点个在看吧!\n");
cout << "点个在看吧!" << endl;
Console.WriteLine("点个在看吧!");
Response.Write("点个在看吧!");
alert("点个在看吧!")
echo "点个在看吧!"

你点的每个“在看”,我都认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存