查看原文
其他

语言趣谈|分析了42万字歌词,就为了搞清楚民谣歌手们在唱些什么

2017-02-09 超级王登科 上海语言学通讯




民谣歌手赵雷参加了《歌手》并挑战成功,无数的媒体和自媒体如同打了鸡血般不厌其烦地写着赵雷,并把民谣又生拉硬扯到公众讨论区。但为了搞清楚民谣这件事,能用科学的方法进行量化的,少之又少。本文可以说是一个特例了,可以回顾类似一篇公众号文章 学术观点| 拿“双十一”开涮的文本挖掘:电商评论情感分析


作者王登科选取了大约30个覆盖从程序员,朋克,基佬到女权主义者,中国大妈,穆斯林的能够覆盖所有人群的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队


首先写了一个爬虫,自动抓取这个歌手的所有歌,为了保证平衡,最多只抓取前50首歌,大多数歌手被人熟知的歌并不会超过50。


得到了小一百个装满歌词的文件

接下来,对这些歌词(约42万字)的分析。

首先情绪分析


数值分布平均,有三个分类:一类是特别开心的,例如郝云

为什么丢火车的情绪也这么高,后来听了几遍他们的歌,发现他们虽然唱腔惨兮兮的,但是歌词还是充满正能量的,丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。


第二类则是比较忧伤的,以我们熟悉的逼哥为代表,他们的歌词中充斥着孤独,沉默,泪水等词语。



第三类则以赵雷为代表,比较平静,就像给你讲故事,不疾不徐,娓娓道来,总体情绪趋于中值。这也许解释了为什么赵雷这么晚才火起来。无论如何,好的音乐总会被人们发掘。

王登科又分析了一下其他风格的音乐的情绪:


民谣的情绪很丰富,而摇滚的情绪则大多是负面的

民谣歌手最喜欢什么季节?


春天81次,冬天74次,夏天和秋天70和47次:最受欢迎的是春天和冬天,最不受欢迎的是秋天。歌手们最喜欢的城市,结果如下:


可以看得出,北方城市完全战胜了南方城市,特别是北京,一共出现了81次。说到一线城市,人们会说北上广深,但是在民谣的世界里,北京绝对是不可撼动的存在。难以理解的是,虽然北方城市大获全胜,但是歌手们却更多的念叨着「南方」,「南方」比「北方」多出现了大约5.7%。


认知语言学的朋友可能会关心,民谣歌手们是在向前看还是向后看,是往未来寄托希望,还是缅怀过去?


看得出,民谣歌手是在往前看的,至少是活在当下的,「明天」出现的次数最多,接着是「今天」和「昨天」。比如「我拿青春赌明天」,听上去很美,如果说「我拿青春赌后天」乃至「我拿青春赌下个月5号」,这听上去就像发疯。

在王登科的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。


本文转载:一切功劳和掌声属于登科(超级王登科)

上海语言学通讯

无独有偶:“宁波老虎咬人事件”与“台北醉汉狮口脱险”不一样的结局与评论(英语新闻视频)

2语言趣谈| 厉害了word哥!最新2016网络热词盘点!已笑哭(欢迎投票和留言)

3语言趣谈| 水浒传中的女性形象及翻译中的改写(另附推荐书目)

4语言趣谈| 唐诗三句半,笑的你喷饭

语言趣谈| 社会语言学视角看待文学作品中的语言倭化(另附视频和推荐书目)

语言趣谈|为什么群发祝福的人有“共情”缺陷?

7语言趣谈| 我可以骚,你不可以扰 ——Journal of Pragmatics上刊登的SlutWalk语用研究(投票)

语言趣谈| 要了亲命的advanced sex

语言趣谈| BBC总结2016年中国网络流行语

10 学术观点| 拿“双十一”开涮的文本挖掘:电商评论情感分析

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存