查看原文
其他

文本挖掘林夕、黄伟文的43万字歌词,他们到底在唱些什么?

2017-03-29 斑斑斑比 大数据文摘

本文系投稿作品  作者 | 斑斑斑比

大数据文摘欢迎各类优质稿件

请联系tougao@bigdatadigest.cn


编者按:

近期我们陆续推送了系列“文本分析不同场景应用”的有趣文章——

美食系列《爬下20万份菜谱,数据解读舌尖上的中国 | 饕餮文本大宴》古风系列

《手把手 | 用R分析宋词三百首 自己动手写个“机器诗人”》《计算机告诉你,唐朝诗人之间的关系到底是什么样的?》音乐系列《我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么》《这四十年来的香港歌坛在唱些什么,“南中国听歌最多”的数据分析师带你一探究竟》

本文也是探究音乐方面推送的又一篇文章,作者分析了林夕和黄伟文两位香港乐坛著名词作人43万字歌词后,得出了有趣的结论。


在我十几年的听歌生涯里,熟悉的歌曲可以说有80%以上的作词,都是出自香港两大金牌词人——林夕和黄伟文之手,粉丝界也出了不少文章从二人的韵脚使用、意识形态、选材议题尤其是爱情观等角度做分析,甚至网络上还有流传"林夕引进门,皈依黄伟文"的说法。作为他们的迷妹,并且最近恰好在看一些关于文本挖掘的文章,忍不住从文本挖掘的角度对他们的歌词做了一个颇粗浅的分析。

首先我通过Python爬虫在虾米音乐上抓取了所有他们的歌词文本,对比了虾米、网易云和QQ三大音乐门户,虾米上收录的比较全,但是抓取下来的数据也不能保证囊括了两人出道来所有的作品,所以呢结果仅作参考。

对抓取结果进行去重和去空文本后,约43万字,其中夕爷跟歪闷字数比例7:1左右,从文本歌曲数来看,夕爷跟歪闷大约一个8:1的比例,看来歪闷单曲平均字数更丰富(话唠)?夕爷年均产量63首,歪闷年均产量11首。可以说夕爷绝对属于天道酬勤自带天赋的努力型选手,这应该也是夕爷在大陆知名度更高的主要原因,生产力带动了市场覆盖率,虽然歪闷没有夕爷那么高产,不过在含金量方面应该是更胜一筹的多金型选手,毕竟分母更小。

接下来是对他们两人所有的歌词文本通过Python库(主要是jieba、snownlp)作分词、词性处理和情绪分析。我把每个文本里的"你、我、他"等单字和oh yeah之类的语气词去掉后,用剩下的词语分别生成了两人肖像字符云,上图是夕爷,下图是歪闷(排名不分先后)


"没有"是两人词云里最突出的词

"没有"是两人词云里最突出的词,前段时间有篇文章分析了香港四十年来歌曲关键字的变化,说在90年代后,歌坛关键词从以前的"相思、鸳鸯、我心"切换成了"没有",词云的结果就刚好对应上了这个结论,90年代后,夕爷和歪闷包揽了香港歌坛绝大部分传唱度高的词作,而这两人使用频度最高的词就是"没有"。

夕爷的重点关键词:没有、一个、为何、怎么、什么、我们……

相聚离开都有时候,没有什么会永垂不朽——《红豆》

如果对于明天没有要求,牵牵手就像旅游——《十年》

没理由,相恋可以没有暗涌——《暗涌》

没有得你的允许我都会爱下去——《钟无艳》

一百年后没有你也没有我——《百年孤寂》


歪闷的重点关键词:没有、一个、如何、什么、可以、为何……

问我有没有,确实也没有,一直躲避的借口,非什么大仇——《最佳损友》

其实没有一种安稳快乐永远也不差——《喜帖街》

没有心别再拖,好心一早放开我——《好心分手》

没有温柔,唯独有这点英勇——《勇》

笑我这个毫无办法管束的野孩子,连幸福都不介意——《野孩子》

从词性方面看两人平常惯用的招式

下图分别是夕爷和歪闷的词性使用频度

从词性来看两人惯用的前9招几乎是一模一样的:动词>名词>副词>形容词>代词>数词>连词>人名>时间词。一直到地名、其他名动词和方位词等才开始有所差别。

为了看两人具体用词的差别,我对动词,名词等常用词接着做细分,上图夕爷,下图歪闷

两人动词排名靠前的也很接近:没有、得到、需要,知道。在没有之后,有"需要",想"得到",也有领会("知道"),区别似乎是夕爷的在没有之后是"不会""恋爱"还念着"拥抱"("靠拥抱亦难任你拥有"——《富士山下》),歪闷的是"继续""恋爱"但是"害怕""没法"子("害怕一直也再没法恋爱"——《耿耿于怀》)。

再看看名词方面,依然上图夕爷,下图歪闷

两人一起提到最多的就是"世界",还有"情人"、"眼泪"、"时间",有情两个人就是世界,没有情世界就只剩一个人。

世界将我包围,誓死都一起——《飞女正传》

一个人失眠,全世界失眠——《全世界失眠》

这个世界最坏罪名,叫太易动情,但我喜欢这罪名——《无人之境》 

世界遗弃不可怕,喜欢你有时还可怕——《垃圾》

相对夕爷念叨的"伴侣"(我爱的人不爱我),歪闷有一个比较对立的词是"无人"(有谁来爱我)

我信我有这一日,伴侣肯专注待我——《姊妹》

爱若能够永不失去,何以你今天竟想找寻伴侣——《人来人往》

有人问我,我就会讲,但是无人来——《浮夸》

要是可爱,为何无人爱我——《可人儿》

接着是形容词,上图夕爷,下图歪闷

"快乐"、"幸福"、"寂寞"占比最高,只是夕爷的寂寞似乎更多。然后除了一些快乐寂寞类的抒情形容词,歪闷还多出了一些像"顽强"、"有趣"、"无聊"不那么主流的词,当然从夕爷年产63首的勤奋劲看对"无聊"的青睐也应该要少的多。《浮夸》如歪闷当然要"着最闪的衫",要"有趣"不要"无聊"。


从时间词方面看两人更多地是偏爱什么时间状态

前两图夕爷,后两图歪闷

夕爷是"过去">"现在">"未来"

歪闷是"现在">"过去">"未来"

两人似乎都不怎么喜欢展望未来,区别是夕爷更缅怀过去:

还记得当天旅馆的门牌,还留住笑着离开的神态——《约定》

十年之前,我不认识你,你不属于我——《十年》

陪着我像最初相识我当时未怕累——《假如让我说下去》

歪闷是活在当下:

霎眼已二十七岁,时日无多,方不敢偷懒——《陀飞轮》

想不到当初我们也讨厌吃苦瓜,今天竟吃得出那睿智愈来愈记挂——《苦瓜》

今天虽然长高了,墙上继续挂的还是我六岁的画——《黄色大门》

关于最爱的季节


在春夏秋冬里,夕爷跟歪闷都是更爱春秋,自古诗人多伤春悲秋,不同的是夕爷的春秋只相差了10个百分点,而歪闷对春天属于压倒性宠爱,在四个季节里占了一半的比重。

对植物的使用上


夕爷喜欢"玫瑰"、"蔷薇"、"樱花"、"昙花"、"葡萄"、"满天星"、"百合"、"薄荷"等多是观赏性植物,重在营造意境。

歪闷除了"蔷薇"、"百合"以外更多喜欢用"葡萄"、"苦瓜"、"洋葱"、"苹果"这些食用类的来描述人生个中滋味。

地名词,看看哪些地方是两人各自的根据地

夕爷的是:"天国"、"深海"、"城市"、"香港"、"爱河"、"东京"

歪闷的是:"天国"、"满街"、"都市"、"花都"、"东京"、"冰岛"

两人最大的共同点——"天国",然后是城市和东京,不过夕爷看来更喜欢水相关的像"深海"、"爱河",歪闷相对来说还是更喜欢在"满街","花都的"陆地。        

再看看他们畅游的世界板块


从世界板块来说,两人都最喜欢亚洲,不过夕爷的亚洲比例是要远远超出其他洲的,更多的是喜欢说香港,北京,日本(突然想起了夕爷的神作《北京欢迎你》);夕爷关于日本也有不少热门曲目,像《富士山下》、《再见二丁目》、《如果东京不快乐》、《黑择明》等等

歪闷则是从亚洲冲出欧洲,从香港东京,到冰岛巴黎蒙马特,这可能是他偏爱时尚,喜欢时装展的关系。

当我看到南美洲这个地名的时候,突然想起了一首经典,就是歪闷作词,张国荣作曲和旁白,黄耀明演唱的《这么远那么近》,下面是一大段张国荣性感的独白:

我由布鲁塞尔坐火车去阿姆斯特丹, 望住窗外,飞越过几十个小镇,几千里土地,几千万个人。我怀疑,我们人生里面,唯一可以相遇的机会,已经错过了

而歪闷的世界板块也真的像这首歌写的:

我由亚洲一直飘到,南美洲


两人的情感曲线分析



我把情感分数高于0.6的歌词文本定义为整体用词是比较正面的,反之则是比较负面,先来看看夕爷的:

可以看到夕爷的大部分是过了正面及格线的,并且很多刚好是踩线及格。

歪闷的呢则是参差不齐,大起大落,有高有低,可以说正负两面一半一半吧。

平日里听歌的时候,总觉得夕爷的歌词里满是惨兮兮惹人怜的情绪,而歪闷的相对是直面疮疤手起刀落的感觉,为什么文本情绪分析出来夕爷的歌词的正面意义高达70%,而歪闷的则是正负意义不相上下呢?

我仔细想了一下,夕爷是引佛入词,虽然世事无常但是要从中解脱要包容要宽宏,虽然我爱的人不爱我但是"我们是朋友还可以问候","你掌心的痣我总记得在哪里","离开你六十年但愿能认得出你的子女"。所以正面的歌词文本是要远远超过负面,别忘了,夕爷还有《快乐崇拜》、《wuha》、《北京欢迎你》之类积极向上的歌曲(扶额)。而歪闷呢,更注重坦白内心的疮疤,虽然血迹斑斑但是要迎刃而解,我爱的人不爱我所以我"渡日月穿山水仍在恨那谁","你没有好结果,来让你一生最喜欢和珍惜那人也摧毁你一生完全没半点恻隐"但是"我为我生存""明日我必须振作","活得比你好",因此可以说表达的正负面意义是一半一半。

好了,先收工。下回再看看更深入的挖掘。

----------------------------------

其实,当我们抛开文本挖掘去探讨音乐,每个人都能从不同角度理解他们的歌词,而目可能中文分词算法做不到。

以林、黄二人的代表作来举例——

林夕的《少女的祈祷》:

“祈求天父做十分钟好人,赐我他的吻如怜悯罪人”。

黄伟文的《可惜我是水瓶座》:

“别说这种行话,哪里留得住我,到底是为什么分手你很清楚”

都是分手,都是失恋,表面都是伤感,林夕说“老天我求你了别离开我”!! 黄伟文说“别磨叽了是你自己要分手的”。一个卑微,一个理性。这些都是人可以感受到的完全不同的音乐脉搏,我们甚至可以通过他们的作品,去猜猜两位作词人是什么样的。

而以文本挖掘音乐,情感分析/中文分词的前提是“所见即所得”,把一句话拆开,然后拿到语料库比对。而音乐作品包含的丰富信息,可能不是目前简单算法可以穷尽的。

再看一首黄伟文给容祖儿的《黄色大门》

“窗纱外小鹿给我送枝花,梳化上下凡天使共我喝着茶”,“心仪男孩长驻于身边,梦要变真也没那样远”,“在我坚持的黄色门里,珍藏着自制那冠冕”

“小鹿”,“送花”,“天使”,“心仪男孩”,“梦想”,“身边”

字面上看的话,程序应该分析不出来《咬唇》是一首经常用在婚礼上的歌,而每次现场唱《黄色大门》的容祖儿都会哭到花了妆,有人说她可能在想何韵诗,我觉得她也有可能在想刘浩龙。不管怎样,这绝对不是一首童话歌,更不是一首轻松欢快的歌。

那么用更复杂的算法有没有可能会好一点?这点目前并不好说,我们只能边走边看啦。【主编说】本期 | 凉亮)



关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

往期精彩文章


点击图片阅读文章

这四十年来的香港歌坛在唱些什么,“南中国听歌最多”的数据分析师带你一探究竟

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存