查看原文
其他

把畅销书扒光了看(一)

数据冰山 数据冰山 2022-04-11

数据冰山经常用图表展示什么车好卖,什么饭好吃。当然,并没有把A6和LS剁碎了对比钢材、铝材、玻璃和橡胶的比例,也没有把黄焖鸡和沙县小吃熬成糊化验一下化学成分。

可是,斯坦福出来的一男一女用了5年的时间把最近30年的5000本书扒光了揉碎了让机器帮忙看,就为了暴露小说畅销的秘诀。他俩把发现总结成2016年出版的《畅销书密码》。


这本书要回答这个问题:畅销书到底有没有套路?

答案是:有。那么:

  • 谁敢说有?

  • 有什么套路?

  • 套路怎么识破的?


一、谁敢说有?

写书的两位是来自斯坦福和苹果的自然语言处理专家。


男的叫Matthew Jockers,内布拉斯加大学林肯分校英语系副教授,蒙大拿人,跑马能进4,跑超马能完成,在科罗拉多州攀过岩,在湾区打过英式橄榄球。此人2009年在斯坦福教书时和同事共同创建了斯坦福文学实验室,致力于将计算机评价用于文学研究。他的学术专著包括《宏观分析:数字方法和文学史》和《R法文本分析》。他还在苹果公司的iBooks做过科研。



女的叫Jodie Archer,英格兰八零后,剑桥英语系本硕,斯坦福英语系博士,曾做过企鹅出版社编辑,苹果公司iBooks的科研和主管。2016年在图书经纪人的鼓励下把她跟Matt做的博士论文成果写成了《畅销书密码》。她当时的博士论文是:《解读畅销书:2万部小说的分析》。

这两位写这本书出了名,现在合伙搞一个咨询公司叫Archer Jockers, 专门帮助积极上进的作家诊断改进作品,力争畅销。他们对于单本小说、系列小说、和小有成就作家的咨询服务分别收费$349,$829和$2799。毕竟是苹果出来的人,三级定价刚好能买iPhone SE,iPad Pro,和MacBook Pro。

能在毕业3年之内把论文变现,这个事迹值得在读博士生们参考。

之所以他俩敢说畅销书有套路,是因为他们的机器经过训练能猜出一本书是否畅销,准确率能达到80%。所以说机器经过训练总结出来的那些文本特征是套路,即畅销书密码。


二、有哪些套路?

在人的指导下,机器从主题、情节、文风和人物四个角度博览群书,发现畅销书跟非畅销书相比有一些显著的差异。这里主要分享一下主题和情节。

首先,主题要有重点、有冲突、接地气。

跟非畅销书琳琅满目纷繁复杂的主题组合相比,畅销书按篇幅排序有一个鲜明的第一主题,并把全书篇幅的30%集中在第一第二主题上,第一和第二主题之间有潜在冲突,同时主题还不能太脱离现实生活。

按主题份量累积到40%篇幅的时候,畅销书平均才4个重点主题,而非畅销书平均达到6个主题。体会一下,主题太多太平均有没有眼晕的感觉?

关于对比和冲突,下面的一二主题组合哪个更卖座?

  • 家庭和医院

  • 性爱和园艺


家庭和医院更好。家庭意味着祥和,医院意味着伤病,满满的潜在冲突。而那些风马牛不相及或一顺边无冲突的组合不卖座。

作者发现,有一个万金油主题,虽然卖座的和不卖座的书都写,但是卖座的书这一主题的份量突出的重,因此这个主题的比重在猜畅销的算法中贡献很大。这个主题就是那种看似随意而又感人的「人与人的亲近」。这种亲近不是热恋的疯狂,也不是老师学生雇主员工那种公事公办,而是那种平凡细节中的亲密、默契、和纽带。比如跟妈妈去购物、跟爸爸去钓鱼、跟新恋人一起做饭等等。讲故事就像谈恋爱,不能始终冰凉也不能干柴烈火,而要小火慢炖。

另外,特别离奇的主题不容易卖座。太空船、独角兽和女巫的风险都比较大。为了让广大群众有代入感,主题要有现实基础。故事背景在小镇在都市均可,具体哪个国家哪个州也随便,但别动不动就去丛林、沙漠、深海、庄园。

如果要找一个卖座不卖座主题不完全清单,卖座的包括:婚姻、死亡、税收、黑科技、葬礼、枪支、医生、职场、学校、总统、报纸、孩子、母亲、和媒体。不卖座的包括:性、毒品、摇滚、引诱、和肉体描写。

书中拿《家庭规则》这本畅销书的主题配比举例,一二主题占33%,孩子和犯罪有对比冲突,环境设置在法庭、家庭接地气,「亲近」在置顶主题中。

基于书中数据用文图制作:wentu.io


其次,情节线要有起伏、有节奏。

古今中外经典故事,小到龟兔赛跑,大到赤壁之战,大都可以简化成三幕式结构:铺垫、冲突、结局。

三幕式结构。来源:维基百科


但是分析畅销书,这个模型过于简化。因此,Jodie和Matt把畅销书们扫了一遍,用页数百分比进度做横轴,情感的积极消极做纵轴,结果各种情节被归纳成七大曲线。简单说吧:

  1. 上台阶型:常见于喜剧

  2. 下台阶型:常见于悲剧

  3. 横N型:常见于「走向成熟」

  4. 横S型:常见于「重生」

  5. W型:常见于「探险归来」

  6. M型:常见于「求之不得」

  7. U型:常见于「过关打怪」

上台阶。来源:wattpad

下台阶。来源:wattpad

横N。来源:wattpad

横S。来源:wattpad

W。来源:wattpad

M。来源:wattpad

U。来源:wattpad


理论上第七种U型「过大坑」应该有个「翻大山」的镜像曲线,可惜,翻一座大山然后立刻走低的故事没有在畅销书中出现。

虽然这七种都在畅销书中出现过,但作者认为美国读者最爱看的是增强版的W,就是W中间的头部两侧长出两个凸起的肩膀。最突出的例子就是2011年出版的畅销性爱浪漫小说《五十度灰》,红得发紫被好莱坞拍成电影。抬一下杠,不是说了性主题从概率上讲不卖座吗?这里作者辩解说:此书主题其实是伪装在性中的「人与人的亲近」,另外情节曲线近乎完美地吻合美国读者口味。


有一个验证:2003年出版同样被拍成电影的畅销书《达芬奇密码》的情节曲线几乎和《五十度灰》一模一样。


《达芬奇密码》和《五十度灰》的情节线。来源:wattpad


这个增强版W的特点是在全书尺度上起伏均匀对称,节奏感强。

关于文风,作者首先确认文风就像一个人的指纹,是可以识别的。比如,2013年,一个名不见经传的作者Robert Galbraith出了一部新小说《布谷之鸣》,结果通过文风识别发现这个Robert其实就是《哈利波特》的作者J. K. Rowling试图隐身用的笔名。

试图伪装成Robert的J.K.Rowling。来源:维基百科。


通过文风分析,作者发现畅销书普遍更加口语化,开篇更像心声独白,行文更加简洁,就像没有装饰品的朴素优美的杉树,而不是过度点缀的圣诞树。另外男女作家的文风有可以辨认的差别。有趣的是,虽然在所有畅销书中男女作家的比例六四开,但单看文风,更多的女作家的文风量化结果接近畅销书的文风特征。这些有畅销范文风的女作家大多有新闻和营销方面的教育背景和履历。或者说,要畅销,得懂得怎么跟老百姓说话。

最后,关于人物,作者发现主人公常用的动词是能否畅销的重要指针之一。因为性格决定命运,命运推进情节,而性格,特别是性格中是否有很强的主观能动性,是可以用常用动词来识别的。比如,体现强烈主观能动性的动词「需要」和「想要」,畅销书的词频是非畅销书的2倍;「想念」和「爱」的词频是1.5倍。相比之下,非畅销书的主人公们就比较被动,经常用「接受、厌恶、看来、觉得、恢复」这样的词汇来形容。平均来讲,非畅销书「希望」的词频是畅销书的1.3倍,「觉得」是1.6倍,而「厌恶」差不多2倍。所以,读者喜欢有主见掌握自己命运的主人公。


以上就是两位作者发现的套路,号称畅销书密码。

这些套路到底是怎么被他俩识破的?全是自然语言处理的招数。咱们续一帖聊吧。


(未完待续)

参考资料:

畅销书“密码”

Archer Jockers Consulting

有两个人用算法解开了畅销书的密码,据说能有八成准_城市_好奇心日报

The New York Times Best Seller list

The Circle is the ultimate bestseller, computer says

Booklist Editors' Choice: Adult Books, 2013, by Brad Hooper | Booklist Online

Douglas County Libraries

Matthew L. Jockers

http://link.zhihu.com/?target=https%3A//www.wattpad.com/318559882-unstuck-%25E2%259C%258E-writing-advice-plotting-101-the-seven



点击查看历史文章,揭开冰山水面下更多的数据秘密!



知乎专栏:数据冰山

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存