查看原文
其他

Barabási 组最新研究成果:如何从300万种图书中脱颖而出?

陈志聪,徐绘敏 集智俱乐部 2018-12-11


在美国,每年印刷的图书超过300万种,其中仅新书就超过20万种,但是只有不到500本书能出现在纽约时报畅销书名单上,能长期在名单上的则更是凤毛麟角。图书出版业的竞争是如此激烈,脱颖而出的几百种书籍,到底为何能够畅销?


最近,美国东北大学 Albert-László Barabási 团队发表了一项研究,通过对2008年-2016年纽约时报畅销书排行榜的数据研究,发现了书籍销量的诸多影响因素,并给出一个书籍畅销的动力学机制。本文是对该项工作的介绍。


论文地址:

https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-018-0135-y


1.先睹为快:

有哪些新鲜发现


  • 书籍的销量存在季节性波动(seasonal pattern),假期的销量比平时大。

  • 虚构类比非虚构类书籍销量更大

  • 一般的小说和自传类书籍更容易登上畅销书榜。

  • 在榜上的位置越靠前,持续在榜的时间越长。

  • 虚构类书籍的作者比非虚构作者更高产,且往往有多本书能够登上畅销书榜。

  • 在畅销的虚构类书籍的作者中在性别上不存在悬殊的差异,但在非虚构类书籍中,大部分畅销书作者是男性。

  • 书籍的销量存在一个一般的模式(universal pattern),基于这个模式构建的统计模型能够很好的解释书籍销量随着时间的演变,从而实现很好的预测效果。


2.数据来源:

长时间尺度、多维度的大数据


纽约时报畅销书排行榜,The New York Times Bestseller List (NYTBL),电子版的记录始于2008年。对每本书而言,包括ISBN码、书名、作者、出版商、亚马逊链接。该排行榜每周进行更新。本研究中使用了2008年8月6日-2016年3月10日共410周的纸质书排行榜数据,一共包括2468本虚构类书籍和2025本非虚构类书籍。


为了进一步研究书籍销量随时间的变化,采用另一个数据集:NPD BookScan(曾经叫Nielsen BookScan),它是最大的书籍出版数据商,从2004年起记录了在美国地区纸质版书籍的销量变化。对每本书而言,包括:ISBN码、作者名、书名、书籍种类、BISAC码、出版商、价格、每周销售总额(包括全美各个地区)。


3.对畅销书的研究:

畅销的书才会长销


3.1发现一:类型小说(Genre Fiction)和传记雄霸排行榜



类型小说指的是能够细分出门类的虚构作品(如悬疑、爱情、科幻等)

虚构类最流行的书是悬疑、惊悚类(图1A),非虚构类最流行的书是自传、历史类(图1B)

类型小说比一般的虚构类作品更流行,且从2011年起流行度不断上升(图1C)


图1

3.2发现二:畅销书畅销的时间通常较短


无论是虚构类还是非虚构类书籍,其在排行榜上的停留时间一般都较短,但也有少量的书能够在排行榜上持续较长的时间(图2A、B)。


总的而言,无论是虚构类还是非虚构类书籍,其在排行榜上的停留时间都和和其在排行榜上的排名位置有一定的正相关关系(图2C、D)。

图2

3.3发现三:不是我有的畅销书都真正“畅销”


从出版后第一年的销量来看,畅销榜上的书籍销量成正态分布,无论是虚构还是非虚构类(图3A、B),大部分畅销书第一年的销量在10,000到100,000册之间。


对大部分书而言,在排行榜上的排名越靠前,第一年的销量越大(图3C、D),在排行榜上停留时间越长,第一年的销量越大(图3E、F)。

图3



3.4发现四:人们在假期读虚构类书籍和购买书籍较多


从每周的销量来看,虚构类和非虚构类书籍每周的销量都呈现正态分布(图4A、B)。


通过观察从2008年起每年的第33周(八月)的书籍销量,可以发现,虚构类图书比非虚构类图书的销量更高,这说明非虚构类图书可以通过较少的销量来获得人们的认可,另外,每年的第33周无论是虚构类还是非虚构类图书的销量都变化不大(图4C)。通常,要在一周内销量达到1000到10000本才可能进入纽约时报的畅销书排行榜。

图4


对一年中每个月内的周销量计算其中位数,从2008年统计到2016年,可以看到,一本书要在一周内销量达到1000到100000本才可能进入纽约时报畅销书排行榜,且这一数据范围在多年里基本稳定。虚构类图书在暑假的时候会有一个销量的小高峰,但不管虚构类还是非虚构类书在12月底到1月初时都是其销量最高的时候(圣诞节假期)。总体来说虚构类书的销量比非虚构类高(前者的周销量大部分在4000-8000本,后者的周销量大部分在2000-6000本),但在假期时这种差距有所减小。


4.对作者的研究:

出名趁早,一炮走红


4.1虚构类作者的成功比非虚构类作者的更容易复制


收集了畅销书作者出版的所有精装书(不管是否出现在排行榜上)。图5(A)和(B)显示,只有14%的虚构类作者只写过一本书,而近43%的非虚构类作者发表了一本书,高产很少。图5(E)和(F)表示,尽管大多数的作者只有一本畅销书,但对于虚构类作者来说,复制性的成功更常见,因为排行榜中2468本精装书是只由854个作者完成,说明少数作者有多本畅销书,而1670个非虚构类作者却有2025本书。

图5


所以虚构类作者更有可能快进度的并经常以连载形式写完多本书。而非虚构类作者低产的原因是大多数非虚构类畅销书是名人回忆录,可重复性低。


4.2发现二:大多数畅销书作者是一炮走红


选择2008年之后开始出版第一本书的作者。为了理解畅销书在作者职业生涯中的顺序,使用热力图图6(E)和(F)来表现分布的位置。发现大多数的畅销书作者是凭借处女作成功的,但靠第二本或者之后的书也是有可能跻身排行榜的。

图6

4.3发现三:成功是成功之母


为了量化之前的精装书对接下来书的影响,图7(A)和(B)显示了前一本书一年的销售情况和后一本书一年的销售情况之间的关系,近乎45度的斜线表明销售好的书接下来的销量也会很好。因此,最好的畅销书作者往往会保持他们的成功。但也会有些例外,比如他们选择写与以往完全不同类型的书,就会失去他们的读者基础。

图7



4.4发现四:女性在爱情类占主导,男性在非虚构类占主导


在虚构类小说中,我们发现畅销书大多只有一个作者,男性和女性数量并没有区别(图8A)。但是在非虚构类作者中,男性占主导地位(图8B)。从一年的销量上来看,男性和女性作家的销量并没有显著差别(图8B、C)。


我们把书按照种类来分,在虚构类书中,女性作家在一般类小说中占更多位置,并且在爱情类书中占绝对的主导地位;而男性作家在惊险,科学和动作/冒险类小说类更多(图8E)。在非虚构类书中,男性在所有的种类都是主导,除了在回忆录类,性别差异很小。


图8


5.、 一本书的成功之路:

书籍畅销的动力学

5.1畅销书在出版10周内达到销售顶峰


图9(A)和(B)的平均销售值显示,畅销书在发表10周类达到他们的销售巅峰。图9(C)和(D)是每个最高销售周的图书数量,无论什么种类的书,在前15周类大都达到顶峰。对于虚构类图书严格来说,在第2-6周就会登顶;对比之下,非虚构类书籍的最高销售周会出现在前15周的任何时候。

图9(E)和(F)则给出了一些异常案例,外在的因素例如获奖,碰巧赶上节假购物季等,都会使得销售高峰比较晚达到。

图9


总之,排除外在因素,一本书的销售前几周非常重要:这是抓住读者兴趣的关键。这也是出版商广告宣传,书店重点摆放和各种媒体评论的关键时刻。


5.2畅销书动力学:一个模式,三个机制


1. 每本书都有自己固有的区别,源于作者的名气,写作风格,出版商的市场贡献甚至是书的封面质量,我们把这个参数定义为适合度(fitness),η i


2. 一本书销售的好会导致更多的销售,也叫做优先链接(preferential attachment)。这是因为集体效应,比如朋友推荐,评论,名人,网上评论和书店里被摆放在显眼位置。一本书被购买的可能性取决于最新的销售量,数学上表示为Sit


3. 即使是最好的书也会失去魅力,消失在大众的眼中。去除外部因素,一旦书达到它的目标读者,越来越少的人会购买这本书。我们使用一个表示论文引文下降的公式来描绘这个老化过程:

(1)

结合三个机制,我们可以得到一本书 i 在 t 时被购买的可能性是:

(2)

一本书 i 在 t 时的总销售是:

(3)


这三个公式中一共出现了三个参数,μi是书的即时性(immediacy),由达到销售顶峰的时间所决定的;σi 是下降速率(decay rate),衡量持久性;λi是相对的适合度(fitness),正比于η i。



为了计算这三个参数,将公式(3)和图10(C)中某书的累计销售量拟合,得到λ = 10.37, μ = 2.03,σ = 1.12 ,显示模型的拟合结果非常高(R2=0.99)。事实上,模型(3)可以通过变化这个三个参数解释广泛的图书销售模式。

图10


5.3预测:一本书一生的销量

我们已经知道描述每一本畅销书的销售历史只需要三个参数,图11(A)-(C)是所有畅销书各个参数的可能性分布图。


为了预测一本书一生中会卖多少,将公式(3)中 ,t → ∞ ,可以得到

(4)

公式(4)发现一本书一生的总销量只和λ相关,这说明如果模型好的话,我们可以根据书籍短期内的销售来计算出λ,再来预测总销量。

图11



6.书籍畅销的秘密就在大数据里


这篇文章研究纽约时报畅销书排行榜上书籍销售和作者的模式,用大数据的视角来探讨影响书籍销售的因素。


从书籍的角度来看,一般类的小说和回忆录更有可能成为畅销书。图书在排行榜上的位置越靠前,持续在榜的时间就会越长。2008年以来,畅销书的销量并没有显著改变。电子书形式的书籍对精装书的销量并没有影响。一年中季节性的波动很重要,假期的销量比平时大,但是很难说哪本书会脱颖而出,因为很多书的销量都提高了。


从作者的角度来看,虚构类书籍的作者比非虚构类作者更高产,取得更多可复制的成功。这得力于许多畅销书的连载性,连载使得读者粘性更高。有意思的是,在非虚构类书籍中,如果作者也采用连载的方式写一个主题,也会出现可复制性的成功,这也是因为读者会对书有一定的熟悉,读者更喜欢阅读自己相对熟悉的名人或历史人物事件。


研究畅销书的周销售量帮助我们识别一个普遍的销售模式:一本书出版后销售量会快速增长,在前10周内达到高峰,随后快速下降。利用这个普遍的原理,我们可以构建模型来准确地描述和预测销售量,这对库存管理和长期影响评估具有重要意义。这个模型之前被用来描述论文引用模式,现在同样适用于图书销售,说明两者背后基本的过程原理都是一样的。


图书是个不仅充满竞争力,而且有着丰富文化内涵的庞大行业。希望这篇有关畅销书的文章可以帮助我们思考图书成功的根本原因。


推荐阅读


信息、计算和进化——复杂系统的认知框架

解读幂律与无标度网络 | 网络科学入门

侯世达来了!人的创造力VS人工智能 | AI&Society 第五期

Paper 已经过时——计算机时代科学传播方式的变革

大数据会暴露你的社会阶层吗? 

Love is All You Need | 无标度网络理论之父Barabási回应史上最严重质疑

理论危机 | 无标度网络遭到史上最严重质疑



集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

文章已于修改

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存