查看原文
其他

大数据能为出版做些什么?

2016-07-21 专注报道出版创新 出版商务周报
商务君按

2016数字出版年会上,东软新闻出版产业发展研究室主任王智分享了对大数据和出版业的思考。


王智 / 东软新闻出版产业发展研究室主任


作为技术企业,我非常高兴有机会和大家在这里聊一聊,首先介绍一下我们公司,然后是我在大数据和出版方面的一些看法。


25年前,东软创立于大学校园。IT行业是一个老行业,但东软的产品涉及20余个行业。比如我们为13亿人提供人口数据服务,为4亿人提供社会保险服务与支付系统,为4亿人提供支付电费的服务等等。



25年前的东软


关于大数据和出版方面的思考,我想先说两家公司,一个叫奈飞,一个叫时代华纳。时代华纳是美国传媒界的霸主。奈飞并不是很出名,但它的市值是421亿美元(截至2016年7月15日收盘价,下同),接近时代华纳的市值618亿,奈飞的市盈率是343倍,时代华纳的市盈率是16倍。


为什么?奈飞是一家做在线视频点播的公司,业务和时代华纳差不多。早年,奈飞的业务非常传统,从出租DVD到在线视频,公司创始人做这件事情的初衷是美国人经常去店里租录像带。2013年,奈飞投资了一部电视剧——《纸牌屋》,它把奈飞的估值带动起来。那么这个投资决策是怎么制定的?奈飞是基于3000万订阅用户的习惯做出了这个决定,在线视频播放是奈飞的主要业务,当它向投资一个视频产品时,总结了用户在视频播放过程中快进、倒退的习惯,以及什么样的桥段用户看的多等等,所以才投资了这样一部在全世界范围内非常受欢迎的电视剧。



这些海报也是根据大数据制作的


这就是奈飞的大数据哲学——任何人都能够轻松发现、访问、处理数据。无论数据量大还是小,都需要通过可视化使其更容易理解。数据的价值会随着收集整理的时间消耗而变小。我总结了三个词:触手可及、形象生动、新鲜出炉。就像一颗草莓,颜色新鲜,好吃。


奈飞用大数据做决策,这其实不是新鲜事。在出版业一直都是这样在操作,比如说印数、订数、促销等等内容,都是根据经验判断的,但当下,出版人需要计算机帮助大家更好地去处理数据和建立模型。


大数据并不神奇,也不高深,非常简单,它扩展了人脑和数据集。有了大数据以后,几十年的数据以及业内数据、跨行业数据等更广泛了,考虑的因素就会更多。通过更广泛的数据集和更严密的数据模型扩展人脑模型,还需要通过“数据分析+可视化分析”。发展大数据的首要任务是要筹建专门组织,设立首席数据官CDO。


数据从哪里来?我觉得分结构化非结构化内部外部三种途径,有些数据从量来看不符合大数据的标配,但数据量大就好吗?其实我不这么认为,并不是量大就好。但它的量要非常大,有更多的数据才有更大的价值。


最典型的是外部数据,我们可以想办法得到一些电商的数据。非结构化的数据包括电商平台和数据评论,贴吧、知乎上面有很多意见领袖,写过很好的文章。这都是一种大数据来源。我们还可以关注搜索引擎和新闻数据,根据时下特点做预测。


接下来,我想做一个“搜索指数VS图书销售”的介绍。我通过技术手段得到了一个电商网站的数据,比如说《机器学习》这本书,在阿尔法狗战胜李世石的那段时间卖得非常好;前一阵子杨绛先生的过世也带动了《洗澡》和《我们仨》这两本书。我们可以根据一些搜索指数调整我们的微博,结合时下热点做一些促销活动和营销活动。


《机器学习》数据分析


“阿尔法狗战胜李世石”后的搜索指数与媒体指数



网商畅销小说分析(制图工具:东软SaCa DataViz)


这是网商畅销小说的分析,从图中一目了然可以看出畅销小说的价格是很重要的,大量畅销小说的价格都在20元左右。

以上两个图都是用东软的数据做出来的,我们认为大数据驱动智慧出版,出版社链接了需求和轨迹,也就是读者和作者我们认为整个出版产业的未来是由大数据驱动的,以需求推动产品开发、产品策划与创作,出版社根据用户需求和作者资源推出产品。


从去年以来,工业4.0比较火,我们把工业4.0、出版和海尔小微创客的模式结合在一起。未来的出版是基于大数据平台的,让编辑和作者、用户真正互动和连接起来,形成满足用户需求的产品。



用大数据连接受众与作者,驱动智慧出版


还是说一下阿尔法狗的事情,我曾经到知乎上看到相关评论,评论背后的相关技术逻辑非常严密。如果有出版社在这个热点事件的同时出版相关内容的书,肯定会热卖。



东软全系列产品覆盖多种应用场景


最后介绍一下东软的产品,我们的产品能够覆盖各种各样的应用场景。从数据的发现、采集、传输、转换清洗、比对、质量管理、存储、分析、开放、展现等。东软在大数据领域积累了21项产品技术专利,如数据科学平台,它在银行有很好的应用,能够预测高端客户流失,准确率达70%。如知识服务平台,使用文本挖掘技术对资源进行知识化处理,形成可供分析、推理的知识,包括文本、情感分析、摘要和概念抽取、相似度计算等。如客户智能分析平台,专门做用户群分析,能够洞察用户的行为,捕捉细节,对用户画像。


本文根据公开演讲整理而成,未经作者本人确认


点击下列蓝色的字查看精选内容

数字出版:一切好的运营都迎合了人的七宗罪2013-2014数字出版产业发展状况丨十年数字阅读大势出版上市公司,新业态哪家强?



长按二维码关注我们长按我获取文章授权


关注内容产业创新

服务出版产业升级

有灵魂、有立场、有看点的
出版传媒产经媒体

投稿邮箱:tougao@cptoday.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存