查看原文
其他

媒体如何猜透用户的心?德外5号沙龙今日头条专场很“有料”

2016-07-14 德外5号 德外5号


7月8日,CTR媒体融合研究院与今日头条合办的首场德外5号沙龙,取得圆满成功。
来自中央电视台、央视网、央视新闻客户端、中央人民广播电台、中国国际广播电台、北京电视台、天津广播电视台、湖北电视台、江苏广电集团、河北广电集团、新疆电视台、南京广电集团、《媒介》杂志等单位的有关领导和业务骨干出席本次沙龙。
CTR媒体融合研究院是中国第一家专注于媒体融合的研究院,立足于TR、CSM 20年媒介研究、受众测量和消费者洞察的专业优势,传递媒体信念信心,剖析实践实验尝试,探求融合对策方法。
在媒体融合的大背景下,媒体内容精准推送背后有哪些理念、逻辑和方法?互联网的玩法和传统媒体有什么不同?媒体融合思维应该如何突破?带着业界提出的这些问题,CTR媒体融合研究院与今日头条相邀,实现了一场期待已久的跨界对话。
在这次沙龙上,CTR媒体融合研究院秘书长吕正标博士以《传统媒体的纠结》为题,深入地剖析了传统媒体的处境及对策,提出传统媒体与互联网合作是大势所趋,但是传统媒体要想清楚自己要什么;
今日头条媒体合作与发展总监刘旋以《大数据 新平台》为题,对今日头条的公司和产品做了简要介绍,展示了今日头条致力于打造内容生态的努力;
今日头条视频运营总监刘通以《个性化分发机制下的广电媒体新机会》为题,不仅让大家看到今日头条与广电媒体合作的机会,更让人看到其成为“中国最大的短视频平台”的愿景;
今日头条算数中心副总监刘志毅通过诸多详实的案例,为大家展示了“大数据”为新闻生产带来的更多可能性,尤其对新闻内容制作有启发。
@德外5号整理了与会专家的精彩发言,与您分享这场“有料”的沙龙。

今日头条算数中心副总监刘志毅大数据能为新闻生产带来什么?




如果把今日头条比作一个餐馆,给大家解释一下,餐馆是怎么处理接收到的订单的,除了带来美味,这些订单还能带来哪些数据上的价值?


最近,长江中下游的湖北、安徽等省发生了严重的洪灾,有记者认为这类似于1998年洪水的灾情。我们通过今日头条的阅读数据分析发现,经过了调侃“去看海”的早期阶段,大家关注的热词已经变成国家防总、水利部、气象局等。从中可以发现社情民意明显的转向。
我们把武汉城区分为几个部分,在这些地方今日头条用户最关心的内容和正在发生的事情是强相关的。尤其是人们的生命财产受到威胁的地区,对洪灾相关新闻的阅读率是最高的。
如果把这个范围扩大,从江苏、安徽、湖南、湖北到重庆,长江中下游省(市)都很关注暴雨的情况。通过数据分析出来一个很特殊的词“大洪水”,把这个词的热度和降水量进行对比。今年降水量之大是建国以来仅次于1998年、历史第二的水平。通过清晰的分析我们发现,武汉降雨与各个高校的学生在平台上发言的热度,高校受关注程度都有关系。

这些发现可以作为很多新闻的开头(可以叫做“数据说”)。今天想和大家分享的是,大数据能为新闻生产带来什么。


今日头条如何推荐?


截至今年4月份的最新数据,今日头条用户有5亿量级,日活跃用户超4800万,月活总量超过1.25亿。


我们知道,任何统计都要说样本,样本量越大,可能的偏差就越小。下面简单介绍一下今日头条推荐的逻辑。
在每天新增的20万篇文章中,我们推荐的时候会打上标签,比如财经、体育、时政等,同时给用户也打上标签(用户的标签基于在头条上非常有黏性的使用记录)。当这两种标签的数量足够多、足够精细的时候,他们在我们的统计中都有自己的位置。一篇文章或者一个人,都有一组数据来描述。当某个新闻点被记录以后,我们会对这两个点进行匹配,如果匹配度很高,这篇文章就会被推荐到用户的手机上。
举个例子,“Facebook用户增长减缓,股价跌了10%”这样一条新闻是怎么到用户手机上呢?可能读者是一个关注美股的,男性,对财经新闻感兴趣,现在正在用3G,工作日会关注这一类消息。如果他现在使用Wi-Fi,出现视频的可能性比较大,位置可能是在经常出现的工作场合。如果这篇文章刚好满足刚才的条件,文章的转化率、质量很高,被相类似的读者读到的频率和时间很长,而且文章不是标题党,有深度,有价值,和用户相匹配,这个时候,文章就会被推荐。
(推荐参考的是)用户属性特征、位置地理等环境特征的组合值,现在组合已经到了百亿的级别。也就是说,当我们描述一个人的时候,我们有超过百亿的参数。

刚才讲的是推荐的机制。那么基于这个机制,我们记录了什么东西?


媒体实验室:用户分析形成生产机制


我们关心的是,用户是否点击“顶”“踩”“赞”“转发”,阅读全文停留了多少秒,有没有主动搜索一些关键词来探索自己的兴趣,有没有把一个标签从头条的标签海中挪到前面作为“主标签”,有没有主动关注某一个号,一个话题?


所有这些都可以被用来描述一个用户,形成我们自己的生产机制。我们不仅用这些数据来完善用户的属性,以便下次推送文章的时候,用户更有可能点开它,同时,我们把这些数据记录下来,作为我们媒体实验室的原材料。
媒体实验室会对今日头条后台的数据进行提取和分析,得到任何一个话题文章下面相关的用户数据。我们认为,这些用户和数据,是可以用来促进创作的。

譬如回到开头的例子,武汉本地的媒体关心哪一个区,哪一个商圈,对于暴雨中的哪一个话题是关注的?在武汉这个区域内,人们对暴雨的关注度,是全天都很高,还是白天、夜晚有所区别?通过数据分析,我们可以发现趋势变化。


再来看一些具体案例。
在春节期间的关键词是什么?受关注度最高的,既不是“春运”也不是“春晚”,而是“婚宴”。这可能和今日头条上的主流用户群体有关,因为他们春节回家会讨论到“逼婚”这个话题。最关注“春运”的用户,18~23岁的人明显高于其他年龄段的人;最关注“春节”的用户, 41~50年龄段的人明显高于其他年龄段的人。可能因为年轻人过春节都在想着怎么回家,而他们的父母亲想的是如何准备一顿晚宴,和孩子们聊聊天。数字本身是没有意义的,但通过对数字的解释,我们可以看到很温馨的画面。
最关注广州恒大队的城市是哪一个?我们挖掘了很多报道这支球队的媒体,发现并不是来自广东或者广州的,实际上是天津的媒体。
和12306购票网站的验证码相关度最高的人是谁?应该感谢铁路总公司做了一个很难的验证码库。发现和验证码相关度最高的是马云。
科学类资讯什么时候阅读最高?我们和果壳网合作,分析了全年的数据,发现对科学类文章的生产和阅读,在两个时间点达到全年最高峰。第一是光棍节,第二是春节。在光棍节期间用科学知识解释跟两性、“脱单”相关的心理、生理知识,相关的科学知识都能非常广泛的传播。春节的时候,老人家和年轻人讨论什么生活最健康,什么东西能不能吃。科学知识传播得也非常快。
我们曾经做过春节期间支付宝红包和微信红包大战的分析,是从除夕晚上7点到初一凌晨1点,关注点的趋势,“敬业福”、微信红包、支付宝红包三条曲线。“敬业福”在除夕晚上之后迅速下降不见了。微信红包一直领先于支付宝红包。这和大家使用的活跃程度相关。从2月1号到14号,中间点是除夕夜,来看各个关键词的走势,比较长期的是微信红包和支付宝红包,但后者并没有因为“敬业福”的关注度而超过微信红包。2月14号,微信红包的热度一下子就上去了,因为那天是情人节。我们还对红包进行了一个地域关注度的分析,发现对于红包最关注的省份是河北、河南、江苏、广东。后来支付宝官方也公布了一个数据,2亿现金红包平分后得到的最多的省份,分别是河北、河南、江苏、广东、福建。
我们和环保组织合作,梳理了2015-2016年十大环保事件,第一名是雾霾,第二名是天津港爆炸,第三名是沙尘暴。之后就进入长尾。

“今日头条热度指数”捕捉趋势


我们有一个“今日头条热度指数”来反映话题的受关注程度。


譬如2015年8月我们关注英超,比较每一支球队和第一名词频相关度的高低。刚刚进入赛季的时候,切尔西、阿森纳、利物浦这样一些豪门里所当然是最高的级别,但到了10月,有一条线变得非常异常,这就是后来最大的黑马莱斯特城。它和冠军的相关指数一直飙升,到2016年3月超出所有球队,结果是夺冠了。我们3月份得出了数据,比英超赛季结束真正的结果揭晓提前了一个多月。
前不久美洲杯决赛上,阿根廷国家队梅西罚失了一个点球,后宣布退出阿根廷国家队。从数据来看,当天11点、12点左右,蓝色的线代表的C罗(参照)很正常。但梅西的线突然一下成为焦点,如果这条线拉得够长,还会出现第二个焦点,就是西班牙的法庭判梅西偷税,21个月的有期徒刑。“今日头条热度指数”非常敏感地捕捉到这一点。
我们还对股民的情绪进行了分析,发现随着股市大盘变动,阅读指数发生非常明显的变化。把文章分为“看涨”和“看跌”两类,用这两类的比例来描述人们的情绪。进入2015年端午节那次股市大跌至前,这个比例就已经到达顶峰,当年5月开始下降。平均每个频道用户读到的文章数,红色的线代表上涨的,绿色代表下跌的,和我们的股市变化极度相关。这些用户可以理解为散户,我们的数据在这方面的开发非常有前景。
当我们说一款电竞游戏非常有吸引力的时候,我们通常称它为电竞“毒品”。那么(在今日头条的文章中)电子游戏和“毒品”的相关度有多高?第一名是现在最火的《英雄联盟》。第二名是《守望先锋》。当时,《守望先锋》在中国的服务器做出调整,从测试版变成正式版,有玩家表示在这期间产生了类似“上瘾”后“戒毒”的反应。在那几个月,这款游戏和“毒品”的相关度特别高。
通常记者去采访,通过某个人描述的现象去发现,但不知道自己看到的是一朵花还是整片海洋,有时候走偏了也不知道。但是数据会告诉他,相关度最高的是什么。
早些时候,学区房是一个很热的概念。《南方周末》想对此做一个调查,包括价格、市场等。我们在数据上帮他们分析,什么年龄什么性别什么地域的人,在这段时间突发性地关注学区房最多,以及学区房和什么最相关。
结果发现,与学区房相关度最高的词,第一是房价,第二是离婚。曾经有人为了学区房办离婚,办理当天反复跟民政局的人强调,只要房产和贷款在她老公名下就可以了,其他随便写。
通过这个例子可以发现,大数据对趋势的判断和记者对细节的细致描写,可以构成将来报道的一个形态。既决定了大方向,同时细节很生动,是非常好的配合。

大数据也不是万能的,希望我们呈现出关键词的相关度后,真的有记者去找到线索,发现故事,用自己不可被机器替代的才华,把这些线索组织起来,把这个故事写出来。这才是大数据应该有的位置。


未来愿景


接下来讲的是我们大数据中心未来的愿景,以及正在做的事情。


比如,能不能像地震级数一样,标准化地来描述一个热点事件。
热点话题受到关注,是什么因素更大程度地决定了读者,这样的热度到达读者花了多长时间?这是新闻的爆发力所在。
有人说在互联网时代,用户只有七秒的记忆。七秒从何而来没人知道。到底是几秒,我们希望给出一个确切的答案。
另外,我们是可以实现机器监控,监测到即将爆发的舆情的。对于记者来说,创作前能够监测舆情动向,能够把握在当前还未出现的报道方向和角度。报道发布以后,还可以对于整个传播有一个综合分析。这是我们媒体实验室现在想做的。


中国第一家

专注媒体融合的研究院

传递信念信心

剖析实践实验

探求对策方法


合作:请联系微信后台

投稿:dewaiwuhao@163.com

长按二维码,即可关注

点下方【写留言】表达您的观点和态度

欢迎将此文章转发到朋友圈

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存