查看原文
其他

担心新闻机器人会抢了饭碗?他却从美国Top2的自动化新闻算法公司辞职|专访BuzzFeed数据新闻记者John Templon

2016-10-13 贾宸琰 刺猬公社
导读

新闻机器人究竟有多可怕?刺猬君专访了BuzzFeed数据新闻记者John Templon。他毕业于美国西北大学,曾经是美国顶尖自然语言生成技术公司Narrative Science公司的联合创始人。在公司业绩蒸蒸日上之时,John Templon却选择辞职当起了数据新闻记者。在他看来,新闻行业可以运用自动生成技术,但技术不可能完全取代新闻记者。


by  贾宸琰|采写

 

继2014年7月美联社引进“机器人同事”后,《纽约时报》、《华盛顿邮报》、《洛杉矶时报》、《卫报》、路透社等媒体都纷纷引入自动生成新闻技术。2015年9月,腾讯也宣布采用自动化新闻“梦幻写手”(Dreamwriter)自动生成财经新闻,发布了中国首篇由算法自动生成的新闻报道《8月CPI同比上涨2% 创12个月新高》。

 

一时间,“新闻机器人”成为了每一个人都在讨论的话题。世界编辑论坛大会也将自动化新闻列为2015年新闻编辑室的九大趋势之一。(需要说明的是,“新闻机器人”是不规范的说法,本文统一写为自动化新闻,文末有注解。)

 

而媒体人显然对此褒贬不一,有人认为自动化新闻可以解放记者和编辑的工作时间,提升了新闻的质量;有人担心由于技术限制,自动化新闻无法达到新闻专业主义的要求;还有新闻人害怕,自动生成新闻的技术会最终取代人类记者。

 

针对种种争论,刺猬君专访了BuzzFeed数据新闻记者John Templon,听听他对自动化新闻的理解。John Templon毕业于美国西北大学,曾经是美国顶尖自然语言生成技术公司Narrative Science公司的联合创始人。在公司业绩蒸蒸日上之时,John Templon却选择辞职当起了数据新闻记者。在他看来,新闻行业可以运用自动生成技术,但技术不可能完全取代新闻记者。

 


图为John Templon

 

从全美Top2的算法供应商离职,

他选择在BuzzFeed当一名数据记者



Narrative Science公司建立于2010年,总部位于美国芝加哥,主要的产品是基于自然语言生成平台的人工智能产品Quill。实际上,公司的前身是西北大学的智能信息实验室(Intelligent Information Laboratory)学术项目StatsMonkey。

 

该学术项目主要基于棒球比赛中的数据自动生成棒球比赛新闻回顾,这些数据包括选手、比赛得分、胜率等等。



西北大学Medill新闻学院

 

2010年4月,Narrative Science用StatsMonkey注册成立公司并开始商业化模式。而后,公司开发出新的自动生成新闻平台Quill。目前Narrative Science拥有包括SAP和In-Q-Tel在内的诸多投资商并获得破亿美元的投资。

 

这家2010年诞生于西北大学Medill新闻学院的公司,如今已经迅速成长为行业领导者。作为美国两大自然语言生成技术供应商之一,Narrative Science的客户包括福布斯在内的多家媒体机构。2012年,http://www.forbes.com/ 和Narrative Science合作自动生成公司财务预览。这个项目的目标是为读者提供更加低成本、兼具宽度和深度的报道。和美联社相同的是,福布斯的自动化新闻解放了报道资源和人力时间。利用和Narrative Science的合作增加报道量之后,福布斯网站的读者人数增加了,网站的流量和广告收益都提高了。

 

作为创始成员、开发主力军的John Templon回忆了Narrative Science公司的创办历程:“StatsMonkey开始于新闻学专业和计算机科学专业学生的合作项目,实际上更像是一个两个专业学生一起上课的班级。”由于John比较擅长机器,所以当时他主要负责开发算法部分的内容。他们花了一年的时间在智能信息实验室研发这项技术。

 

2010年4月左右,Narrative Science公司成立。时至今日,公司已经成立六年。 目前的员工主要以工程师为主。“我们有一支巨大的工程师队伍,我们需要根据新闻报道加工数据、移动数据。另外我们还有一组售后服务人员,主要是负责内容生产的员工来帮助客户。”其他工作岗位还包括承担商业推销,John介绍道:“Narrative Science需要将技术平台转换成商业产品,让一些非技术人员更便捷的使用。”

 


Narrative Science的官方网站首页:讲出数据背后的故事

 

但Narrative Science仍然拥有诸多竞争对手,最大的竞争对手莫过于Automated Insights。Automated Insights不仅与美联社等世界级通讯社合作,还与雅虎一同成功生成了匹配每一位雅虎足球迷的日常报道。据悉,2014年生成的总量超过三千万。Automated Insights生成的足球比赛报道可以实现个性化定制,其算法甚至可以根据读者的需求用不同的语调或者同一个故事。比如,算法可以用热情的、支持胜利队伍的语调写一项体育赛事,也可以用同情的语调报道失败的队伍。

 

尽管Narrative Science公司的核心业务是自动生成匹配用户个体的金融市场新闻,但公司也没有丢下自己的老本行——体育新闻。和竞争对手一样,Narrative Science的算法也同样可以实现个性化定制,比如专门回顾读者最喜爱的一位球员在某场球赛中的表现。

 

Narrative Science的强劲发展势头引起了行业的关注,其主要创始人Kris Hammond信心满满地向媒体预测:“机器有一天会获得普利策新闻奖,我们可以说出隐藏在数据下的故事。” 这也引起了一些新闻记者的不满,有批评指出:“Narrative Science正在试图消灭作家的工作,尤其是擅长体育和金融领域的作家。”

 


 

针对上述争论,John Templon在专访中表达了自己的看法:“Narrative Science的目标绝对不是消灭记者。公司的目标是解放记者的时间,让他们不需要做一些计算机就能完成的工作或者是市场中早就存在的调研,从而有时间去挖掘和追踪价值更高的新闻报道。”

 

John以公司早期针对棒球比赛的算法为例,“我们早期为各大公司撰写了成千上万的棒球报道,没有一个人类记者可以写出如此多的同类报道。如果我们不提供这项服务,那么这些棒球报道中隐藏的数据,背后可挖掘的故事都将不复存在。”

 

至于新闻记者们非常关心的话题“机器是否能获得普利策新闻奖”,John用自己的职业选择表明了对这个问题的答案。

 

2014年6月,John离开了工作六年的Narrative Science公司,加盟由前《赫芬顿邮报》创始人乔纳·佩雷蒂(Jonah Peretti)于2006年创立的美国新闻聚合网站BuzzFeed,成为一名数据调查记者。

 

“Kris是我的教授,我和他一起共事了许多年。他确实相信最好的技术可以实现很多事情。”但在John看来,即便数据正变得日益重要,但并不能自行写出赢得普利策新闻奖的报道。“自动化新闻或许能够作为普利策获奖作品的重要组成部分。因为计算机可以持续性地工作并且正日益变得更加智能,它们可以辅助作者和记者们获得海量的信息。但我并不认为算法可以自行生成获奖报道。”

 

谈起他的职业选择,John坦言自己非常喜欢数据。“我非常喜欢数据也非常喜欢分析数据。在BuzzFeed News做数据新闻记者,我会使用大量的数据进行调查。即便在我空余的时候,我也经常阅读数据”

 

除了日常工作,John自己还有一个关于篮球的博客(Twitter @nybuckets),在他看来,篮球报道就是机器人无法胜出人类记者的例子。“我经常告诉篮球专栏作者不要仅仅关注数据,更需要关注内容和文本。机器人并不知道哪些球员或者观众在比赛中突然出现,也不知道他们经历了什么。当然理论上人类可以设置一个小程序让计算机获得这一领域的感知,但这非常困难。因此,人类记者就应该抓住这些细节,去描摹和还原机器人无法体验到的感受。”



John Templon 的篮球博客

 

“新闻行业可以运用自动生成技术,

但技术不可能完全取代新闻记者”


 

哥伦比亚大学新闻学院数据新闻研究中心Tow Center于2016年年初发布的研究报告《自动生成新闻指南》指出:全世界目前有至少11个提供自动生产新闻内容的产品。其中,5个在德国(AX Semantics; Text-On; 2txt NLG; Retresco; Textomatic),美国(Narrative Science; Automated Insights)和法国(Syllabs; Labsense)各2个,英国(Arria)和中国(腾讯)各一个。

 

德国AX Semantics软件的CEO Saim Alkan估计目前的算法已经可以生成一份日报一半的日常内容了。另一家德国公司Retresco的创始人Alexander Siebert认为五年之内,机器人写的新闻就会同人类的新闻无法分辨。 而美国Narrative Science公司的联合创始人Kris Hammond则预测十年内,超过百分之九十的新闻会是自动生产的。自动化新闻的发展速度之快,已经超乎了大多数人的想象。

 

美联社是最早使用由美国Automated Insights公司生产供应的语言大师软件(Wordsmith)撰写公司财务报告的媒体机构。而后,该算法功能进一步升级,开始撰写新闻报道。算法抽取关键数据和词语后,与其他背景信息进行匹配,只需花上几毫秒时间,就能编写一篇美联社风格的完整报道。据悉,WordSmith平均每三个月能写3000篇稿件。

 


Automated Insights的logo

 

2015年10月,Automated Insights宣布了Wordsmith平台有了新的测试版本,使得用户可以上传他们自己的数据,写自己的新闻模版,并自动从数据中生成叙事体。世界编辑论坛大会也将Automated Insights作为典型案例,指出Automated Insights公司目前和美联社及NCAA(National Collegiate Athletic Association)合作,报道成千上万的此前未能涉及的大学体育赛事。

 

这也意味,新闻自动生成技术开启了个人定制化的时代。只要算法供应商拥有了一位读者的数据,就可以根据该读者的个人情况,诸如常用语言、其最喜欢的球队,最热衷的赛事等信息,特制一篇完全属于该读者兴趣范围的新闻报道。算法使得海量生成新闻成为可能,从而也使得个性化定制成为可能。

 

然而,一个值得玩味的现象就是,没有一家供应商将自己定义为新闻类机构。不仅所有公司的名字和新闻不沾边,公司算法产品的目标客户也并不仅仅针对新闻媒体。

 

John Templon在接受刺猬君的专访时表示,这样矛盾的现象确实存在,其产生有两个原因:一是其他行业的使用价值更大、利润更丰富;二是新闻行业的特殊性,仅仅使用自动生成技术无法写成一篇优质的报道。优质的新闻报道依然需要人类记者赋之以背景资料、人类情感等等重要的元素。

 


 

John表示:“提供自动化文本的供应商们慢慢发现,自动生成内容的市场开始饱和,于是转向新闻行业。Narrative Science公司作为这一行业的领导者,就是从新闻领域起家的。但我们比较后发现,提供其他种类的内容具有更大的商业价值,自动生成内容技术在其他行业有着更大的用处。”

 

他以信用卡公司为例,“数百万消费者都非常需要信用卡的相关信息,比如钱花在哪些地方,为什么这些地方花钱,其他消费者的花钱状态是如何的、怎么才能省钱等等,这些都是自动化生成内容可以应用的领域。购买算法后,公司可以每周自动生成相关的一篇报告。”

 

在John看来,自动生成内容技术在政府、金融公司、能源公司等除新闻外的行业都有广阔的应用空间,因而也具备更明朗的商业前景。而与这些行业相比,新闻实际上是最难实践的领域。

 

一则成功的新闻需要的不仅仅是数据,还有相关的人类情感、背景资料等。公司的财务报表可能冷冰冰地罗列数字就够了,但是新闻却不能简简单单用机器人替代。“新闻不是复制此前有的东西,而是创造全新的东西,创造一条可信的、优质的新闻报道。换句话说,新闻行业可以运用自动生成技术,但技术不可能完全取代新闻记者。” John谈到。

 

说机器人永远无法取代人类记者

其实跟新闻自动生成算法的工作原理有关


 

自动化新闻依赖于自然语言生成技术(Natural Language Generation Technology),也可以简单理解为一种应用于文字生成领域的算法。断言自动化新闻不会获得普利策新闻奖,John主要基于对这一算法工作原理的考量。

 

以Narrative Science公司为例,John 简单解释了算法工作原理:“首先,算法从各家公司收集获得上一季度的财务报告数据,并将数据导入系统后进行处理。比如,你可能想知道预算和实际业绩的差距,或是公司有没有打败竞争对手,亦或是公司的股份分红是上涨了还是下跌了等信息。Narrative Science公司就利用现有的数据调取并匹配相关的文字模版。

 

而后,算法会将数字填充至事先定义完毕的模版短语、语句甚至段落中。至于调取哪一个事先定义完毕的模版,则取决于数据和报道预设的复杂性。

 

比如,一些金融报道有固定的格式,比如关于财务报表一般都先报道公司整体的业绩。在这种情况下,模版则会定义为固定顺序,算法会将数据填充至该模版。而另一些报道则可能按照新闻事件的有趣程度或者新闻价值排序,比如棒球比赛的报道可能只需要挑出比赛中最有趣的一件事情进行报道即可。在这种情况下,则会给出另一种模版。所以,算法可以掌握任意一种情形,并自动匹配合适的模版。

 

最后,出版商或是人类编辑可能会根据故事的需要增加一些背景资料,让报道变得更有趣,在整个流程结束后,一篇完整的报道自动生成,即可发布。



《自动生成新闻指南》一文中的流程图

 

那么在这一套工作原理中,很清楚就能看出一篇成功的自动化新闻需要诸多前提,首先是题材上的局限,新闻题材必须是重复性的、事实型的报道;其次是非常高的数据要求,正如John在接受采访时所说,坏的数据会导致坏的报道。

 

自动化新闻需要清晰(clean)、准确(accurate)和结构化(structured)的数据。最后,成功生成报道还须有合适、有趣的样本文字,事先需要人工定义相应报道的模版样本。在以上三个前提都满足的情况下,跟人类相比,算法就拥有了大批量、快速、低成本、低错误率的优势。换句话说,算法的工作原理决定了算法在程式化、题材重复的新闻报道中,才有可能比人类更胜一筹。然而,即便以上的前提条件全部满足,算法也可能因为一些突发情况和数据质量的问题,产生意想不到的错误。

 

一个显著的案例是2015年3月,南加州的地震仪检测到了日本、阿拉斯加主要的地震信号,U.S. Geological Survey错误地将其报告为发生在加州的、震级范围从4.8到5.5的地震,这样的震级有可能会对当地造成严重的损害。不过幸运的是,警报是假的。地震没有发生,也没有人有所感知。尽管如此,由《洛杉矶时报》内部员工Ken Schwencke开发,并于2011年投入使用的Quakebot仍然发布了这三个假地震的报道。编辑相信了算法,并在没有核实信息是否准确的情况下就发布了报道。

 


 

作为地震领域自动化新闻的鼻祖和标杆,Quakebot的目标是尽可能快地获取地震信息。然而,在自然灾害报道领域,尽管速度是重要的,准确性更为重要。John Templon在谈到Quakebot时提到“这对自动化新闻来说,是一个两难的问题。”因为一方面,如果人工检查每个自动生成的新闻固然可以规避错误,但是这会大大降低速度,且大大削弱了自动化新闻的意义。但另一方面,如果导入了不准确的数据,则会产生较大的偏差甚至错误。

 

提升自动化新闻的准确性有两个方式。一是提高底层数据的质量。因为对于自动化新闻而言,保证准确性的一个重要的因素就是底层数据的质量。


John Templon介绍道,Narrative Science公司在处理数据的过程中设置了一个基本核实的环节,在这段时间内,报道会被反复核实、检查。此外,Narrative Science公司还设置了专门的核实工具以保证新闻故事的准确性。那么,一旦算法被启动,如果运行地很顺利并且每个环节都完美的话,算法就不会生成隐患。“因而最让人头疼的部分是数据。比如,如果API数据或者来自政府的数据本身就是低质量的或者是假的,那么就有可能最终导致假新闻。”

 

对此,John Templon给出的建议是保证算法的透明性,并及时向受众公布自动生成新闻错误的原因。“比如,你误报了一个地震,就应该及时告诉读者,今天下午12点15分,我们收到了来自地震局的错误数据,实际上地震并没有发生。你需要向你的读者解释为什么错了,这样才能继续获得大家的信任。”

 


 

第二个方式是进行实时的人工核实。John说:“一个检测地震警报正确性的简单方法就是查看相关的推特数量。一旦地面开始晃动。感受到的地震的推特用户就会迅速在网络上发布信息。”

 

2014年8月,当纳帕谷发生六级地震的时候,首条推特瞬间出现。推特的信源比官方的USGS警报快了好几分钟。因此,推特的数量也提供了检测地震预警是否准确的独立信源。

 

实际上,USGS的研究发现,推特的数据可以用来在地震发生20秒到2分钟的时间内,定位地震的发生地点。尤其对缺少地震仪设施的国家地区来说,推特被看作是比传统的、使用地震仪来感知地面移动的方式更快速的感知地震方式。为了配合地震预警,USGS现在在其官方推特@USGSted上发布每分钟生成的、不同语言的、包括“地震”词藻的推特数量。Quakebot生成的假警报,无一例外@USGSted都没有可以推送的相关推特。而真真切切在日本发生的地震,@USGSted在发布地震警报的同时,每分钟推送了56条相关推特。《洛杉矶时报》的记者本可以看一看这些信息再决定是否要发布新闻。

 

尽管自动化新闻已然成为当下传媒界最热门的话题,或许John的诸多观点能让我们更理性地窥探这一新兴领域的全貌。

 

注解:


哥伦比亚大学新闻学院数据新闻研究中心Tow Center于2016年年初发布的研究报告《自动生成新闻指南》(Guide to Automated Journalism)对新闻机器人做了如下定义:

 

Automated journalism—also referred to as algorithmic1 or, somewhat misleadingly, robot journalism2—works for fact-based stories for which clean, structured, and reliable data are available. In such situations, algorithms can create content on a large scale, personalizing it to the needs of an individual reader, quicker, cheaper, and potentially with fewer errors than any human journalist.


该文献将新闻自动生成技术的应用定义为“自动化新闻”(Automated Journalism)或“算法”(Algorithms),而“机器人新闻”则被认为是模糊和误导性的称谓。哈佛尼曼学者Celeste LeCompte的研究报告《新闻编辑室里的自动化进程》也将新闻自动生成技术统称为“自动化新闻”或“算法”。

 

刺猬君曾经专访过BuzzFeed深度调查部主编Mark Schoofs,特别感谢Mark Schoofs为此次专访牵线搭桥。

 

本文部分内容摘自作者本科毕业论文《自动化新闻的可读性研究》


 

相关阅读:

 

调查报道记者们,这仍是我们的黄金时代|独家对话BuzzFeed深度调查部主编

 

 

参考资料:


[1] Jonathan Holmes. AI is already making inroads into journalism but could it win a Pulitzer.http://www.theguardian.com/media/2016/apr/03/artificla-intelligence-robot-reporter-pulitzer-prize. 2016-04-03


[2] Project Leader: Andreas Graefe. Guide to Automated Journalism. Columbia Journalism School Tow Center for Digital. 2016.1

http://towcenter.org/research/guide-to-automated-journalism/#citations


[3] Celeste LeCompte. Automation in the Newsroom——How algorithms are helping reporters expand coverage, engage audiences, and respond to breaking news? 


[4] Lewis S L. Physics and chemistry of the solar system.北京:北京大学出版社,2014.1~2


[5] Project Leader: Andreas Graefe. Guide to Automated Journalism. Columbia Journalism School Tow Center for Digital. 2016.1

http://towcenter.org/research/guide-to-automated-journalism/#citations


[6] Nine top Trends in Newsrooms of 2015.

http://blog.wan-ifra.org/2015/06/02/nine-top-trendsinnewsrooms-of-2015


[7] “AP, NCAA to Grow College Sports Coverage With Automated Game Stories,” Associated Press, 4 March 2015,

http://www.ap.org/Content/Press-Release/2015/AP-NCAA-to-grow-college-sports-coverage-with-automated-game-stories


[8] Ehud Reiter and Robert Dale, Building Natural Language Generation Systems (Cambridge: Cambridge University Press, 2000); Dörr, “Mapping the Field of Algorithmic Journalism.”


[9] Alexander Siebert, “Roboterjournalismus im Jahre 2020—Acht Thesen,” The Huffington Post, 8 August 2014, http://www.huffingtonpost.de/alexander-siebert/roboterjournalismus-im-jahre-2020—acht-thesen_b_5655061.html.

 





新锐观点 前沿情报

内容产业第一报道平台

原创出品 授权转载

合作、转载事宜请联系微信号yunlugong

微博 @刺猬公社

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存