张津瑜厕所门事件 8分钟视频9分52秒流出

【少儿禁】马建《亮出你的舌苔或空空荡荡》

母子乱伦:和儿子做了,我该怎么办?

快消管培生补招|世界500强雀巢惠氏招聘客户发展管培生!简历直投HR邮箱,一周内回复

除了坚决支持,不知道如何表达。

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

原理、现状与局限:机器写作在传媒业中的应用

何苑 张洪忠 新闻界 2022-08-15


作者 | 何苑  张洪忠

标题 | 原理、现状与局限:机器写作在传媒业中的应用




 摘要   本文对机器写作的工作原理与现状进行分析后认为,当前机器写作主要集中应用在体育、财经、犯罪、自然灾害等容易生成格式化快讯的领域,并与真人记者相比表现出了明显优势。但目前的机器写作还不是真正的写作,机器写作无法采集到线下事实,只能按照“人”设定的模块来写作,只是一个基于算法的依赖互联网大数据来源的写作工具。最后本文指出新闻人要善于利用机器写作这个新工具以顺应技术和行业变化。




一、问题的提出 

1921年,捷克作家查佩克(Karel Čapek)创作了风靡欧洲的舞台剧《罗森的万能机器人》。剧中原本服务于人类的人造仆人“Robota”在意识到自己优于人类的智慧和能力后发起了暴动,试图取代人类成为主人。该剧让“机器人”这个概念第一次进入了人们的视野,原本代表“奴隶、仆从、劳工”的捷克语单词“Robota”随后也简化成了英语中机器人的名称“Robot”。一直以来,“机器人”题材的文学和影视作品中无不体现着人类对科技与未来既满怀向往又充满警惕的矛盾情感。从中反映出的既有对人类“造物主”身份的反思,也有对人机关系的想象与恐惧。

当前“机器写作”在新闻领域已经取得了初步的应用成效,最近三年来各大新闻媒体纷纷与科技公司合作推出自己的“写稿机器人”,在我国最典型的是2017年一条机器写作的“地震信息播报”引来传媒业界的普遍关注,引起了业界和学界像当年对《罗森的万能机器人》似的广泛讨论。机器写作究竟对新闻传播业界会产生多大的影响和在哪些方面产生影响都有不同看法,有持乐观态度的,也有持悲观态度的,还有观望态度的。对乐观者来说,技术引导传媒业的发展是大势所趋,机器在数据处理上的精准度和感情上的中立性在某些报道上比人工报道更能保证新闻的可信度。 [1]此外也有人认为,机器写作能使记者从枯燥而耗时巨大的基础编辑工作中解放出来[2] ,这不但是对人类劳动力的解放[3] ,更能降低新闻生产的成本,能对媒介经济市场产生巨大影响[4] 。对于悲观者来说,机器写作的新闻是没有“温度”的,“很可能在昙花一现之后,优雅地死掉” [5] ,而大数据造成的个人隐私泄露与数据伦理问题才是值得警惕的问题[6] 。更有甚者认为“机器写作”和许多发展中的人工智能技术一样,正令人类“望其项背”并会导致众多传统职业的消亡。[7]

不管持乐观还是悲观的看法,这些观点共同认可的一点是机器写作已经成为现实。但要对机器写作的影响做出准确判断,需要建立在对机器写作的工作原理与现状发展有清晰认识基础之上,目前还很缺乏这方面的研究。本文尝试对机器写作的技术原理、发展状况与局限进行梳理,以期为人们正确看待这一技术为新闻行业带来的影响提供参考。




二、机器写作的技术发展基础

机器写作又可以说是机器新闻(Robot Journalism),这实是一种拟人化的说法,更确切的名称应当是“自动化新闻”(Automatic Journalism),指的是运用算法,将数据进行加工处理并转化成叙事体新闻文本的方式。[8] 在这个过程中进行写作的并不是有形的机器人(Robot),而是计算机程序。

当前大数据、云计算和不断迭代的算法三大技术的快速突破正在推动人工智能进入“井喷式”创新阶段。[9] 在一定程度上可以说,作为人工智能在传媒业中应用的机器写作是算法技术迭代和伴随着互联网发展而来的大数据的共同产物。算法与大数据作为机器写作的技术基础可以用几个依赖互联网发展的关键词来追溯:信息聚合、推荐算法、社会化媒体、信息结构化、内容生产。

机器写作的互联网应用来源可以追溯到2001年谷歌的个性化新闻推荐(Google news recommendation),它通过在自身门户网站上聚集来自数千家信息源的新闻报道,在将相似新闻分组后,基于活跃用户的点击历史和更大社区历史信息,以个性化的方法为登录用户推荐他/她可能感兴趣的新闻。[10] 大数据的“信息聚合”与“推荐算法”不但成就了谷歌新闻在门户网站时代的领先地位,在Web2.0的社会化交流模式崛起后,它也促成了一批当红“新媒体”的诞生,其中包括兼具博客自主性与媒体共同性,基于读者兴趣、需求和点击率调整头版新闻内容的《赫芬顿邮报》,以及通过聚合大量新闻博客内容,为订阅者了解网络热门事件提供便利的新闻聚合类网站Buzzfeed。它们遵循的共同准则是:追逐人群和用户的注意力。

社会化媒体的普及对新闻业影响之一是拓宽了新闻线索来源,新闻线索的获取从“事件现场”扩展到了社会化媒体平台,并由此诞生了Newswire等实时监测和收集突发新闻的监测工具,其受益者就有Storyful等对网络热点新闻进行筛选、加工后分发给新闻媒体的社交网络通讯站。在这一时期,虽然算法实现了对社交网络上海量内容的聚合与热点监测,但是它分发给媒体的新闻并不是计算机程序自动生成的文本,而是人工编辑按照一定标准进行了二次筛选的内容。同时,由于网络信息具有数量庞大、真假难辨等特点,诞生了基于算法的专业新闻校对和审核工具,例如路透社2008推出的校对机器人Open Calais和《华盛顿邮报》的新闻核查机器人Truth Teller。

真正意义上实现自动文本生成,并在新闻领域投入使用的是《洛杉矶时报》2007年起开辟的“凶杀案件”类报道生成系统,以及始于2011年的Quakebot地震报道“机器人写手”。同期, Narrative Science公司开始利用算法和数据生成财经和泛地产报道。Automated Insights公司也开始开发自然语言生成平台Wordsmith。2014年这一应用凭借其与雅虎、美联社和Edmunds.com等机构合作产出大量体育新闻、财报和汽车广告而声名大噪。在自动文本生成的机制中,除了对大数据的监测、收集和分析外,对文本内容的精细化切割、结构化处理、对关键信息的迅速提取和精确匹配也是决定性的因素。并且,由于这一阶段人类在机器深度学习上方面取得了巨大的进步,“机器写作”在把数据转化成文本的过程中已经基本可以脱离人工干预(除了编程阶段外)。至此,该技术才算是取得了质的飞跃,成为人工智能在自然语言生成领域的一项相对成熟的应用。

从“算法”与新闻工作产生联系到“自动化新闻”成功投入使用的发展历程可以看出,“写作机器人”其实并不是像“科学怪人”一样偶然被赋予了生命的“异种”,而是在前人研究发现基础上,经过一步步的积累和不断向前推进才积累成的阶段性科技成果。从信息聚合到信息源和热点话题监测,从文本解析、规则学习到自动信息抽取和匹配,缺少了任何一步技术积累的机器写作都不可能具备如今的表现。




三、“机器写作”的工作原理

机器写作的工作原理可以依次用霍尔的解码、译码和编码说法来对应理解。

“解码”环节对应了数据的获取与切分。与传统新闻写作不同的是,“机器”不需要去到事件现场进行采访,而是从数据库中去抓取现成的信息作为写作素材,暗网之外的互联网新闻网站、社交媒体等数据都可以成为机器写作被抓取的数据来源。但是,这与“弱人工智能时代”[11] 的信息聚合方式又有所不同,因为它需要更加详实、细致的“颗粒数据”(granular data)。数据是新闻内容的来源,而“颗粒式数据”更加有利于程序进行抓取和分析,以便对数据进行后续的关联与“重组”。

在“译码”环节,机器需要做的是去理解已有的数据:写作素材和写作模板。这也是机器对自然语言进行学习的过程。在人类学习一门新的外语时,常常需要借助例句和练习来理解词或短语的用法。例句可以让学习者建立对该词或短语使用规则的直观认知,在有了这种认知之后再尝试去对去掉了关键部位的句子进行“复原”联系则可以强化对语言结构的理解。通过反复学习和练习,学习者能够达到举一反三甚至脱离例子自行创作的水平。机器学习的原理与此相似,但更为复杂。在学习过程中,机器需要的是切割得更加精细的“颗粒”数据以及更加丰富的写作模板。通过将信息量化和结构化成具有关联性的数据颗粒的集合,机器能够对每个元素在整体文本扮演中的角色和各自的权重进行标注,发现它们之间组合的规律。模板则像例句一样,里面预先指定了可用特定数据进行填充或替换的“空位”。投入大量的模板进行训练可以为“颗粒数据”提供更加丰富的应用语境。

经过了“解码”和“译码”两步之后,“编码”的工作就是让机器按照写作题材和匹配原则搭建出合理的模板,并与恰当的数据进行关联以生成文本。人类其实早就开始利用模板进行机器写作,最常见的例子就是发送电子邮件时在文末自动套用的个性签名及祝福语等信息。互联网在民用领域兴起后,利用模板生成的“半自动化”文本很早就实现了大规模的商业化应用,例如在EDM营销(Email Direct Marketing)和CRM客户关系管理软件中就提供批量生成邮件并进行发送的服务:操作者可以借助程序将客户信息(姓名、订单信息等)插入到指定主题的邮件模板中并一次性发送给大量的目标人群。与之相比,“机器写作”的智能之处在于它生产的文本并不是对模板的刻板套用,而是凭借算法和模板规则将被打散的数据重新聚合起来,“还原”成一个整体。虽然在自动生成文本的过程中已经不再需要根据主题来人工匹配模板,语言的丰富性上也大有改观,但是由于模板本身是需要预先准备的,因此目前“机器写作”更适合用于报道计划性、周期性较强的事件,而在突发社会新闻这类不可预见的事件上还无法应对自如。

从“机器写作”在我国和国际上的应的现状和工作原理可以看出,该技术近十年来取得了很大的进步,目前已经适用于具备详实数据、预期性强以及语言使用模式化的领域。这也是目前它主要被应用于体育、财经、气象以及自然灾害等事件报道的原因。




四、机器写作的应用实践

机器写作技术在2014年开始取得长足进步,世界各地的新闻机构纷纷与技术公司合作或自己开发“写作机器人”。从当前机器写作在国际和国内实际应用情况来看,这一技术的应用主要集中在体育、财经、犯罪、自然灾害新闻等领域的快讯写作上,这些题材的共同特征是能够“借助结构化的格式和现成的数据信息自动生成文本内容”[12] 。简单说,就是“人”先设计好写作内容的格式,只需要机器搜索匹配相关内容到格式中,就像是做“填空题”一样完报道的写作。这类报道无论从写作的速度和数据处理精度上,“机器写作”与真人记者相比都表现出了明显优势。

但目前机器写作还无法生成对事件进行深度解析的“延迟性报道(delayed reward news)” [13] 。一方面机器写作无法采集到线下事实,只能从互联网上挖掘已有信息生成内容;二是机器写作只能按照“人”设定的模块来写作,并没有突破性的创造,一旦没有事先设计好的写作模块,机器写作是无法开展的。一句话,目前的机器写作还不是真正的写作。

具体应用上,财经类简报有相对固定格式并且数量大,是机器写作应用最多的一个新闻领域。2014年美联社开始全面使用WordSmith撰写财报,在无需增加人手的情况下将商业新闻中的企业财报数量由每季度300篇上升到了4400篇。2015年9月,腾讯的财经开发的“Dreamwriter”写出了我国第一篇由“机器写作”的经济报道《8月CPI同比上涨2.0% 创12月个新高》;同年9月,“快笔小新”开始为国家通讯社新华社供稿,可以通过简单的操作在3秒的时间内生成图文并茂的财报;2016年5月,阿里巴巴与第一财经合作推出主要针对公司财报、证券信息等报道的写稿机器人“DT稿王”。

体育新闻的快讯类也同财经新闻一样有相对固定格式,也是一个较多应用领域。这类事件发生的“周期性”明显,并且都需要在短时间(例如一个赛季)内进行高密度、延续性强的报导。在德国,“机器新闻”备受地方新闻机构青睐,2014年,汉堡电台等多家媒体就纷纷与科技公司合作推出了利用机器新闻报道地方足球赛事的产品;2016年8月,我国《今日头条》的Xiaomingbot在里约奥运会期间实时撰写了400余篇赛事报道。

时事新闻需要在事件发生周期(例如一次选举期间)内同步抓取与核心事件相关的大量数据并进行热点分析和判断,因此也是“机器新闻”大展拳脚之地。2015年,法国《世界报》和Syllabs公司合作用机器人记者实时报道了全国2000个多地区的选举情况;随后,《巴黎人》、《快报》法国电台等多家新闻机构都加入了使用写稿机器人报道地方选举结果的行列。2017年,《人民日报》的写稿机器人“小融”在两会期间对热点话题迅速进行了总结并抽取重点信息生成了报告摘要。

在自然灾害、气象信息或民生报导(例如地震)上,由于事件的发生时间通常是不可预测的,因此这类“机器新闻”的“事件性”触发特征更加明显,需要计算机程序在写稿之前对其具备的 “新闻价值”进行判断。例如,美国《洛杉矶时报》的机器人Quakebot会持续监测地震局发布的数据,并在振波强度超过6.0的时候生成报导并上传到博客。




五、机器写作的局限

“机器写作”对新闻传播领域的渗透已呈不可逆转之势[14] ,并且已经在应用层面上展示明显优势:它降低了记者的从业成本、提高了文章生产的数量和效率,并且能够保证引用数据和信息的准确性。但是,作为一项新发展技术,机器写作普遍使用的局限性也很明显。

首先,从技术角度上来看。由于自动文本生成对写作模板具有很强的依赖性,而预先备好的模板并不一定适合报道所有新闻题材,尤其是突发性新闻事件的应对上。因此“机器写作”目前适用的范围有限,它在内容结构化、语言模式化的文章类型上可以一展所长,但是遇到预期性差,对语言创造性和灵活性要求较高的题材时就会暴露出写作模板痕迹、语气生硬或用语重复等问题。尽管可以通过不断丰富模板和加强机器学习来进行改善,但是这个过程并不是一蹴而就的。

其次,从数据来源和性质上来看,由于“机器新闻写作”的素材是从网络上自动抓取的,因此最终生成的文章在事实性、合法性上都需要经过编辑的二次核查才能够进行分发。虽然机器在不受人工干预的情况下能够自动“产出”新闻,但是在新闻审核和分发的环节上仍然绕不开人力的监管。

第三,机器自动生成的报导在故事性和报导视角上还有待提高。在传统的新闻工作中,记者可能需要用多样化的信息来说明一个事件的前因后果,写出一篇有态度的报导。而目前程序、数据和量化思维擅长是对大量数据进行迅速地切分、分析、标注和结构化重组,机器尚无法替代人工取得一线的采访信息,也无法在缝合数据时体现叙事性和态度。

最后,“新闻价值”和“媒介伦理”也是“机器写作”在新闻领域备受争议的原因之一。[15] 在用传统方式产出新闻的时代,新闻伦理是衡量从业记者和编辑专业素养的重要标准之一,新闻对社会价值取向能够起到直接的塑造作用。对于“机器写作”来说,由于其对网络素材的倚重,它对新闻价值的判断标准也必然会受到热点话题和事件的影响。“算法理性”是否也在“追逐用户注意力”,是否会导致新闻话题的“极化”现象,是否会受到网络数据的影响而造成机器新闻中的价值观偏离?这些都是利用机器写作进行新闻生产中值得思考的问题。




六、结语

通过对机器写作的技术发展、工作原理和现状梳理可以发现,机器写作只是一个基于算法的依赖互联网大数据来源的写作工具,不具有《罗森的万能机器人》中全能机器人的效力。机器写作并非人类凭空创造出的一个拥有高级智慧的“异种”或是竞争对手,而是在一次次脚踏实地的实践和技术迭代中不断实现对自身能力的延伸和对传媒生产力的提升。目前的“写作机器人”与真人在思维能力和创造能力上还存在较大差别,它在实际的应用中也存在许多局限。因此,面对机器写作等新事物,新闻工作者面临的不是“被算法统治”的问题,而应当是“如何驾驭算法”[16] 。一方面新闻人应当不断更新自己的知识储备和新技能以顺应技术和行业的变化,另一方面更应该正确认识人与机器的“能”与“不能”——既要不惧时代变革,享受科技带来的便利,也要坚守新闻从业者的职业操守和伦理道德准则,用好机器写作这个工具。



滑动查看

参考文献



[1]郑琳.“机器新闻写作”下的新闻真实[J].新媒体研究,2017,3(22):86-87.

[2]匡文波.记者会被机器人取代吗?[J].新闻与写作,2017(9):59-62.

[3]Örnebring,Henrik. Technology and journalism-as-labour: Historical perspectives. [J]. Journalism,2010(1),57-74.

[4]Latzer Michael,Katharina Hollnbuchner,Natascha Just,and Florian Saurwein. The Economics of Alforithmic Selection on the Internet.In Handbook on the Economics of the Internet,edited by Johannes Bauer and Michael Latzer. [A]Cheltenham: Edward Elgar. 2016:395-425.

[5]机器人写新闻,记者去哪儿?[J].发明与创新,2014(8):18-19.

[6]曾振华.机器新闻写作带来的数据伦理问题[J].新闻与写作,2017(12):92-94.

[7]王鹏.我们只知大势将至,却不知未来已来[J].环境经济,2017(16):66-68.

[8]Carlson,Matt. The Robotic Reporter: Automated Journalism and the Redefinition of Labor,Compositional Forms,and Journalistic Authority. [J]. Digital Journalism,2014,3(3): 416-431.

[9]张洪忠.关注人工智能发展给新闻传播学研究带来的新课题[J].中国记者,2017(09):5.

[10]Dietmar Jannach,Markus Zanker,Alexander Felfernig,and Gerhanrd Friedrich. Recommender Systems. An Introduction. [M]. 2011. Cambridge: Cambridge University Press,2011. 13-40.

[11]徐桢虎.“机器写作”驱动智媒时代.[J].青年记者,2017(31):54-55.

[12]Podolny,Shelley. If an Algorithm Wrote This,How Would You Even Know?[N]New Yourk Times,2015-3-7. http://www.nytimes.com/2015/03/08/opinion/sunday/if-an-algorithm- wrote-this-how-would-you-even-know.html?_r=0.

[13]Kim Daewon,and Kim Seongcheol. Newspaper companies’determinants in adopting robot journalism. [J]. Technological Forecasting and Social Change,2017,(117):184-195.

[14]喻国明、刘瑞一、武丛伟.新闻人的价值位移与人机协同的未来趋势——试论机器新闻写作对于新闻生产模式的再造效应[J].新闻知识,2017(2):3-6.

[15]Thurman,N.,Doerr,K. &Kunert,J.When Reporters get Hands-on with Robo-writing: Professionals Consider Automated Journalism’s Capabilities and Consequences. [J]Digital Journalism,2017,5(10):1240-1250.

[16]Saurwein Florian,Just  Natascha and Latzer Michael. Governance of Algorithms: Options and Limitations. [J]Info,2015,17(6):35-49.







➤ 作者简介   何苑,北京师范大学新闻传播学院博士研究生;张洪忠,北京师范大学新闻传播学院教授、博士生导师,国家新闻出版广电总局“新闻出版大数据用户行为追踪与分析重点实验室”主任。

➤原文刊载于《新闻界》杂志 2018年第3期 21页至25页





《新闻界》杂志

唯一投稿渠道:www.ixinwenjie.com



全国中文核心期刊 丨 CSSCI来源期刊




- END -


往期精彩回顾


张志安丨2017年中国新闻业年度发展报告

迈克尔·舒德森:新闻学不是一个学科

陈昌凤丨黑箱:人工智能技术与新闻生产格局嬗变

展江丨江歌命案何以成为隔海打牛的“舆论审判”?

彭兰丨移动化、社交化、智能化:传统媒体转型的三大路径

蒋晓丽丨新闻游戏:一个属性的界定

被思想根源所遮蔽的新闻事实——渤海二号沉船事故报道的再审视

支庭荣丨“后真相”时代:话语的生成、传播与反思——-基于西方政治传播的视角

出版经济学的学理价值、研究维度与拓展空间

《新闻界》到底想干什么

媒介形态变迁与女性受众研究范式演进的历史与逻辑

物联网能否走向民主:隐私、劳动和环境的视角


文章有问题?点此查看未经处理的缓存