查看原文
其他

智媒时代的新闻生产:自动化新闻的实践与思考

2017-07-19 许向东 郭萌萌 国际新闻界

智媒时代的新闻生产:

自动化新闻的实践与思考


作者

许向东,中国人民大学新闻学院副教授,中国人民大学新闻与社会发展研究中心研究员。

郭萌萌,中国人民大学新闻学院2016级硕士研究生。


本文为国家社科基金项目“我国数据新闻的理念、实践及其人才培养模式研究”的阶段性成果之一,项目批准号:16BXW018


2016年里约奥运会对于体育界来说是各国运动员同台竞技的盛会,而对于新闻界则是自动化新闻大显身手的良机。在奥运会开幕之前,《今日头条》就研发出了一款写稿机器人Xiaomingbot,通过对接奥组委的数据库,实时撰写新闻稿件。腾讯财经继续发力,其Dreamwriter在奥运会期间发布了3000多篇报道。而美国《华盛顿邮报》采用的是Heliograf,该软件第一时间从运动数据公司stats.com采集相关信息,几秒钟即可生成并在Twitter上发布一条新闻,每天可以生成实时报道数十条(李骏,2016)。


一、自动化新闻在国内外的变革历程

技术创新给新闻传播带来的变革从未停止过。人工智能与大数据技术进入新闻生产领域,带来了新闻发展的新模式。Web2.0之后媒体变革的起点是移动互联网,但它更大的趋向是媒体智能化或智媒化(彭兰,2016)。自动化新闻正是新闻生产智能化在现阶段的体现。


(一)自动化新闻在国外的发展


目前,国外一共有11家公司负责为不同国家的新闻产品提供自动化内容生产的技术支撑,包括德国的AX Semantics,Text-On,2txt NLG, Retresco,Textomatic;美国伊利诺伊州的叙事科学公司(Narrative Science)和北卡罗来纳州的自动化洞察力公司(Automated Insights);法国的Syllabs和Labsense;英国的Arria;俄罗斯搜索引擎Yandex主要应用于撰写天气和交通报道。7家公司以一种语言提供内容,其余4家则提供多种语言服务。例如,德国公司AX Semantics提供多达12种语言的自动内容创建(Dörr,2016)。自动化撰稿软件主要用于以数据为基础的程式化报道,而新闻编辑室大多缺乏开发自动化写作软件的资源和能力,因此,新闻媒体会和上述技术公司在自动化新闻生产领域展开合作。


(二)自动化新闻在国内传媒领域的应用 


自动化新闻在我国新闻传媒界起步较晚,但在传统媒体和新媒体上均取得了进展。目前主要有四家媒体在进行自动化新闻的实践,分别为腾讯财经的“Dreamwriter”、新华社的“快笔小新”、第一财经的“DT稿王”和《今日头条》的“Xiaomingbot”。


2015年9月,腾讯推出自己的新闻写作机器人“Dreamwriter”,发布国内首篇自动化新闻《8月CPI同比上涨2%创12个月新高》。同年11月,新华社推出的“快笔小新”,主要“供职”于体育部、经济信息部和《中国证券报》,负责撰写体育赛事报道和财经新闻。2016年5月,阿里巴巴与第一财经联合推出“DT稿王”,在媒体、金融、电商、政府、体育、法律等需要基于逻辑写作的领域发挥作用。2016年8月,《今日头条》研发出了一款机器人(Xiaomingbot),这是一个基于文字直播数据进行新闻生成的系统。依靠先进的机器学习算法,该系统能够实时地从文字直播数据中进行语句筛选与融合,从而在体育比赛的任一时刻生成高质量赛事报道(刁毅刚、陈旭管,2016)。 


腾讯Dreamwriter从2015年9月面世至今,已经经历了四个版本的迭代,目前,Dreamwriter正处于第五个版本的探索阶段,主要致力于开发大数据服务新闻生成和机器人智能算法写作。新华社“快笔小新”已经可以采集多位金融专家的微博,动态关注并采集他们发表的相关言论,对其相关内容进行关联分析,分析结果作为素材供编辑记者采写深度稿件使用。下一阶段将结合UGC新闻来源认证技术,逐步提高机器人采写UGC新闻的范围,更好地为编辑记者服务(熊立波、钟盈炯、林波,2016)。


二、自动化新闻的生产方式与生产流程

自动化新闻指的是在新闻生产过程中“在没有或者有限的人类干预下,由预先设定的程序将数据转化为新闻文本的自动算法过程”(Matt Carlson,2015)。 


(一)自动化新闻的生产方式


自动化新闻中常提的“机器人”实际上是一种稿件自动生成软件,通过软件应用实现机器取代人力,提高发稿的速度和数量。 


目前,自动化新闻的生产方式主要有三种:一是利用结构化数据生成稿件。在掌握大量整合好、便于计算机读取的结构化数据的基础上,参照行业专家提供的计算公式、判别规则,在预先设置的新闻模板中生成新闻稿件,这种方式主要用于财经报道、体育报道和医疗卫生报道等;二是在挖掘用户数据的基础上生成个性化稿件。对用户的阅读内容、阅读习惯等进行分析、挖掘,或者根据受众自定义的标签,将同一内容的信息整合成多篇角度不同、风格迥异的稿件,为用户推送个性化产品,增强用户黏性。三是利用记者数据模型智能化生成稿件。将采集到的文字、图片、语音、视频等素材以及其他背景资料,与某个记者的数据模型相结合,通过软件运算自动生成符合该记者风格的稿件。 


虽然现在的自动化新闻生产基本上是一种“人工模板”+“自动化数据填充”的模式,但是,随着科技的发展,自动化新闻就有可能在新闻敏感、情感表达、深度分析及选题发现等方面日渐成熟。


(二)自动化新闻的生产流程


新华社“快笔小新”的写稿流程可以分为三个环节:一是“采集清洗”,依托大数据技术对数据进行实时的采集、清洗和数据的标准化;二是“计算分析”,根据业务的需求设计相应的算法模型对数据进行实时的计算和分析;三是“模板匹配”,根据计算和分析的结果选取合适的模板生成CNML(中文新闻信息置标语言)的稿件,并自动写入到待编稿库,编辑审核后再进行签发。


腾讯Dreamwriter的写作流程主要包括五个环节:首先通过购买或自己创建数据库;然后让Dreamwriter学习数据库内的各项数据,并生成相对应的写作手法;接着针对与数据库相关联的新闻事件进行报道写作;审核完成的稿件;最后发布到用户端。《今日头条》Xiaomingbot的工作原理是结合最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。“DT稿王”则是利用文本解析和信息抽取技术实现信息的自动抽取,再采用机器学习算法,并融合第一财经编辑记者团队的经验、智慧,以模板和规则知识库的方式,根据实时抽取的信息做出判断,输出相应的模板及规则知识库内容从而产生新闻。 


尽管以上4家媒体在自动化新闻的生产流程上略有差别,但在生产流程的关键环节还是有相同之处:


第一步,采集撰写新闻稿件所需要的各种数据。依据关键词、时间或数据指标等,通过应用数据抽取和挖掘技术,采集与报道客体相关的资料以及有关用户的各类信息。 


第二步,对数据进行结构化处理和分析。针对所获得的数据进行优化分类,通过结构化处理形成高质量的结构化数据,进而对结构化数据进行抽取、计算、统计和分析,发现其中的变化和趋势,将运算结果与已经设定的新闻标准进行比对,以确定报道选题。 


第三步,判定新闻价值,提炼报道选题。通过剖析各种数据的内在关联性,结合用户(受众)数据所呈现的新闻消费模型,人工智能会提出一些建设性的创作意见,写作软件在这些基础上判定新闻价值和提炼报道选题。在这一过程中,可能需要人工的协助。 


第四步,运用算法,套用已有模板生成规范的新闻稿。美国自动化洞察力公司的Wordsmith平台拥有3亿种新闻写作模板,通过专利语言来建立各种各样的业务算法,这些算法决定每篇新闻报道的选题是什么、语气和语调、写作形式,以及如何 运用词汇生成最终文章(郭苏妍,2014)。 


第五步,对自动生成的新闻稿进行润色。自动化新闻在发布前需要润色、审核,以增强稿件的“温度”,目的就是让算法生成的枯燥文字变得更加可读。有的算法会在报道文本的生成过程中加入随机因素,选择多种复杂的叙事语气(如“冷漠的”、“自信的”、“悲观的”和“充满激情的”等)以让文本显得更多样。有的算法能根据主语的单复数而配套使用相应的动词形式,或者变换使用同义词,从而使文本读来不那么枯燥(邓建国,2016)。


三、自动化新闻的传播优势与局限性分析

新闻生产是一种极富“专业性、创造性”的智力活动,尽管自动化新闻生产有着明显的快速、准确和针对性等优势,但其在报道题材、可读性以及解读性等方面也存在着一定的局限性。 


(一)自动化新闻的传播优势分析


技术是推动传媒业向前发展与革新的动力,技术发展所要解决的主要是实践应用层面上的效率问题,从媒介技术的角度而言,就是解决如何以最方便、最灵活、最快捷、最经济、最有效的手段和方法提高信息生产与传播效率问题,它的内在逻辑是技术理性或工具理性(郭庆光,2011:117-118)。建立在人工智能和大数据挖掘技术的基础上的自动化新闻,正是新闻生产与传播效率提升的体现。


首先,自动化新闻加快了新闻生产的速度和总量。在报道事实性新闻时,媒体最需要的就是速度。特别是在突发性事件报道中,时效性决定了新闻报道的价值和影响力。高速的计算加上预先设置的模板,自动化新闻几乎可以实现同步播发。2016年里约奥运会期间,《今日头条》Xiaomingbot完成一篇稿件的时间约为2秒左右。另外,新闻传播界普遍认为:自动化新闻在新闻总量中所占比重将会越来越大。产生这种认识的原因主要有两点:一是由于撰写软件在稿件生产上的高效性,将会大幅度提高新闻报道的总量;二是随着大数据时代的到来,我们的生活将日益数据化,这就为撰稿软件的运行提供了丰富的内容资源。


其次,自动化新闻拓宽了新闻报道的范围。自动化新闻实际上是通过程序软件的运算来发现新闻的,它能从海量的数据信息中挖掘出具有新闻价值的话题。《洛杉矶时报》的Quakebot可以报道地震探测仪探测到的所有地震,而记者通常只报道超出一定震级或造成重大伤害的地震,自动化新闻生产则突破了人的视野以及时间和精力的限制,大大延伸了报道范围。尽管受众可能会对某些报道关注较少,但从总体上还是增加了网络流量。 


再次,自动化新闻提高了稿件的质量。只要数据正确,算法科学且正常运行,自动化新闻的生产就能够避免出现诸如拼写错误、计算错误、事实要素不全等差错,与记者相比,更能够保障新闻信息的准确性。众所周知,现在的自动化新闻主要应用的是数据挖掘和人工智能技术,囿于目前的技术水平,主要限制在以结构化数据为基础的新闻稿。随着技术升级,结构化和非结构化数据信息都可以成为素材,创作出内容更丰富、逻辑更合理,更有人情味的、高质量的新闻报道只是时间问题。


最后,自动化新闻可以有效地生产和推送个性化信息产品。一方面,自动化新闻的应用程序在分析现有媒体报道的基础上,可以计算出社会普遍关注的话题,并能够自动将其分门别类,进而有效地提升内容生产的针对性。另一方面,媒体的传播效果只有在和受众的互动中才能实现。受众群的分化意味着相同的信息会被不同的受众以不同的方式解读,相同信息的不同解读方式也可以满足不同受众的“口味”。因此,只有加强对受众的阅读倾向和兴趣点的分析,才能解决“众口难调”的问题,这个计算量是巨大的,超出了人工能力,而这恰恰是基于大数据技术的运算程序所擅长的。


(二)自动化新闻的局限性 


目前,自动化新闻主要集中于财经报道和体育报道,新闻产品也主要是那些标准化程度较高的消息、快讯等新闻体裁。尽管自动化算法可以提供有关正在发生的事件的信息,但是它们无法解释该事件为什么发生(Lazer,2014)。这也就说明,建立在数据分析基础上的自动化新闻,有时候得出的结论可能是没有意义的,受众仍然需要包含逻辑和解释说明的有效信息(Latar,2015)。即为受众提供某些事件或现象的深度报道,或帮助受众提炼出独到的观点。


与记者采写的新闻相比,尽管自动化新闻比记者报道更可靠、更具专业知识,但在可读性方面,记者报道比自动化新闻更具优势(Graefe et al,2015)。通过标准化程序生产出来的新闻作品更多的是客观叙述,很难表达复杂感情,语言也枯燥乏味。新闻报道离不开语境,单纯客观报道新闻而缺乏必要的解释和背景资料,有时会引发受众对新闻内容的误解。


自动化新闻需要庞大数据库的支持,只有实力雄厚的媒体才能拥有体量巨大、类目齐全的数据库。此外,自动化新闻生产需要结构化和机器可读格式的高质量数据,如果缺乏数据库或者数据质量无法保证,自动化新闻生产也就无从谈起了。 


像任何其他模型一样,用于生成自动化新闻的算法依赖于数据和假设,这两者都可能带来偏差和错误(Lazer et al,2014)。2015年7月的一篇关于Netflix公司第二季度财报的自动化新闻就出现了错误。事实证明,自动化新闻同样存在报道失误的风险,而并非万无一失。


相较于人工的新闻生产方式,自动化生产出来的新闻在报道视角、创造力和思辨性等方面存在短板,但人工智能处理数据的效率优势是记者编辑所无法比拟的。物联网的发展和传感器的应用将会为新闻媒体提供更多的大数据挖掘的时机,或许这将有助于扩大自动化新闻的发展空间;或许在未来的新闻生产流程中,机器帮助我们发现选题,机器帮助我们拓展报道的广度、深度,机器帮助我们提炼规律,预判内容的传播效果,反过来指导我们写作的起点(彭兰,2016)。


四、自动化新闻对传媒业的影响

近些年,智能化不仅体现在媒体平台的建设上,而且深入到了新闻生产领域。根据梅赛尼的研究,技术引发社会变革有两个途径:创造新机会和产生新问题。前者引发产业结构和社会结构的变化,后者推动新的制度转型(郭庆光,2011:119)。智能化技术在提升新闻产品质量的同时,也推进了新闻传播行业的变革。这种变革不仅将对传统的新闻生产机制、新闻传播理念产生影响,而且对媒体人的职业发展方向、受众和社会舆论都将产生深远影响。 


(一)记者的专业技能和职业分工将有改变


就常规性、重复性报道而言,记者难以在速度、准确性上与自动化写作软件匹敌。面对自动化新闻,记者们会高度重视分析能力、个性化、创造性以及写作复杂句子的能力,而不是真实性、客观性、简洁化和时效性,当常规的报道可以被自动撰写,记者们可以在深度报道上花更多时间(Dalen,2012)。因此,从积极的一面看,自动化新闻解放了记者,让他们去报道不那么“机械”的新闻;从消极的一面看则可能引发媒体裁员越来越多,以及新闻写作的商品化(Carlson,2015)。在未来的新闻行业里,记者和人工智能形成“人机联姻”的生产模式,算法用于分析数据、发现有趣的故事并提供初稿。随后,记者将通过深入分析、采访重要人物以及幕后故事完善报道。


此外,对于那些仅仅只报道常规性内容的记者,自动化新闻凭借快速、准确的优点,可能会取代他们的地位,但自动化新闻建立在算法的基础上,对于开发新的新闻写作算法同样需要人力资源,从这一方面看,自动化新闻软件在取代一部分新闻记者的工作的同时,也会产生一些新的职业岗位,记者将在新闻生产过程中扮演新的角色。例如,美联社聘请了一个自动化新闻编辑,工作内容是确定可以自动化的内部程序。


(二)受众开始关心内容生产的科学性和透明度 


尽管受众无法辨别人工写作的内容和软件写作的内容,但受众依然关心撰稿软件的写作质量如何,与人工写作相比会有多大的区别。有研究显示,尽管撰稿软件生产的内容是描述性的、乏味的,但同时也被认为是客观的。人工写作在内容的清晰易读上具有优势,但在可信度、信息量和客观性方面比不上撰稿软件(Clerwall,2014)。此外,不管是否被告知稿件是由人工或软件编写,受众对稿件的专业度和信任度的评价并无明显的差异(Kaa&Krahmer,2014)。机器算法透明度也是受众关注的问题,包括自动化新闻算法的目标和意图是什么,谁开发和控制这些算法,谁对这些内容负责,最终产品在发表前是否有人工编辑审阅等。技术哲学家J·M·斯塔迪梅尔认为,脱离开人类背景,技术就不可能得到完整意义上的理解……设计、接受和维持技术的人的价值与世界观、倾向与既得利益必然将体现在技术身上(高亮华,1996:14-15)。


尽管数据是客观的,但在算法设计的过程中,可能牵涉设计者的倾向与利益取向,这就关系到自动化新闻生产的科学性和透明度问题。因此,媒体首先需要更好地了解受众对算法透明性的要求,以及如何将公开的信息用于公众利益。其次,需要找到披露信息最好的方式,不影响用户体验,特别是那些对这些信息不感兴趣的人(Diakopoulos,2015)。 


(三)新闻媒体将面临披露源数据的压力 


自动化新闻对新闻媒体来说既是机遇也是挑战。由于自动化新闻有助于减少生产成本、增加发稿量,就有可能被应用于更具挑战性的选题。而当自动化新闻涉及批评性报道时,数据的准确性、内容的质量以及程序的透明度将变得更加重要。新闻媒体在自动化内容生产中需要考虑源数据、数据处理和最终输出有关的问题(Kent,2015)。因此,新闻媒体需要确保有权修改和发布源数据。在数据处理阶段,如果基础数据或处理它们的算法包含错误,撰稿软件可能会产生大量错误的报道。


此外,新闻媒体还必须通过添加有关数据来源的信息、内容的生成方式来证明 该报道是自动生成的,以保证最低级别的透明度。为此,美联社关于企业财务的自动化新闻在文末都会标注报道的生产者和数据来源。但是,新闻媒体仅仅说明文章是由软件生产的是不够的,特别是涉及到批评性或争议性的话题,受众对透明度和问责制的要求可能更高。当出现错误时,新闻媒体可能会面临公布源代码的压力,他们应该解释报道是如何产生的,而不仅仅强调内容是由“机器生成的”(Kent, 2015)。


(四)对社会舆论的形成产生负面影响 


自动化新闻的一个优势是生产出个性化内容来满足个体受众的信息需求。如前所述,自动化软件通过抓取、分析受众在互联网上的浏览痕迹,并建立一种不断完善的跟踪、预测机制,就可以有效地推测出受众的阅读偏好。据此,媒体可以应用撰稿软件生产出个性化的内容,并通过智能推荐或智能排序推送至受众面前。受众所获取的信息只是媒体想让他们获取的,并且是媒体认为这些信息正是个体受众所需要的。如此一来,受众就被人为地与其他信息隔绝开,沉浸在自己偏好的信息世界里,形成“过滤气泡”(Filter Bubble)。


换句话,“算法”只提供受众喜欢阅读或认同的信息内容,导致个人消费越来越多的同类信息,以至个体受众不太可能阅读到与其意见相左的信息或观点,社会上不同声音之间的沟通交流日趋减少,社会言论也越来越单一。“算法”让“过滤气泡”现象更加严重,给社会舆论的健康形成带来风险(Pariser,2011)。因此,新闻媒体在憧憬自动化新闻为自身的发展带来转机的同时,也要时刻提醒自己,不能置受众于信息和交流的孤岛之中,而要多渠道获取和发布信息,帮助受众跳出“过滤气泡”的禁锢,营造健康、多元的社会舆论环境。


五、结语


内容生产、传播平台以及受众行为的智能化等趋势在不断推进着传媒业在智能化发展方面寻求新的竞争优势。把机器或者程序能做的交给机器和程序,从而把人力解放出来,去从事具有创新要求和需要发挥想象力的工作,这是自工业革命以来自动化革命的基本理念(金兼斌,2014)。印刷术的发明将人类从繁重的抄写工作中解放出来,让信息的大量复制与传播成为可能。智能化开始进入新闻信息的采集、分析、写作等环节,正逐渐改变现有的生产模式。一旦确定算法,从收集和分析数据,到撰写和发布新闻,新闻生产的每个环节都可以自动完成(Graefe et al,2016)。 


媒介本身才是真正有意义的讯息。换个容易理解的说法,即人类有了某种媒介才有可能从事与之相适应的传播和其他社会活动,因此,从漫长的人类社会发展过程来看,真正有意义、有价值的“讯息”不是各个时代的传播内容,而是这个时代所使用的传播工具的性质、它所开创的可能性以及带来的社会变革(郭庆光,2011:120)。自动化新闻不仅将改变新闻的生产方式,还将改变我们的文化生活。



本文系简写版,参考文献从略。原文刊载于《国际新闻界》2017年第5期。

图片来源于网络

(本期执编:毕格菲斯)

订阅信息


全国各地邮局均可订阅《国际新闻界》,国内邮发代号:82-849,欢迎您订阅!


您也可访问《国际新闻界》官方网站  http://cjjc.ruc.edu.cn/ ,免费获取往期pdf版本。


此外,编辑部还存有少量过刊,如需购买可添加【国际新闻界客服君微信(guojixinwenjieqikan)】咨询。




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存