记者为什么需要学习人工智能 丨 编译

记者为什么需要学习人工智能丨编译

人大新闻系 RUC新闻坊 2019-04-16

面对迅猛发展的人工智能，记者要想让公众真正了解人工智能革命的全部潜力，就必须了解人工智能的基本原理，拥有一个更强大的知识库。今天RUC新闻坊为您编译了这篇来自《福布斯》杂志的文章，一起了解一下有关记者与人工智能的知识吧。

作者介绍：Latoya Peterson

Latoya Peterson是2013年福布斯杂志（Forbes Magazine）评选出的30位“30岁以下的精英”（由福布斯杂志于2011年起发起评选，旨在表彰上一年30岁以下在不同领域做出卓越贡献的30位青年才俊。——编者注）中的一位媒体人。她因博客“Racialicious”而著名，该博客主要关注种族和流行文化的交汇内容。此前，她曾担任ESPN旗下的The Undefeated栏目的数字创新副总编，Fusion的特约编辑，The Stream（美国半岛电视台的一家社交媒体驱动新闻节目）的资深数字制作人，以及2012-2013年度在斯坦福大学的奈特新闻奖学金项目的研究员（主攻移动技术和数字接入的研究）。她制作了一个关于女性玩家的YouTube系列专辑，目前正在开展包含VR、AR、机器学习和人工智能的项目。

人工智能是真正的黑匣子

记者们正在报道一种很难解释的现象，甚至对于人工智能这一领域的专家也是如此。更糟糕的是，大多数重要的对话都是闭门进行的。人工智能这一领域的许多重大进展都是专有的（意指是享有专利技术的——编者注），而公众常过度依赖于片面的企业新闻发布，这些新闻将股东利益最大化，并将风险降至最低。与此同时，能公开获取的信息则过于学术化，需要掌握该领域的深度知识才能解读执行摘要（executive summary，意指精简的商业计划书）以外的信息。

为什么记者了解人工智能至关重要？

在人工智能同时影响我们的新闻编辑室和社会之前，记者需要培养对人工智能的熟悉度。我们必须更好地解释这项几乎影响到我们生活方方面面的技术——从确定Netflix网站上出现了哪些电影，到我们是否有资格获得贷款。但为了提升熟悉程度，一个人需要有对那些使人工智能工作的基础设施有充分地理解，这些基础设施指提供系统支持和信息来源的数据集。

首先，数据集及其这些数据集是如何被收集、使用和损害的，这些都会影响系统的结果。这一点似乎显而易见，但即使是一个类似“这个人工智能模型的训练数据（training data）中有哪些信息?”的基本问题，答案也会很复杂。

例如，用于机器学习的一些最重要的数据集是由数百万张图像组成的。通常，程序员可以回答“数据来自哪里”或者“使用什么库生成结果”之类的问题。但是构成库的信息是什么呢?直到最近，这个问题仍旧很难回答。

训练数据需要大量数据才能使其工作，所以通常情况下，大部分库都从一些大型数据存储库收集和编译信息，比如谷歌图像或Flickr。虽然大多数地方都试图确保将输入的数据正确分类，但也可能会产生大规模的错误。

2015年，谷歌犯了一个广为人知的错误。软件工程师Jacky Alcine意识到谷歌照片的图像识别算法将黑人标记为“大猩猩”。“这是一个可怕的种族主义联想，但为什么会发生这样的事情呢?”人工智能领域的大多数专家都知道原因。幕后并没有种族主义工程师制造混乱。只是技术部门在训练数据时使用了更多大猩猩图片，而不是非裔美国人的图片。

解决这一问题仍然棘手：Wired网站发布了该事件的后续，谷歌采取了阻止图像识别系统识别大猩猩的措施，但仍没有解决核心问题。

值得一提的是，谷歌拥有一个来源于用户上传自己照片的数据集。而“大猩猩”事件仅仅是其中一个被发现和公开的错误。

人工智能存在的这些问题比我们想象的更常见，“Google People＋AI Research”团队开发了一个名为Facets的学习数据可视化工具的人工智能。目前开源的Facets能够使用数据并实现更清楚的信息可视化。在MoMA R&D沙龙上，研究人员Fernanda Viégas和Martin Wattenberg说明了该系统的天赋，以及它能够展现什么。

通过观察、研究Facets的行为，我们可以发现数据集里的错误和偏见。有些偏见是良性的。例如，绝大多数飞机是蓝色的，这一数据结果就会使系统在判断红色或银色的飞行物是否为飞机时，产生困惑。数据缺失、错误以及人与电脑在分类上存在分歧的地方也能轻易被发现。但是，一些偏见难以纠正，且会造成损害。在这个沙龙上，著名学者Kate Crawford将图片和新闻中潜在的偏见与AI中的分类错误联系起来，例如，为什么网络上最多标记面孔的数据集是78%的白人？

没有简单的结论

对人工智能的研究和理解还没有简单的结论，这些例子都仅仅是揭示了偏见系统广泛影响的表象。许多技术类和数据类记者已经投入于编程规则的学习，我也建议所有记者都应该开始学习计算和编程基础性的工作原理。

一名记者未必一定要成为一名程序员，或者掌握一门像Python这样的程序语言来做与AI相关的报道。一旦记者能关注开发人员是如何解决问题的，就将极大地促进对这些系统构建和设计方式的理解。这也将改善我们在报道这些议题时使用的框架，并增进我们对于这些系统最终将如何影响新闻编辑部的理解。

由于记者不了解人工智能工作的基础知识，我们会容易使自己的视野受到局限，或者使报道言过其辞。Fast.ai的联合创始人Rachel Thomas最近批评了《哈佛商业评论》（Harvard Business Review）的一篇文章（指作者发表的《为何哈佛商业评论弄错了算法和偏见》一文——编者注），并分享了一些适用于记者应如何看待人工智能的经验心得：

“媒体经常通过一系列人类与机器对抗的镜头来展现人工智能的发展：例如在某项任务上谁更能领先一筹。但这种表现框架对于大多数算法运用方式的展现是不准确的，并且也是一种非常局限的思考人工智能的方式。在所有情况下，算法都有人的组成部分，谁来收集数据（以及他们产生了什么样的误差），作出哪些设计决策，这些决策如何执行，如何使用结果来作出决策，利益相关者对于算法的正确使用和局限的理解等等，都需要人的参与。”

理解机器学习以及人工智能有很多关于框架的内容。如果你提出了更好的问题，设置了更好的参数，你将会得到一个更好的结果。而记者接受培训来检验这些框架。我们在工作中这样做是理所应当的。但是，为了真正让我们在公众面前宣示人工智能革命的全部潜力，我们需要在更加强大的知识基础上开展工作。

本期编辑：杨凯文雷悦雯解子钰

（点击文末阅读报告原文）

您的支持是我们最大的动力！

特别策划

江歌案 | 数据可视化 | 反性侵 | 疫苗案

5.12地震十周年 | 中美贸易战 | 数据新闻

刀刺辱母者案 | 普利策奖 | 沙特记者遇害

第18届美国网络新闻奖作品解析（上）

第18届美国网络新闻奖作品解析（下）

技术前沿

记者行业 | 自动事实核查 | 媒体未来技术