你即将看到的这篇文章也许是人工智能写的

查看原文

其他

你即将看到的这篇文章也许是人工智能写的

Original: 神经小姐姐超神经HyperAI 2019-05-13

By 超神经

我们就快到了「宁愿相信世上有鬼，也不相信 AI 的破嘴」的时代，人工智能又在 NLP 领域进化到了新的巅峰。

比人还会编的 AI 来了

给一个开头，让对方接着写出后面的故事，也许会难倒一些人，那如果交给 AI ，它们可以做到多优秀呢？

今天，OpenAI 公布了一个自动文本生成模型，能够写出「真实感」十足的文章。

人为的给出开头，这个 AI 模型就能快速的补充成一篇完整的稿子。至于文字的可读性和流畅度，不提前告知的话，也许你都猜不出这是 AI 所作。

比如给他这样一个开头：科学家们有个令人震惊的发现，在安第斯山脉一个偏远且没被开发过的山谷里，生活着一群独角兽。更加让人讶异的是，这些独角兽说着完美的英文。

这个 AI 模型生成的文章如下（部分）：

这些生物有着独特的角，科学家们就以此为它们命名，叫Ovid’s Unicorn。长着四只角的银白色生物，在这之前并不为科学界所知。

……

虽然，这些生物的起源还不清楚，但有些人相信，它们是一个人和一个独角兽相交而诞生的，那时人类文明还不存在。Pérez教授说：“在南美洲，这样的现象很常见。”

……

如果要确认它们是消失种族的后裔，DNA检测可能是唯一的方法。

它除了能够写出以假乱真的文稿，还具备阅读理解、问答、生成文章摘要、翻译文本等能力。

翻译：从法语到英语

数据集：WMT-14 Fr-En

原句

Un homme a expliqué que l’opération gratuite qu’il avait subie pour soigner une hernie lui permettrait de travailler à nouveau.

人工

One man explained that the free hernia surgery he’d received will allow him to work again.

AI 翻

A man told me that the operation gratuity he had been promised would not allow him to travel.

AI 模型翻译实例

这个 AI 有点强

这个 AI 模型被称为 GPT-2 ，它是 GPT 的「升级版」。而它的残暴之处在于，这一次运用了更多的训练数据，和上一版的原理一样，但 GPT-2 是对 GPT 模型的直接放大，它在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。

通过分析输入的文本，GPT-2 可以执行基本的文本处理功能，它擅长语言建模任务，该任务就是让程序通过预测，给出句子中下一个单词的能力。随便给它一个标题， AI 就能完美的写下文章的其余部分，甚至还能附上假引号和统计数据。

有人这么说它，「想要一篇短篇小说？只要给它第一行，就能得到一个意料之外又不乏精彩的故事。如果有正确的提示，它甚至可以写出长篇小说。」

训练 GPT-2 的目标很简单：给定文本中前面的词语，去预测接下的词句。而训练数据集的多样性，却使得它可以完成大量不同领域的文本生成。

虽然技术上没有新的地方，但人家有矿产级别的训练，这也是为什么会造出了怪兽级别的新工具。

OpenAI 的研究人员表示，在各种特定领域数据集的语言建模测试中，GPT-2 都取得了优异的评定分数。作为一个没有在任何领域数据专门训练过的模型，它的表现，比那些特意打造的模型还要好。

NLP 崛起的时代？

几个月前谷歌推出的语言模型 BERT 引发了业内的广泛关注，一时间内不断刷屏，其 3 亿参数量刷新 11 项纪录的成绩让人赞不绝口。但 OpenAI 这次推出的 GPT -2 更为要命，它达到了 15 亿参数。

与以前最先进的人工智能模型相比，GPT2模型「大 12 倍，数据集大 15倍，涉及范围也更广」。它是在一个包含大约 1000 万篇文章的数据集上进行训练的，这些文章是通过 Reddit 上投票超过3票的新闻链接而选出的。所训练的文本数据多达 40GB ！

在 BERT 血洗 NLP（自然语言处理）各项顶级指标之前，OpenAI 的 GTP 就站在了一流高手之列，而新出的 GPT-2 通过海量的训练数据也直接把这一领域带到了新的高度。

有了 BERT 和 GPT-2 ，NLP 的道路肯定会红红火火，至于说怎么样更好的造福人类，这还是一个慎重的话题。

艾伦人工智能研究所的研究人员 Ani Kembhavi 表示，对GPT-2 感到兴奋的一个原因是，预测文本可以被认为是计算机的「超级任务」，一旦解决了这个挑战，将开启智慧的大门。

会是潘多拉魔盒吗？

遗憾的是，这么强大的工具暂时还不能公布出来。而背后的考虑是它可能会带来的隐患问题，比如生成假新闻，恶意评论，制造垃圾邮件等等。这样的武器用在非法的途径，造成的后果也是灾难级的。

对于这个方面，开发者也感到了担忧。OpenAI 的研究人员说到他们无法预测会带来什么。目前他们仍在探索之中。出于种种原因，他们对项目所分享的内容非常谨慎，目前对主要的基础代码和培训数据不予公开。

他们指出谨慎的另一个原因在于，如果有人提供 GPT-2 关于种族主义，暴力，厌恶女性或辱骂性的文本，将造成很危险的局面。毕竟，它是依赖于互联网训练的。

不否认这项技术将带来巨大的变革，但任何一个工具，在图谋不轨者的手中，都会带来灾难性的后果。

而且由于 GPT-2 所写的文本都是新生成的，不存在复制粘贴的问题，用以往的检测手段中更难发现和排查，这将会是一个潜在的威胁。

那么，关键的问题来了，这篇文章是 AI 写出来的吗？

历史文章（点击图片阅读）

AI 不上位，合作写代码才是正道

GANs 千万条，安全第一条

三次元的世界里，机械臂的手活儿无敌了

AI 百科

教程

数据集

商店

http://hyper.ai

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）