查看原文
其他

色情:当你看到它时就知道,但AI能吗?

与月走 AI商业评论 2022-04-29


不久前,全球最大的轻博客网站Tumblr宣布禁止色情,但在此政策生效两周后就发现很明显的问题。Tumblr是通过AI系统监测色情的,但当该系统开始运用于监测时,就错误识别4.554亿个博客和1.682亿个“无辜”帖子,包括“花瓶”、“女巫”、“鱼”等等。

虽然不清楚Tumblr使用的是什么AI过滤系统,也不清楚它是否创建了自己的AI过滤系统(该公司没有回应),但很明显,社交舆论和技术都已经“措手不及”。例如,该系统对“女性展示乳头”和“艺术裸体”的识别结果不一致,因为它是基于具体情况决定的,Tumblr甚至不确定自己想从平台上禁止什么。



很难定义什么是淫秽,但你一看就明白

首先很难定义什么是淫秽,这个问题可以追溯到1896年左右,当时美国最高法院法官波特·斯图尔特(Potter Stewart)在审理著名的“雅各贝利斯诉俄亥俄州(Jacobellisv. Ohio 378 U.S. 476)(1964)一案时,就如何界定“淫秽”这一问题大挠其头,最后他绝望地说:“这些材料就是赤裸裸的色情,我可再也不想劳神费力地去给它们下什么定义了,我这辈子恐怕也难做到这一点。不过只要我看见了,我就知道是不是色情 (I know it when I see it)。” 

波特·斯图尔特棘手的就是他面临着无法避免的“两难的困境”(dilemma),因为色情的定义不是太过广泛(overbroad),就是太过于模糊(vague),可法律又必须在受保护及不受保护之言论间划下一条明显的界线,不能模糊不清。

与人一样,机器学习算法也面临同样的问题。这也是Picnix公司首席执行官布莱恩·德洛尔(Brian DeLorge)试图解决的问题。Picnix是一家销售工智能定制化产品的公司,他们的产品之一Iris是一个客户端应用程序,专门用来检测色情内容,以帮助那些不希望在生活中看到色情内容的人。

德洛尔表示,色情可以是很多不同的东西,有时候不是色情的图像与那些色情的图像有着相同的特征。海滩上派对的照片可能会被屏蔽,不是因为它比办公室的照片显示更多的皮肤,而是因为它处于边界线上。“这就是为什么很难将图像识别算法训练成解决方案的一大难题,”德洛尔说。“真的,当这个定义对人类来说变得困难时,机器学习也会有困难。”如果人们不能就什么是色情或者什么不是色情达成一致,电脑有可能了解这种差异吗?

要教人工智能如何识别色情,首先要做的就是给它喂食大量的色情作品。他们从哪里得到的?“人们能做的一件事就是从PornhubXVides下载一大堆东西。” Lemay.ai的联合创始人兼首席技术官Dan Shapiro说,Lemay . ai是一家为客户创建AI过滤系统的初创公司。但这是一个法律灰色地带,如果你在训练别人的内容,它属于你吗?


训练AI过滤成人内容就像给婴儿看大量色情

首先,在从你最喜欢的色情网站获得训练数据集后,下一步是从视频中翻出所有没有明显色情内容的帧,平台付钱给大部分在美国以外的地方的人给这些内容贴标签,这通常是低工资和重复性的工作。每次你完成CAPTCHA(全自动区分计算机和人类的图灵测试)时,都是同样的工作。当你使用一个大数据集来代表你特别不想看到的东西时,训练会更好。

Shapiro说:“很多时候,你不仅仅过滤色情,你还过滤邻近色情的东西。就像人们贴的寻找客户的性工作者图片——一个女孩的照片和一个电话号码,这很容易是任何其他合法的事情。这不是色情,但你不希望出现在你的平台上。

“这非常类似于一个孩子和一个成年人的异同,”计算机视觉初创公司Clarifai的创始人兼首席执行官Matt Zeiler说,该公司为公司客户进行这种图像过滤。

打个比喻,我们两个月前刚刚生了一个孩子,他对这个世界一无所知,一切都是新的,他学任何事情你都必须向婴儿/算法展示足够多,甚至数百万个例子。

但是一个成年人已经见过很多关于这个世界的事物,并且理解了它们是如何运作的,我们可以通过几个例子学到一些新的东西。训练人工智能过滤成人内容就像给婴儿看大量色情。

今天,像Clarifai这样的人工智能过滤公司已经成长起来。他们对这个世界有着丰富的基础知识,也就是说,他们知道狗长什么样,猫是什么,什么是树,什么不是树,并且在很大程度上知道什么是裸体,什么不是裸体。Zeiler公司使用其模型为其客户培训新的模型,因为原始模型处理了更多的数据,定制版本只需要客户提供新的培训数据就可以启动并运行。 

Zeiler说:“最初版本的‘裸体探测器’没有学习过任何关于卡通色情的内容。”在很长一段时间内人工智能都无法明白色情是什么。“当我们开始为客户着手做这项工作后,我们就会将大量数据应用于模型中,因此大幅提高了保留真实照片的前提下识别卡通色情的准确性。”

用于发现色情内容的技术同样可以应用于检测其他事物。支持这项技术的系统被设计的十分灵活。它将广泛的被应用于报社的自动评论审核。Dan Keyserling表示,在这种前景还未实现以前,纽约时报限于人工审核员的精力,每天只能对前百分之十的文章进行评论。他声称他们公司的产品可将这个数字提高三倍。这款软件与图像识别分类的原理十分相似,它将对毒性进行排序——毒性被定义为某人因为该评论而离开讨论的可能性(毒性识别与在图像中识别色情同样棘手)。Facebook用同样的方法来过滤与恐怖主义有关的自杀性帖子和内容,它还试图利用这种技术在其庞大的平台上发现假新闻。


一切仍然依赖于人的监督来运作

整件事情仍然依靠人的监管来运作;我们更擅长于模糊和辨别上下文。Zeiler表示,他不认为他的产品使任何人失业。用他的话来说它的目的是解决“互联网的规模问题”。Clarifai曾经与一个婚礼博客合作,使用其产品来自动化内容的适度性,曾经负责审批图片的人工编辑被转移到更多的质量标签任务上。这并不是要低估自动化的实际人力成本:人们必须训练人工智能,对内容进行分类和标记,这样人工智能就能识别出哪些会导致或不会导致PTSD。观看人类能想到的一些最糟糕的图片和视频是一项残酷的工作。

这就是审核员的未来:由公司提供的个人的、现成的解决方案,这类公司的主要业务就是用越来越多的数据将分类器训练的越来越好。就像Stripe和Square也为不想在内部处理网站的企业提供现成的支付解决方案一样,亚马逊网络服务(AWS)已经成为了网站托管地,Zeiler的Clarifai、DeLorge的Picnix和Shapiro'sLemay等初创公司也在努力成为在线内容控制的一站式解决方案。Clarifai已经为iOS和Android开发了软件包,而Zeiler表示,他们正致力于让自己的产品在物联网设备(比如安全摄像头)的互联网上运行,但实际上,他指的是每一个拥有人工智能优化芯片的设备,还是有足够的处理资源的设备。

Lemay.ai的Dan Shapiro说:“就像任何技术一样,它还远没有被完善。所以我不认为这是超级合理的,甚至我对一个公司只雇佣一个人都不满意。我想我们都可以放弃工作,回家去吧。”但是他们会不会足够优秀,在没有人为监督的情况下真正自主地行动?这就更模糊了。这意味着总是会涉及到人的因素。这是件好事,因为它能调节人的情绪。

另一方面,Zeiler认为将来人工智能会自动审阅一切。“最终,几乎不需要人类的干预以审查裸体,”他说,“而且我认为人类未来将会投注巨大的努力在人工智能目前无法实现的领域,比如高层次的推理,以及人类所拥有的自我意识。”

识别色情是其中的一部分。对于人们来说,识别它是一个相对简单的任务,但是训练一个算法来识别细微差别要困难得多。要计算出当一个过滤器将一幅图像标记为色情或非色情图像时的阈值也很困难,并且数学上受到控制。这个函数称为精度回访曲线,它描述了过滤器返回的内容之间的关系,但是人类选择了它的灵敏度。

正如艾莉森·亚当(AlisonAdam)在她1998年出版的《Artificial Knowing: Gender and the Thinking Machine,》一书中所说,人工智能的意义在于模拟人类智能的某些方面,无论是学习、在太空中走动和互动、推理还是使用语言。人工智能是我们如何看待这个世界的一面不完美的镜子,就像色情反映了当人们单独在一起时,他们之间会发生什么一样。这里面有一种真理,但并不是整个画面。


近期文章 

《ICLR 2019论文解读:探索神经网络结构搜索新方法》

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存