AI 算法起家的今日头条为何败给了色情?
点击上方“CSDN”,选择“置顶公众号”
关键时刻,第一时间送达!
出品 | AI 科技大本营
12 月 29 日,国家互联网信息办公室在官网发布消息称,针对今日头条、凤凰新闻手机客户端持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,要求北京市互联网信息办公室分别约谈两家企业负责人,责令企业立即停止违法违规行为。
对此,今日头条乖乖表示,依据有关部门的整改要求, 今日头条手机客户端“推荐”、“热点”、“社会”、“图片”、“问答”、“财经”6 个频道自 2017 年 12 月 29 日 18 时至次日 18 时暂停更新 24 小时,进入维护状态。
如此,今日头条遭遇史上最严“整改”,网信办动真格了。
其实,今日头条不是第一次被抓小辫子了。
2017 年 1 月,北京市网信办对今日头条“头条问答”栏目中的低俗问答,提出严肃批评,并责令其整改。
2017 年今年 4 月,今日头条旗下火山直播,由于大量女主播穿着暴露,表演低俗不堪,被北京市网信办、市公安局等联合约谈,责令限期整改。
对此,人民日报曾以三评算法推荐系列文章,斥责今日头条“明明拥有精密算法和先进的数据抓取技术,却屡屡游走在法律的灰色地带不能自拔。”
真是成也人工智能,败也人工智能。
那么问题来了,作为纯靠人工智能起家,以迅雷不及掩耳盗铃之势,从百度、四大门户、各类新闻客户端中横杀出来,在移动互联网红利殆尽之时,抢得大量用户日均时长,与 BAT 分食天下的大黑马,到底能不能靠人工智能再度打硬这场色情硬仗呢?
这就是营长今日关注的问题,AI 到底能不能准确识别色情,能不能真正做到鉴黄?
说到这个问题,营长先带你们从历史的角度来看看, 从人工到智能,互联网鉴黄的三个发展阶段。
互联网鉴黄的三个阶段
在近日结束的第四届乌镇互联网大会上(2017 年 12 月 3 日 -5 日),据网易云安全(易盾)CTO 朱浩齐介绍称,互联网鉴黄主要分为三个阶段。
第一阶段:人肉阶段
十年前,互联网刚刚起步,网络信息还不多,网络环境也不够稳定,互联网鉴黄主要走“人肉攻略”,人工肉眼盯着,发现不良图片及时删除。
第二阶段:算法过滤阶段
随着互联网的快速发展,网络数据量开始暴增,人肉已难以为继。以肤色识别算法过滤“黄色”图片成为“鉴黄”主流,机器鉴黄与人工审核分别占比为 80%:20%。
第三阶段:深度学习阶段
到了移动互联网阶段,网络数据再次暴增,人工审核连 20%的数据量也无法承受了,加上视频、直播等业务和数据的爆发式增长,纯靠肤色识别算法作为“过滤”的方式,已经不够用了。
这时,机器学习开始作为一种新的方式,担当其网络鉴黄的重任。
“网易云安全每天为中国互联网过滤的有害信息达 1 亿条左右。”朱浩齐介绍到。
那么,机器学习鉴黄的原理是什么呢?
机器学习鉴黄图的原理
朱浩齐介绍称,“辨别一张图是不是黄图,从机器学习的角度看,本质上是一个分类问题:给定一张图片,让机器判断是不是黄图,因此,技术层面要做的就是研发一个‘分类器’,让它根据输入的图片计算出该图片属于“黄图”类别的概率,然后再根据这个概率值输出一个“是”或者“否”的结果。”
具体来说,因为电脑擅长的是数学运算,所以黄图“分类器”需要先抽象成某种数学模型,这样才有可能用电脑来运算。
“为了方便理解,我们把数学模型定义为:y=f(x)。即给定图片 x,我们要找到一个函数 f,通过计算 f(x)可以得到这个图片的黄图概率 y”,朱浩齐说,这看上去非常简单,但既然要教机器分类,还需要有明确的分类标准,就是给“黄图”下个准确的定义。
“比如,黄图并不是简单的露点就是黄图了,还包括不露点的色情、以及低俗图片,另外还要排除雕塑、艺术作品等”,朱浩齐说到。
有了定义之后,下一步就是根据定义来收集样本数据。
再之后的一步,为特征提取,即通过图片训练,得到数学模型 y=f(x)中的 f。
由于深度学习的神经网络模型在各种图像识别的比赛中获得了突破性的进展,目前一般鉴黄会采用 CNN(卷积神经网络)、GoogLeNet、ResNet(残差网络)三种深度网络模型结构。通过模型,高效地将图片数据转变成了可以运算的数学模型,以便更快更好地得到 f。
此后,经过不断地迭代、算法调参,就可以得到越来越精准的 f(模型)。
总的来说,鉴黄的一般步骤为建模-下定义-收集样本-特征提取-调参、迭代-获得越来越精准的模型。
那么,直播、视频又应如何鉴黄呢?
如何用机器学习对视频进行鉴黄?
云从科技高级算法工程师周翔此前在接受媒体采访时提到,实时视频影像大致可以从三个方面来鉴定:
1. 是否有人物(有:色情概率增加)
2. 人形轮廓的肤色比例(大:色情概率增加)
3. 姿态分析(性行为姿势:色情概率增加)
鉴别视频,其实在本质上与鉴别图片类似:
视频/直播是动态的,图片是静态的。在鉴别视频和直播时,动态的内容可以解码成图片帧来进行判断,这就与静态图片鉴别方法相似了。
不过,图普科技运营总监姜泽荣告诉 AI 科技大本营,直播和在线视频,其在技术处理上,又略有不同。
在他看来,直播实时性强,对响应时间要求高,并且里面的场景和人物变化比较大,审核要求比较严格,所以识别难度会相对比较大,需要实时不断对房间进行截帧传输识别,并且结合人工来实现预警处理;
而视频在画质整体上比图片和直播差,一定程度会影响识别效果,通常是以视频为单位进行等时间间隔截图,以一个视频多张截图的结果来综合判断视频是否色情违规。
举个例子,如果企业对视频或直播的每一帧的图片都进行识别,数据量将变得非常巨大,运营成本会很高。面对这类情况,一般会采用对视频抽帧的方式进行处理。
例如,一分钟视频,可以按照时间段来抽取 6-15 帧左右的图片进行识别处理,以此企业减少成本。
说到鉴黄技术的难点,姜泽荣认为,相比算法,数据更难。因为算法本身的迭代优化速度是没有数据本身迭代快的,所以目前各大平台的优化都依然是基于数据本身,而难点依然是数据多样化,而不是数据的纯数量。
“谁拥有更多数据类型,谁有针对不同客户优化的不同实操经验,这个才是最有技术含量的地方。总的来说,算法并不难。”姜泽荣说到。
如今,只有当黄色图片和视频帧达到十万的量级,深度学习才能跑起来。因此,收集数据,训练,纠正,是一个超大的工作量。
相比传统的小数据采用特征分析加分类器算法,使用大数据采用深度学习训练所得的效果和精度远远超过前者。
但即便如此,想要真正实现 AI 鉴黄,并没有那么容易。
离真正的 AI 鉴黄还有几条街?
此前,今日头条人工智能实验室李磊在接受采访时坦言,人工智能识别内容最大的难点在于攻克语义的复杂性,其涉及到对逻辑推理和因果关系的上下文分析。
也就是说,人工智能可以鉴别色情内容,但在区别色情、性感、艺术等照片上还存在很大难度。比如,好好的沙漠图片,就被 AI 给冤枉为色情图片了。
为了更好地解决色情问题,AI 算法傲视群雄的 Facebook 的小扎,也依然在全球投入超 7500 人做内容人工审核。
“这个事情要这么看。AI 鉴黄在识别能力上目前肯定是比不上人力鉴黄的,但是 AI 鉴黄的效率高,成本低,节省企业的人力成本,并不是说让 AI 完全替代掉所有人力。”姜泽荣解释到。
看来,完全取代人工的 AI 鉴黄,还任重道远啊。
借用专栏作者“开眼二郎”的一句话:2017 岁末,2018 跨年,本该是烟花爆竹,擂鼓轰鸣的喜庆日子,天空却划过来自今日头条的一声哀鸣。
曾经靠 AI 雄霸天下的今日头条,如今也因 AI 的不足,败给了色情。
————— 推荐阅读 —————