色情低俗、暴力恐怖内容...如何用AI“一网打尽”？ | 自由微信 | FreeWeChat

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划

🪁来汕头，实现“露营自由”

色情低俗、暴力恐怖内容...如何用AI“一网打尽”？

Original: CSDN APP AI科技大本营 2019-06-22

作者 | Rachel、Just

出品 | AI科技大本营（ID:rgznai100）

移动互联网时代催生了大量的多媒体数据，每天在社交平台、长短视频、直播平台、新闻资讯等内容平台产生了数以亿计的图片和视频，这些数据的内容审核面临严峻的挑战。人工审核显然费时又费力，这时，以计算机视觉为代表的 AI 技术开始大显身手。

诸多相关业务的平台推出了相应技术平台，有着庞大内容生态的腾讯也不例外。成立于 2012 年的腾讯优图实验室承载着腾讯在计算机视觉领域的研究内容，专注于图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地，因此，优图也推出了基于深度学习算法的自研内容审核一站式平台：DeepEye。

该平台集色情内容识别、暴力恐怖内容识别、涉政敏感内容识别、低俗行为识别、Logo 识别等业务于一身。如此庞杂的识别业务背后，我们不禁要问：DeepEye 平台与其他内容审核平台相比有何技术特点？优图在图像和视频理解领域又有哪些技术创新？多模态机器学习是否会成为视频内容理解技术的主要研究方向？

作为 5 月 25 日-5 月 27 日即将在杭州举办的 CTA 大会（官网：https://dwz.cn/iSZ7BQUR）机器学习论坛的演讲嘉宾，AI科技大本营就上述问题采访了腾讯优图实验室高级研究员彭湃。

彭湃，2016 年加入腾讯，负责优图实验室深度学习和图像理解方向的技术研究和项目落地，主导包括 Qzone 相册、腾讯觅影、优图天眼、DeepEye 等重点项目的研究与落地。曾发表多篇研究论文，并被 CV 领域国际顶级会议和期刊（SIGIR x3、TKDE、UbiComp、MM、CIKM、ICMR等）收录。

以下为采访内容实录：

AI科技大本营：您个人在腾讯优图发表了一些高水平会议论文和期刊文章，目前最满意的是哪一篇？在发表论文方面，有什么经验可以分享？

彭湃：关于论文发表方面，其实优图实验室非常鼓励大家在平时的工作中，把一些在项目中发现的好用的模型、方法、Trick 沉淀为高水平论文，一方面是升华对问题更加深刻的理解，另一方面也提升了自己和部门在学界业界的影响力。

AI科技大本营：近几年，你们在图像和视频理解领域取得了哪些新的技术进展？

彭湃：优图实验室近期在场景化的方向取得了比较大的进展，比如一个关键的核心技术就是行人重识别的技术，我们创新性地提出了基于金字塔结构的行人视觉特征学习算法，该算法发表在计算机视觉领域顶级会议 CVPR 2019 上，并在行人重识别的 3 大数据库刷榜第一。

AI科技大本营：优图内部主要的的考核目标是怎样的？你们是如何平衡科研和工程落地的？

彭湃：优图实验室的理念是做“实用”的前沿技术，这里的“实用”是指我们探索和沉淀出来的核心前沿技术，是要能够用在实际项目落地中去，真正地服务好用户和企业。因此，我们大多时候都是从我们手头上正在做的实际项目出发，思考当前场景下核心的技术挑战和难点是什么，这样抽象出来的问题非常具有实用价值，我们把这种模式的科研思维称为业务导向的研究思路。

AI科技大本营：您个人获得过公司级业务突破奖以及技术突破奖各 2 次，能否具体介绍下内容审核技术上取得了何种突破？

彭湃：我觉得所有的奖项授予的并不是个人，而是团队。在内容审核中，尽管当前的深度学习模型几乎都在高性能 GPU 上训练，但是业务落地大规模部署的场景，大量的 GPU 成本昂贵，因此 CPU 部署通常是业务上性价比更高的选择，但缺点是推断（Inference）耗时长。考虑实际业务中，正常图片还是占比较大，因此我们的解决思路是训练一个浅层的小模型和深度的大模型，小模型用来过滤掉大多数的正常图片，只让有异常的图片进入到大模型。这样的级联模型部署方式可以大大降低业务方的部署成本。

AI科技大本营：内容审核对于视频网站而言是非常重要的工作内容，腾讯优图针对视频审核开发了专门的平台 DeepEye，该平台与其他企业的内容审核平台相比有哪些独特性？

彭湃：DeepEye 是优图实验室维护互联网内容生态健康而打造了一套基于深度学习算法的内容审核平台，该平台具备色情内容识别、暴力恐怖内容识别、涉政敏感内容识别、低俗行为识别、Logo 识别等。考虑到内容审核场景面临的大都是数据吞吐量较大的业务，大量的 GPU 部署将提高业务成本，因此在算法设计和选型上，我们并没有过分依赖于单一的深度模型，而是采用了浅层小模型和深层大模型级联的方式，这种部署方式可以快速在 CPU 上实现大规模的并行部署，大大降低成本。

AI科技大本营：未来几年，多模态机器学习会是视频内容理解技术的主要研究方向吗？

彭湃：是的，多模态的信息融合要比单一模态来的更加有效果。以内容审核场景为例，有时候不仅仅是某张图像本身的视觉内容有问题，而是图像上面的文字、数字出现了涉黄、涉政字眼，这时候只有图像语义理解的单一能力就无法搞定此类 case，而结合 OCR 以及词库过滤就可以更好地解决这类问题。

（*本文为 AI科技大本营原创文章，转载请联系微信1092722531）

◆

CTA核心技术及应用峰会

◆

5月25-27日，由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开，峰会将围绕人工智能领域，邀请技术领航者，与开发者共同探讨机器学习和知识图谱的前沿研究及应用。

更多重磅嘉宾请识别海报二维码查看。CTA深度培训已经开课，主会议倒计时 1 天，少量余票即将售罄，欢迎点击阅读原文购票参会！更多详细信息15101014297，备注“CTA”，了解票务以及会务详情。

推荐阅读

点击阅读原文，了解「CTA核心技术及应用峰会」

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存