查看原文
其他

知乎:在爆炸的互联网,有价值的信息是绝对的稀缺品

2018-04-28 李大海 笔记侠


内容来源:2018年4月27日,在第十届全球移动互联网大会(GMIC)上,李大海发表主题演讲 “AI算法与人文价值”。笔记侠作为合作方,经主办方与讲者审阅授权发布。


封图设计 | Holly    责编 | 嘉琪

 第 2156 篇深度好文:4502 字 | 6 分钟阅读

全网首发·完整笔记·产品运营


本文新鲜度:★★★★★+    口感:多芒小丸子


笔记君邀您,先思考:


  • 你经常遇到答非所问的情况吗?

  • 如何运用AI打造智能社区?


很荣幸能够代表知乎参与在GMIC上的分享。


我们处在深度学习引发的AI热潮里,并且现在AI算法已经被全面应用在内容平台的各个环节,成为不可缺少的一部分。


业界对于AI算法,对于平台的商业价值,还有业务价值已经讲得很多了,今天我想借此机会跟大家讲讲AI的人文价值。

一、引入AI算法,帮助维护社区氛围

 

1.知乎的现状


知乎的诞生源于一个非常简单的初心:我们相信,在垃圾泛滥的互联网海洋中,真正有价值的信息是绝对的稀缺品。

 

基于这样的理念我们想建立这样一个平台:把用户大脑里彼此最重要的信息分享出来,并且能够互相利用。另外,这些信息能够沉淀下来,当有其他用户有类似问题的时候,我们能够方便快捷地找到相关信息,进而让所有用户能够更好地去认识这个世界。

 

我们认为,要让用户主动分享自己脑袋里的知识、经验、见解,一定要有开放、包容的讨论环境。



所以从知乎诞生第一天起,我们就使用运营和产品的手段去维护一个良好的讨论氛围,同时,我们也是第一个把友善作为要求写进社区规范的社区。

 

这个决策是非常重要的,因为在良好的社区讨论氛围下,知乎已经成为中国互联网中最大的知识分享平台。

 

截止到今年三月底,知乎已经有1.4亿注册用户,我们全平台的日活跃用户超过3400万,用户在知乎上累计提出2300万个问题,并收获了接近1亿的回答。

 

在知乎,人跟人的连接,人跟内容的连接,都已经达到了爆炸状态。如果把知乎看成一座拥有一亿四千万居民和游客的超级城市,这个城市的法律法规就是知乎的社区规范。

 

2.AI应用的优势


在这样规模的城市里,如果还是通过人工方式维护法律法规的话,一定是低效的,所以我们引入了AI前沿算法技术,帮助知乎小管家团队来维护社区氛围。

 

我们要解决的问题都是自然语言处理(NLP)领域的问题。虽然AI在NLP领域的成果并不出色,但是在AI应用上,知乎有两大优势。

 

一方面,知乎积累了一个非常高质量的中文语料库,不仅拥有大量优质的提问和回答的文本。同时,用户在知乎上的行为本身也是非常重要的数据。

 

这个怎么理解呢?用户到知乎去生产和消费内容的时候,他们同时也在建设这个社区,因为他们的行为本身就是社区体系的一部分。

 

举个例子,用户对一个回答的赞同或者反对、对任何内容的举报、对问题和话题进行公共编辑等等,在某种程度上我们都可以把它认为是对相应文本语料进行标注。



有了这样的标注,我们就能够利用有监督的机器学习算法去得到一个更好的语义表示,从而对语言的理解能够达到一个更高的层次。

 

另外它还会形成一个正向的闭环。因为知乎良好的社区氛围,所以用户在知乎上的行为大部分都是高质量的。


有了这些高质量行为,我们就会有高质量的标注数据,这就更有利于我们用AI算法维持或者提升知乎的讨论氛围。

 

另一方面,经过七年多的运营,知乎团队已经培养了非常丰富的社区管理经验。我们认识到一个社区的规范不是制定出来的,而一定是在平台和用户相互之间摸索出来的。

 

我们在摸索社区规范的过程中,理解了不同用户的不同诉求,再根据这些不同诉求去让规范适配复杂多变的各种场景。



这些丰富的经验对于知乎使用AI算法来进行氛围治理打下了坚实的基础,对AI算法的落地是非常有帮助的。

 

3.AI可以解决的问题

 

因为它能够把氛围这个很虚无的大问题分解为很多小的明确的目标,降低这个问题的难度,成为可以解决的问题。

 

接下来讲一些损害社区氛围的例子:

 

第一种是答非所问。所谓答非所问,就是没有答到点子上,离题万里的回答。这些回答往往是没有什么价值的信息,有些甚至只有情绪。所以当读者看到这样的无效信息时,其实是在浪费他们的时间。

 

第二种是不友善的评论。换位思考一下,如果自己是一位作者,花了半天辛辛苦苦写了一个回答,结果评论区都是不友善的回答,你们是什么感受?即便是作为读者,当你看到每一个精彩的答案下面的讨论区都是这种乌烟瘴气的氛围,对你来说也不是良好的体验。

 

第三种是阴阳怪气。这虽然看起来不算什么,但是根据我们的经验,它对于创作者的创作热情、创作体验的伤害会更大。

 

当然损害社区氛围的例子不仅仅是这些,我提这些只是给大家一个基本的感性认识。

 

经过两年多的工作,我们建设了一个算法机器人——瓦力,目前瓦力已经能够在线上快速实时去响应并处理答非所问,以及不友善,像歧视、恶意贴标签、辱骂等等低质内容,全力帮助知乎小管家团队去减少低质内容和无关内容对用户造成的干扰,为用户提供人文关怀。



二、算法机器人:瓦力

 

目前,瓦力的准确率在部分场景中最高能达到 99.13%。我们在这个工作上有两个方向:


  • 第一,在不同领域再进一步提高它的准确率和召回率;

  • 第二,在保证准确率的基础上,不断提高瓦力机器人的适用范围。


1.用户的深度参与


瓦力机器人能力的提升是离不开我们的用户的。我们最近上线了一个“有理由反对”功能内测,有50000名用户参与其中。所谓“有理由反对”就是用户点击反对的时候,同时选择一下反对的理由,包括:事实错误、答非所问、煽动情绪、不解释。


用户的每次选择都是瓦力学习的机会。我们在内测期间通过用户选择判断和瓦力智能学习的结合,一共处理了超过20000条答非所问的回答。

 

2.升级模型


下面我从技术的角度简单去讲讲我们的瓦力机器人是怎么做的。


以答非所问作为例来简单讲述:

 

我们最早解决这个问题的时候采用的是随机森林的模型,什么是随机森林?简单来讲,就是用随机的机制去产生很多分类树所组成的森林,它的分类树就是把这个样本放到每个树里去分类。

 

比如:在知乎上讨论一个问题,知乎的吉祥物是狗还是狐?让每个树自己投票。在完成这个模型以后,我们取得了一个不错的效果,达到了97%这样一个非常高的准确率。

 

但是存在两个问题:


第一,它的召回率只有58%,这就意味着我们会错过“坏人”,会把一些答非所问的回答放到线上去。这样的话就会给我们的用户带来不好的体验,所以召回率是我们很在意的东西。

 

第二,这个模型会用到用户的行为统计特征,需要去看有多少用户对它进行了点击回答,或者点击举报的特征。但如果用这个特征的话,对一个新的回答做分类判断是不是答非所问的时候,就必须放到线上观察一段时间,看看线上对它的点击反对或者举报。


这就出问题了,因为它上线了。如果真的是答非所问的话,看到这个回答的用户的体验其实就已经受到了伤害,这个是存在时间差的。

 

于是我们基于孪生模型的思路开发了一个模型,去提升网络结构的表达能力。同时对特征进行选取时也做了很多仔细的考虑,以避免使用前面所说的用户行为的统计特征。

 

最后的结果是:


我们在召回率上有了一个非常大的提升,从60%提升到80%。同时任何一个回答只要发出来,就能被快速分类,到底是不是答非所问。

 

当然它也有缺点,准确率下降了。但是在这个场景中,我们可以结合其他的业务策略来弥补这个差距。所以最后我们就上线新的模型,去替代老的模型。

 

我们的算法团队这个月在知乎专栏上发表了三篇文章,比较详细地阐述了瓦力机器人在知乎的工作。大家感兴趣的话可以上知乎专栏看一看。

 

我特别想跟大家同步一下,知乎在阴阳怪气这个领域的识别的一些实践,因为这是一个非常难也非常有意思的问题,虽然这个工作还没有做完。

 

3.“反讽”识别算法

 

阴阳怪气就是反讽。我们处理的思路,首先还是要基于深层语义理解,也就是语义分析工作,但这是不够的。


从我们的实践来看,往往同一句话,如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。但如果是两个陌生人之间,一定是有敌意或者不友善的。所以基于这样的思考我们会从两个方向去综合判断。



之所以要跟大家分享反讽这个问题,是因为它是情感分析领域的前沿问题,难度很大。因为反讽是用一种完全正面的词语,去表达负面的意思,是一个很高级的修辞手法,机器人很难明白。

 

在训练中我们会把内容本身的特征尽可能地融入到模型中去,包括像文本特征、一些数值特征、反讽词表,以及一些表现符特征等等。但是不会把用户统计特征放进去。

 

我们使用的网络拓扑模型使用的CNN(卷积神经网络)和LSTM(Long Short-Term Memory,一种时间递归神经网络)的结合。最关键的其实是最后一部分,我们在分类层是用知乎大量一致的语料产生标注数据,这就是我前面讲的用户行为。

 

简单地说,如果一个评论中有很多好的用户,都进行了反对,我们可能就认为这是负向的。如果另外一个评论有很多用户点了赞同,它可能就是正向的。

 

基于这个我们可以构建大量的标注数据,但这个方案我们现在仍处于开发过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下。

 

当然这个问题比较难,我们可能还要解决很多细节问题,需要比较久的时间。但是,我们相信知乎通过对庞大且高质量用户行为数据的分析、学习,对语义和用户关系这两方面进行更深层次的理解和建模,从而有机会突破“识别反讽”这个一直困扰情感分析领域的前沿话题。这将对中文互联网乃至世界互联网的讨论环境产生积极的促进作用。

 

以上是我关于AI算法和人文价值的一些分享。一个开放包容的氛围是很重要的,它是孕育文化上百花齐放状态的非常重要的土壤。当然知乎作为一家技术公司,我们不仅仅把AI用在这个领域,而且已经广泛应用在知乎的内容生产、流通、消费等环节。


三、打造智能社区:AI深度参与,

用技术实现更精准高效的连接

 

我们接下来的计划是用AI,进行人机结合打造一个智能社区。


让更多有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解经验的欲望被激励,让更多专业认真的知识被推荐,让更多人的好奇心被满足,让1亿4000万注册用户甚至数亿网民连接到一起。


这是知乎正在努力,并且初步成型的知乎智能社区,也是知乎的初心和长久的愿景。所以知乎长久以来所做的一切都是为了建立这种前所未有的连接,满足彼此的需求。


我们相信在不远的未来,来到知乎的每个人,都能快速看到他感兴趣的人和内容,他的疑问可以被极速地送达到那群有意愿和有能力回答的人,他也会快速地遇到那个让他愿意拍案的好问题,分享那些只有他最懂的信息,收获到最令他满足和愉悦的认同,与他希望遇到的人产生有价值的交流、讨论,甚至争执。



这一切会是这个时代的思考和总结。我们会以前所未有的效率创造思维的连接,让每个个体的思考和经验,都能够被极速地分享、筛选、总结,被转化成为这个时代的知识。而知识的生产方式和迭代效率在这样的连接之下会发生质的改变。这就是我们认为的智能社区。

 

在经营这样一个智能社区的过程中,我们有很好的数据,问题也都很明确,主要的挑战就在人上。

 

相比于要解决的问题的难度来说,我们团队很不错;但是相比于这些问题的数量,我们的人还是比较少的。所以我们希望有业界厉害的人加入我们,一起把知乎创建成一个具有人文价值的一个智能社区。

 

谢谢大家。


*本文为演讲者独立观点,不代表笔记侠立场。


知乎简介:


知乎,作为中文互联网最大的知识分享平台,知乎以“知识连接一切”为愿景,致力于构建一个人人都可以便捷接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,发现更大的世界。 


截止 2018 年 3 月,知乎注册用户数达 1.4 亿,平均日活跃用户量超过 3400 万,人均日访问时长 1 小时,月累计页面访问量达到 230 亿。

笔记侠好文推荐:


王煜全前哨大会14000字完整演讲:人与人真正的区别不是智商、情商,而是经历

阿里狂砸700亿布局的行业,是否能成为未来新主流?
谷歌为什么能让顶尖人才趋之若鹜?高绩效的秘诀何在?

【定位传播应用案例】定位三问之511首届中国定位日大会



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存