查看原文
其他

回顾·基于信用体系的内容开放平台建设

DataFunTalk DataFunTalk 2021-04-25


DataFun社区

大数据、算法的交流学习平台 圈内人都在关注

 

安全领域刚刚兴起的时候,逻辑跟现在内容领域很像:如何发现一些bad case、一些坏的东西,主要是基于专家制定的规则。随着行业越来越发展,PC软件越来越多,专家资源有限,因此建一个信用体系作为评价依据。信用好的公司我们就去相信,信用不好的就是发更多人力资源去评价他们,这就是现在信用体系开放平台的雏形,发展与我们目前内容产业发展很像。今天分享如何构建管理信用系统,给出的一个方案。

就内容开放平台来说日常见的就是三种:UGC(用户生产内容)、 PGC(专业生产内容)、OGC(职业生产内容)。用户生产内容典型的例子有大众点评、地图,豆瓣、知乎属于专业生产内容的,职业生产内容的有公众号、抖音。职业生产内容是以营利为目的的,破坏内容开放领域的生态。

内容开放平台的强社交性、强随机性、强运营性带来的主要问题和矛盾,作为内容管理方在整个社会层次架构里面是要做那些事情呢?社会管理靠公检法三项,对于一个内容开放平台来说,要同时去做这三项事情,具体是:内容生产者和内容消费者间的矛盾,比如广告生产者看广告的人,看广告的人肯定不愿看广告;内容生产者与平台的矛盾,就是内容质量与内容之间的矛盾,对于平台来说,需要内容质量是高的、符合我们整体定位的,生产者只在乎广告覆盖量,赚多少钱;对于内容消费者和平台间的矛盾是流量和质量间的矛盾,平台靠低俗、无厘头、没有什么质量和意义的东西获取流量,如何平衡流量和传达用户信息;整体来说就是既要做警察,还要做法官还要做审计,要做的东西很多。

中国社会是靠伦理道德来维护,西方则是靠信用体系,在内容管理平台也可以借用来解决当前遇到的问题,给出得方案就是建立一个信用体系。下图展示内容平台需要做哪些事情,针对两类用户,一类内容生产者,另一类就是平台用户。开放平台和对外服务其实是两套,作为一个常规的信用体系架构而言一个内容生产者提交内容后,做信用审核,是否是信用用户,再去做上传内容审核,审核通过后做AB测试,做分级发布;如审核不通过,则需提供一个申诉通道。在如何管理信用方面主要有两点,一个是大数据风控另一个是信用评级、信用管理,有一个信用库会在信用审核中使用到。内容经过AB测试和分级后会做一个风险评估,判断内容会有什么风险,是否需要召回,召回策略是什么,然后上线。

在构建信用体系时,需要对商户(认证商户和个人商户)进行信用评级。还有一个就是用户(VIP用户和日常用户)信用,再一个就是管理者自身的信用,比如你的信用体系构建后就会有很多公访,最常见的是你推出一个商户的信用后,淘宝上有很多商户是不卖东西的或是自己卖给自己或自己走流量,这种商户是死商户,这种商户主要是卖假货,他们会同时申请一百套,但是其中一套卖假货,然后这个号就不会再使用。他把流量流入这一百套,卖完假货就抛弃其价值,这是淘宝非常难解决的一个问题。基于这种作弊手段如何防止后续会讲到,右边的图反应了运营团队的架构。至少一个运营中心一个做开放平台的团队,再有一个策略开发团队,分别对应司法体系中的Police、Court、Procuratorate。运营中心审核争议,结果进行提交,然后按照策略中心给出的策略进行执行。

分享之前做过调研选择前三比较关心的问题介绍下第一个是如何发现不合规的内容,第二个作弊和反作弊策略如何运营,第三个是如何看待低俗内容带来的流量针对第一个问题下图是一个流程图数据流入后对内容进行过滤方法是关键词过滤,然后进行信用分级分级是由内容提供方的级别来决定你的内容属于什么样的级别如低信用级别和高信用级别,或一级、二级三级五级等具体使用哪种级别各自的平台有各自的分级体制。这里给出两种极端情况低信用和高信用,对其进行信任监控。我们给用户展现,用户会不会信任这个内容,通过看没看、看了多长时间来判断是否是信任的。对于已经打过信任标签的内容做举报监控,看关注的用户是否需要举报他,举报的方式策略各不一样,因为在产品上举报是一个非常敏感的行为,会做出一个功能供用户使用。光举报还不够,还需要运营去审核,根据运营能力和需要处理的数据来确定需要运营人员的数量。然后还会根据举报后的审核调整内容提供商的信用等级,这样是一个完备的运营过程。

第二个是作弊与反作弊如何去运行,这里举两个例子,一个是淘宝有个规定,同一个买家对同一个卖家一个月有效的评论次数是6次,超出评价不计分。第二个是操作IP不符导致大量的过滤时,过滤的值超过20%,信用是停滞的,超过50%信用是下滑的,超过70%就属于信用违规。目前给出的作弊与反作弊策略更多的是基于两个东西,一个是用户的行为(记录违规行为),另一个是如何找特殊的用户(如一个A是bad case,如何在全网找到相同类型的人),后续会讲到。

第三个是如何看待低俗内容带来的流量,这里有一个比较有技术的方案,如下图所示,左边每一个点代表一个用户或每一个内容,边是用户与内容间的关系。在这样的结构关系下,连接到一个边的期望c=(n-1)p,得到的经验是当n(用户量)恒定时,当c>1时,一个社交化的产品开始进入自运营。对于一个平台来说,用户与用户间的交互、内容与内容间的交互、内容的上传共享操作都会带来边的增长,内容的增长才会带来用户的增加,我们需要考虑在什么情况下进行适当的控制。前面C>1可以参考,但是还要和你平台本身的定位来确定。低俗内容分为用户想要的和不想要的,这就需要平台根据定位把握时机进行控制。决定内容健不健康的算法有很多,但我们的办法是如何量化它,设定阀值让平台自运营。

在内容开放平台开发方面比较感兴趣的领域是:文本分类,基于内容相似度的账号信用管理,和用户信用管理和分级发布。针对第一个领域介绍一种Facebook基于Word2vec的算法,作文本分类相对于其他算法效果较好,Word2vec是基于深度学习和神经网络的一套词向量的表达方式Facebook开源算法fastText主要是输入一个词的序列输出属于不同类别的概率算法主要是处理英语如果需要应用于中文分类需要一个效果好的分词工具目前用的好的分词工具是Jcseg但在实际使用时还需要改造分词完后可以把序列投入算法中。序列的词和词组组成向量,通过转换变换映射到中间层,在映射到对应的标签。右边两个算法对比,Word2vec在cbow后面加了一个反向神经网络训练的过程输出结果是输入层的表达。fastText则充分利用了h-softmax的分类功能,遍历分类树的所有叶节点,找到概率最大的label。

第二个就是基于内容相似度的账号信用管理,与淘宝的基于内容的行为过滤很像,以前面用一套或一百套来申请同一个账号如何处理,我们会发现商户资质、用户评论以及评论的时间、IP等一系列向量的相似度足够高,将这些相似度高的用户做一个聚类。很多平台对于这些就算发现也不去处理往往出于商业目的,因为这样平台有足够多的商户和用户。在运营开放平台时,几个核心的考核指标就是:到底有多少内容生产者、有多少内容消费者,这是投资人非常看中的,因此会留很多相似号在里面并不是发现不了。再有就是发现了没有证据的情况下你处理是没有意义的,因为已经知道他是坏人你去监控他比你未知他用什么方法去攻破你是更容易实现的。因此在运营团队中的策略方是一个非常重要的决策是:在整个生态里面我怎么去规划,怎样将好人和坏人区分开,第二步是好的人怎样运营,坏的人怎样运营。看的时候并不是好和坏就OK了,因为只要有利益坏人永远不会消失。相似度计算有很多,这里介绍一种你去看它物品交集和并集的比例来算出一个相似的值,简单却非常有效。

第三个是用户信用管理和分级发布,做内容平台最头痛的是你每改一个字都得去审核一次。以微信公总号为例,你写了一篇文章已经提交,你在审核这篇文章时其实是一个正常的状态,会去修改,但是在不超过一定量和关键词时是自动审核的。但是修改十次可能就不是原来的文章了,如何去解决呢,我们需要把这些活给广大的用户(用户也喜欢去判断喜欢什么不喜欢什么,什么是好的什么是坏的),但是也不能完全授权给用户。因此我们通过积分制挑出特定用户进行分级。分级策略比如20天优质账号,60天良性账号,90天权重较低账号不活跃,第二种就是你给他的激励敏不敏感、对价格敏不敏感,第三种用户兴趣是不是类似的,将用户进行群分,然后基于VIP分级池做相似资源的挖掘,挖掘好的用户进行抽样,做发挥度,再挑出一部分样本做AB test。将结果收回后运营就会做审核,对好的数据做举报审核,低信任用户做信任审核,剩下的内容要么用户不关心不会成为热点,要么就是不关心但没有问题。目的就是减少运营人员提高效率。

最后介绍下未来发展方向,体系建立起来后,很难去判断坏的情况何时爆发,另外一个就是不知道爆发后对我的影响有多大。这是做内容开放平台比较难的,国外针对这有一个策略是TBT,技术比较成熟但是还未有成熟的商品问世。目前我们引用并在实现中。主要的几个点就是:我们如何识别热点,一个事件发布是符合热度曲线的,但是我们找的并不是符合规律的,因为这类通常会成为热点。有的不温不火的东西突然成为热点,这种符合记忆曲线。另一个就是负面风情监控,这个与分类很相关。我们会做正负向的监控,如何将情感分为八维,在负面监测时,我们要做的是一条新闻我们是做的利好还是利坏的,国外比较好,主要做股价预估,通过舆情方案抓取新闻,相关产业发展来预测股价,但在国内很难行通,因为国内影响维度较多。

——END




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存