查看原文
其他

《内容和电商领域推荐算法的应用与治理差异》影响个性化推荐算法的因素是什么?


阿里巴巴人工智能治理与可持续发展研究中心(AAIG)浓墨参与编写了工商出版社出品的《算法治理制度》系列丛书,分别是《算法治理制度之竞争规制》和《算法治理制度之算法透明度》。


详情点击👉AAIG参编的新书发布!《算法治理制度》揭秘数字时代的法治机制!

现分享第一章《内容和电商领域推荐算法的应用与治理差异》


2022年3月1日开始实施《互联网信息服务算法推荐管理规定》,将应用算法推荐技术分为5种基本类型:生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类。这种分类方式是基于技术或者产品样式进行的分类,对于我们初步了解算法服务非常有帮助,但是由于不同行业或者细分领域在商业目的、算法技术组合、数据选取等方面都会不同,具体到监管与治理时,需要对每种算法进行更加详细的分析,才能准确找到治理的难点、重点和要点。

以个性化推送类算法为例,目前主要在电子商务和信息内容领域应用,虽然算法技术上有近似之处,但在实际应用上差异很大。从商业目标上看,信息内容平台总体更关注停留时间、用户与内容生产者的互动情况等,电子商务平台更关注成交效率、成交数量等。

从问题预防上看,信息内容平台更关注正能量稿件传播比例、预防信息茧房形成、防止用户过度沉迷等,电子商务平台更多关注预防交易聚集大商家而形成马太效应、如何扶持新买家、算法歧视等;从监管治理要点上看,信息内容平台应更关注内容召回比例、打散机制等,而电子商务平台应更关注流量调控机制、算法中数据因子与应用相斥限制等。

这些差异取决于个性化推荐算法服务技术的规则原理、算法因子选择、平台价值逻辑等,对其进行具体分析,才能进行更有针对性的治理。因此,本文以个性化推荐算法为例,详细拆解其在电商应用和内容应用中的区别,初步探讨未来监管治理的方向和重点。

一、从主体角度看内容作者与商家算法因子的区别

(一)内容作者维度的算法因子

影响内容的算法因子主要包括两个层面:内容本身的质量权重、平台的价值取向。

1.内容质量权重因子的基本构成及影响
一是内容原创性。原创内容产出是内容平台生态的重要因子,因此平台一般会鼓励作者进行原创,并优先在自身内容平台首发或者独家发表内容。
二是账号活跃度。平台一般会将用户对作者发布文章的阅读行为进行分析和统计,用户每一次有价值的点击、停留、点赞、评论、收藏等都会为内容加分或者增加权重,平台倾向于将流量更多地给予高活跃作者。
三是内容垂直度。内容创作者发布的内容越垂直,意味着该创造者了解此类细分领域的概率越大,因此其获得分值的概率也就越大。当然,这里还需要评估内容更新频率等其他因素。
四是粉丝互动性。主要包括自媒体的粉丝绝对数量、活跃情况(如粉丝打开、完读、点赞、评论互动等行为),同时内容制作者运营粉丝的因子也是考量因素。
五是内容传播度。这里指已发布内容的影响力,主要取决于自媒体的累计阅读量、累计播放量、转发量等。

2. 内容平台自身价值对算法选择方向的影响
内容平台自身的价值定位,会对其算法形成影响,进而可能对其算法推荐的内容结果产生影响。主要涉及以下方面:
一是平台会优先推荐适合平台定位的内容。这一点很好理解,不同定位的平台有不同的受众,从受众角度考虑,平台肯定要优先推荐适合它们的内容,以增加关注和阅读。
二是平台会更多倾斜于原创内容的持续贡献者。持续稳定的内容产出者,在内容的质量、题材独特性等方面的价值,通常要高于搬运或拼接作者,因此平台算法一般在算法中会更倾向于向优质原创内容作者投入流量。
三是会注重连接作者和粉丝。内容作者的粉丝凝聚力有助于提升平台用户的留存率,因此平台也会考虑持续引入粉丝来关注内容作者,更好地连接内容作者和用户。

(二)商家质量因子的基本构成

1. 店铺自身信用
主要包括:店铺年限、店铺等级(店铺分值)、店铺粉丝数等。

2. 店铺服务能力
包括:描述相符、服务态度、物流服务、评论好评比例、纠纷处理、客服响应时间、满意程度等。

3. 商品的运营能力
包括定价是否合理、爆款数、尾货销售能力等。

4. 消费者互动程度
店铺收藏、商品更多加入加购物车、店铺复购、店铺回访等。

二、从客体角度看内容与商品的信息质量在算法评估中的区别

(一)商品信息质量的评估维度

商品信息质量主要指信息描述的质量,主要围绕商品标题、类目、属性、详情、视频、图片等因素进行划分。诸如重复词、品名堆砌、标题属性不统一、类目错放、“牛皮癣”图片、图片清晰度不佳等,都属于减分项;而诸如在商品详情中设置尺码测量图等方便买家选购的做法,在算法因子权重设置中则属于质量加分项。

电商平台算法设计背后的本质都是提升交易效率,促成买家和买家更高效成交,也让商家知道如何在电商领域更高效地做生意。电子商务的本质是卖商品信息的“生意”,电商平台想要提升商品信息的质量,单纯靠算法在有限的素材里清洗和加工远远不够,还需要协同商家来一起提升商品信息质量,这就需要通过算法权重设置和流量驱动算法等来形成正向螺旋上升。

(二)内容质量的评估维度

评估内容质量的因子主要包括:是否有水印、清晰度、码率清晰度、是否包含商品、是否为 PGC 内容、是否存在风险信息(危险动作)等。

(三)评估内容与商品的信息质量,存在区别主要表现在分发时效、地域特点、内容重复度等方面。

1. 时效性

不同内容有不同“保鲜期”。短时效内容,包括股市信息、赛事信息等,相关事项结束后,这个信息便没太大意义。中时效内容,包括各类新闻内容,其时效一般是以天或周为单位来计。长时效内容,包括跨时间维度的内容,如知识讲解、分析评论、小说、散文等。

由于内容产生存在“常换常新”的基本逻辑,因此内容的冷启动和商品不一样,算法系统往往根据内容的地理位置、标题和描述文本、作者信息、发布时间等第一次进行算法分发,根据用户点赞、完播 / 完读(完成或重复观看、阅读内容)、评论、转发 / 下载 / 跟拍、不感兴趣、查看 / 关注作者等互动数据反馈,判断是否进行更大流量推荐。一条内容推荐的周期很难超过 3天,除非成为某类热门。

但绝大部分商品不存在内容这样的超短“保鲜期”,电商算法对时效性因子的要求不同于内容平台。同时内容生态的底层是传播,当某一热门话题关注度很高时,此时发布的其他内容不容易获得展现和关注,便可能形成内容消费的“流量黑洞”问题,即在此时间段内,该热门话题成为可以强力吸附周边流量的超级入口,使其他内容展现的机会大大减少。而电商生态中不会出现“流量黑洞”的问题。

2. 地域性

部分内容有强地域性属性,如本地天气、本地新闻、同城活动、新店试吃消息等,如果出现分发错误,将大大降低内容的价值。因此内容平台的推荐系统会基于内容的地域特点等,预判不同内容的衰减周期和推荐策略。而电商平台本身做的就是商家“卖全国”、消费者“买全国”的生意,一般不太受地域的影响。

3. 重复度

内容消费者对于重复推送某个内容的容忍度比较低,推荐重复具有相似度的内容,给用户带来的负向价值会更多一些。但在电商平台,这个问题恰恰相反,消费者往往需要货比三家,喜欢重复接受具有相似性的商品信息,以便有更多的比较机会。

三、从消费者角度看内容与商品的消费者在算法评估中的区别

内容平台主要关注:点击观看(点击率)、完读率、点赞(点赞数、点赞率)、关注(关注数、关注率、进入主页数)、评论(评论数、评论率、评论点赞数)、转发(转发数、转发率)、新增关注数、主页访问量等行为指标。电商平台主要关注:点击、收藏、加入购物车、购买、评论等行为指标。

由此可以看出,内容平台算法是以内容消费及创造更多内容消费的可能作为关注点;电商平台算法则以点击成交或者促进成交类数据作为关注点。由于电子商务交易和内容消费的天然不同,两种生态使用的推荐算法必然在对算法因子的选择上存在很大差异,所以,在未来规范两类平台个性化推荐算法时,应采用不同的方法,不能一概而论。

四、区分电商与内容场景
监管治理建议

(一)回归推荐算法技术要素,找到破局方法

1. 用更多的技术方式去“立规矩”

《互联网信息服务算法推荐管理规定》第十二条规定,鼓励算法推荐服务提供者综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响,预防和减少争议纠纷。

其中,使用了“打散干预”这种技术化表达方式,可谓是十分准确的技术治理措施。未来还可以在推荐算法的召回、粗排、精排、重排等技术环节中,通过建立规则,解决治理问题。同时对一些可以通过技术解决的问题,进一步做探讨,例如,内容推荐算法正能量在召回侧是否可以单独召回;电商推荐算法对新商家是否可以在重排或策略层给予支持;目前针对个性化推荐,各平台仅能给消费者完全退出或保留两个选项,是否可以给予消费者更精细化的选择,保障消费者可以弹性选择个性化推荐内容等。

2. 从更多技术视角探索监管治理实践

从目前算法备案检查的实际操作来看,已经涉及到算法模型代码层,治理已逐渐进入深水区,这是必然趋势。虽然在商业秘密保护、权限范围、检查主体资格及法律依据等方面,还需要在法律、制度等层面进行完善,但通过技术视角探索各种现象问题,也是一种能触达本质问题的方式,需要加大更多的实践和探索,例如如何发现和判别平台推荐算法对某些商家进行限流;如何通过风控技术模型识别发现刷单炒信并取证。

(二)回归到商业基本逻辑分析具体问题

1.“信息茧房”现象,更应重点关注内容推荐算法

内容平台选择推荐算法的方向包括:一是更多内容优质创作者;二是引导内容生产者创造更多内容,让内容消费者停留更长时间;三是围绕内容形成更多互动交流;四是让内容形成更多转发,吸引更多内容消费者。

因此,在内容平台中,算法推荐逻辑不同于订阅逻辑,需要更多迎合消费者获得点击、阅读、完读(播)等指标,才会有更多算法推荐流量,因此基于平台算法推荐的内容生产者,势必迎合平台算法逻辑,围绕读者打开、阅读、完读(播)等指标去组织生产内容,而这强化了自身的用户画像,同时会让平台算法给予该作者的正向流量支持,推动该作者继续生产类似内容作品,继而平台也会更倾向于推送该类内容以便让消费者更多停留,从而便造成“信息茧房”问题。

电商平台选择推荐算法的方向包括:一是吸引更优质商家入驻和经营;二是吸引更优质商品;三是平台通过数据分析为商家和商品找到更多潜在客户;四是为小众商品找到更多匹配的小众消费者。

商品交易本质之一是让更多潜在消费者看到更多新商品,因此电商推荐算法不太容易形成“商品信息茧房”。所以,对信息茧房问题的治理,重点应在于内容平台的推荐算法逻辑。

2. 电商推荐算法监管治理,应重点关注大数据杀熟、自我优待

看人下菜碟,一直是商业世界的常态和基本逻辑,因此,“大数据杀熟”在电子商务中是可能存在的。从商业动机上看,经营者通过对浏览次数、支付意愿、支付能力、依赖程度、交易频次等进行综合计算后,对不同消费者实施差别定价,可以获得更好收益。

算法时代的治理,需要进一步对数据形成及其使用场景等进行区分和研究,如根据数据群特征,可以形成支付更有意愿的人群,但是这些数据仅能用于部分场景,直接用于定价、权益发放等直接交易场景,可能带来“大数据杀熟”等后果,因此在治理中,应该在定价、权益发放等环节严格限制与支付意愿相关的数据群使用。

当电商平台含有自营和他营业务时,应该关注其是否在推荐算法中进行了流量的自我优待,如冷启动初始流量是否一致,分配流量进阶条件是否一致等。




下周连载:《“大数据杀熟” 的背后:歧视的例外情形以及涉嫌歧视的因子


我们将持续更新精彩的内容,敬请期待😚~

更多人工智能治理新技术、新风向、新观点,请关注【阿里巴巴人工智能治理与可持续发展研究中心AAIG】公众号👇


往期精彩推荐点击标题查看文章● 两大看点大揭秘!《人工智能治理与可持续发展实践白皮书》

● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍


● 月刊|AI治理必修第26刊|GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?


 听委员说|AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制


 教你掌握互联网的“流量密码”!2023年轻人新命题:建议专家不要再建议了!《追AI的人》第23期直播回放


“算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!


👇AAIG课代表,获取最新动态就找她

 关注公众号发现更多干货❤️


有启发点在看喔👇
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存