查看原文
其他

算法备案:关于30项备案算法的讨论

落月摇 知识产权那点事 2022-11-18


文/ 落月摇


2022年08月12日,国家互联网信息办公室发布了互联网信息服务算法备案信息的公告。[1]公布了《境内互联网信息服务算法备案清单(2022年8月)》,共5类,30项算法,这也是我国《互联网信息服务算法推荐管理规定》[2](下简称《管理规定》)实施后首批备案的算法。百度、网易、腾讯、字节、阿里等均在名单之中。本文以互联网信息服务算法备案系统[3]中检索到的30份备案文件为基础展开讨论。


下图为所有备案算法名称的3D词云图。

图表 1:算法名称3D词云图


一、备案算法概况


备案文件格式


算法备案文件已经形成一定的格式,至少应当填写:算法名称、算法基本原理、算法运行机制、算法应用场景、算法目的意图;算法公示情况(该项选填)。但以上其实只是基础性信息,或许考虑到企业商业秘密等因素算法数据、算法模型等详细属性并未向社会直接公开。下图为文件示例“苏宁易购个性化商品推荐算法”。备案文件并不完全为文字形式,有一些算法服务提供者在运行机制部分使用了流程图、示意图等。

图表 2:备案文件示例:“苏宁易购个性化商品推荐算法”


图表 3:备案文件应当填写的项目


算法类型分析


图表 4:算法类型分布


算法备案清单中公布的算法共有30项,分5类(个性化推送类、检索过滤类、排序精选类、调度决策类、生成合成类)。这五类实际为《管理规定》从功能角度对算法推荐技术所做的分类。[4]个性化推荐类算法在其中占据了极大的比重。用户对个性化推荐功能的态度,经历好奇、实用到担忧甚至恐惧的转变,算法备案公示无疑是对算法、算法服务提供者实现监督的重要方式。


应用产品类型


图表 5:产品功能、算法类型与具体产品


各类备案算法的功能用途以及具体应用产品、场景可参见上表。下图为具体应用产品词云图。

图表 6:具体应用产品


图表 7:应用产品类型分布


30项备案算法(涉及30个市场主体)具体应用于APP、网站、小程序中。除了360搜索只应用于网站外,其他所有算法均有应用于APP中;而且备案算法的30个市场主体,其算法已应用于37个APP中,有些算法已应用于多个APP中,可见绝大多数算法服务提供者均表现出对移动端互联网的绝对重视。因小程序需依靠腾讯基础,其他市场主体的布局自然相对较少。此外也可以发现,一件算法可以同时应用于APP、网站、小程序中,一并完成备案。说明备案的首先应为一项算法,而非一件产品,不过也需要声明应用算法的产品。但反之,如果一款产品中应用了多项应当备案的算法,则应当分别备案。


企业备案算法数量


图表 8:企业备案算法数量排行


上图展示了各公司备案的算法的数量,均未超过3项,所有备案者都体现出较强的互联网实力,多为互联网大厂、中厂。从法律形式上看,数量最多的为北京百度网讯科技有限公司(3项)。从经济实质上看,阿里(4项)、新浪(3项)、百度(3项)处于第一梯队,其他主体算法备案均未达3件(具体参见下表)。但同时也需注意到,《管理规定》施行未久,纯粹的“算法备案数量”这一数据或许并不能说明太多问题。


算法服务主体分布


图表 9:备案算法服务主体地域分布气泡图


上图为根据互联网信息服务算法备案系统、企业注册信息等数据制作的算法服务主体地域分布的气泡图,直观地展示了算法服务者的地域分布、我国各地域的算法备案数量。(有无气泡表示有无算法服务提供者,气泡大小、颜色深浅表示备案算法数量多少)。北京以18项算法备案量一骑绝尘,浙江、广东居于第二梯队,山东、上海、天津各有1件。备案算法服务主体的地域分布格局集中于我国东部沿海地区,不难发现,明显与我国互联网优势产业分布态势高度契合。


图表 10:加入算法备案的算法服务者


二、算法内容分析


算法原理与运行机制


图表 11:(词云图)算法基本原理


顾客是上帝,用户必然是算法服务提供者关注的重点。算法通过分析用户与内容的互动,不断改进向用户推荐的信息与内容,持续改善用户体验,个性化推荐类算法是其中典型。在备案文件的算法基本原理、算法运行机制部分,各算法服务提供者,或详或简的解释了算法的原理与运行机制。对于非计算机相关专业者,一部分还算通俗易懂,例如“搜索量、发博量、阅读量、互动量”等并不难理解;另一部分涉及专业技术的内容,例如“snvd 日志、apache 日志、画像团队 offline 特征日志、nlp/cv 内容理解特征日志和推荐引擎 snapshot 日志”等,普通用户可能并不能有效理解。但对于专业人士、专业监管部门而言,越详尽、细节的披露或许越有利于监督。


图表 12:(词云图)算法运行机制


算法用途与目的意图


图表 13:(词云图)算法主要用途


算法基本原理、算法运行机制的内容偏向专业,相比之下,算法主要用途、算法目的意图的表述则更为通俗易懂,几乎没有太大的理解困难。通过聚合备案算法的原理、机制、用途、目的词云图可以清晰地发现,用户在所有词云图里的绝对中心地位,因为用户必然是企业经营的绝对导向。


图表 14:(词云图)算法目的


三、回应社会关注


社会对算法的关注与日剧增,算法治理的脚步逐渐加快。《互联网信息服务算法推荐管理规定》的出台是算法治理的重要举措之一。例如个性化推荐类算法的备案是对“为什么我的手机应用知道我在想什么”的回应。


字节跳动的“抖音个性化推荐算法”不仅解释了抖音如何进行个性化推荐,还专门提及了“信息茧房”的概念。在很大程度上,个性化推荐天然具有导致“信息茧房”的倾向。信息茧房是指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。严重的情况下,将导致个人偏执化。为避免“信息茧房”问题,抖音个性化推荐算法专门设计了“兴趣探索”机制。一方面每次推荐都会选择用户过去不常观看的内容类目进行一定比例的推荐。另一方面每次获取推荐内容的过程中会特别增加一条随机内容来保障用户可见内容的多样性。[5]其他部分算法的多元推荐机制也在一定程度上有助于避免“信息茧房”。


此前,“困在算法里的骑手”相关讨论一度遍及全网。此次备案文件中亦能找到相关回应。三快科技的“美团配送调度决策算法”,在备案文件中解释订单分配算法、预估送达时间算法的运行逻辑,其中还考虑了骑手可能面临的诸如恶劣天气、疫情防控等异常情境。在文件中算法服务提供者注明,兼顾用户、商家、骑手三端体验进行订单分配,将充分考虑骑手时间宽裕程度、骑手顺路程度。[6]拉扎斯的“蜂鸟物流配送算法”则是更直接地提出“蜂鸟物流配送算法坚决落实“算法取中”的要求,绝不以最严算法、最低时限为导向,安全与公平是持续优化的方向”。[7]


四、算法公示情况


国家网信办的公示显然属于广义的算法备案公示,但是相关产品普通用户并不必然会关注到。而产品中应用的算法却是切实影响到这些用户相关权益的,因此算法服务提供者有必要自行向用户、社会公示备案情况,这也是备案文件中设置“算法公示情况”一栏的真正用意。


《管理规定》第24条规定,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。因此,算法备案是算法服务提供者的法定义务。关于“具有舆论属性或者社会动员能力”的理解,可参考《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第2条的规定,具有舆论属性或社会动员能力的互联网信息服务包括:(一)开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能;(二)开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务。


算法服务提供者向用户公示的义务来自于《管理规定》第16条,算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等。为较多人关注的是,《管理规定》第26条还规定,完成备案的算法推荐服务提供者应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。也就是说,根据第16条的规定,实际上无论算法推荐服务提供者使用的算法是否属于应当备案的情形,是否已经完成备案,均应当履行公示义务——以适当方式公示其算法推荐服务的原理、目的和主要运行机制。例如在其官网、官博、官方公众号等发布相关信息。完成算法备案的,还应当在显著位置标明其备案编号并提供公示信息链接。但不少人只注意到第26条,而忽视了第16条的规定。而且遗憾的是,“算法公示情况”属于选填项目,意味着申请备案主体可以不填写该项。尽管如此,也绝不意味着可以不公示算法。只是目前对于算法服务提供者自行公示、及时公示义务的履行情况,似乎仍缺乏有力的监督保障体系。


图表 15:算法公示情况


此次备案的30项算法,仅公示了4项,有26项未公示。未公示占比高达86.7%(未填写的暂推定为未自行公示),算法服务提供者自行公示情况可见一斑。


“微博热搜算法”备案文件填写了微博热搜榜规则公示情况,附有相关链接。[8]但从微博官网首页似乎并未发现有直接路径可以进入这一页面。官网右下角设有“网站备案信息”专栏,但进入后并非发现算法相关备案。此前关于外卖骑手与算法的相关讨论,给美团等企业带来了极大的舆论压力。“美团配送调度决策算法”在其官方微信公众号完成了较为详细地公示。[9]饿了么官方微信号2022年2月发布了《2022 蓝骑士发展与保障报告》,“蜂鸟物流配送算法”的主要原理与运行机制公示于第二部分。[10]“苏宁易购个性化商品推荐算法”公示于苏宁易购 app、苏宁易购网站程序中“我的易购→设置→隐私设置→推荐管理”,这种公示方式在之后可能会成为主流公示方式,但对大部分用户来说可能并不够直观。


五、总结


图表 16:算法备案信息合集概览


从算法服务提供者的角度来说,算法备案是算法合规与企业合规的重要组成部分。从社会治理角度而言,算法治理是促进互联网空间清朗的重要举措。无论对“技术中立”持肯定或者或者否定态度,对于算法技术使用者、提供者的监督显然都是必要的。


向上滑动阅览

[1] 参见http://www.cac.gov.cn/2022-08/12/c_1661927474338504.htm。

[2] 《互联网信息服务算法推荐管理规定》,2021年11月16日通过,2022年3月1日起施行。

[3] 参见https://beian.cac.gov.cn。

[4] 第二条 在中华人民共和国境内应用算法推荐技术提供互联网信息服务(以下简称算法推荐服务),适用本规定。法律、行政法规另有规定的,依照其规定。

前款所称应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。

[5] 参见“抖音个性化推荐算法”算法运行机制部分。

[6] 参见“美团配送调度决策算法” 算法运行机制部分。

[7] 参见“蜂鸟物流配送算法”算法基本原理部分。

[8] 参见https://m.s.weibo.com/hot/description。

[9] 参见美团Meituan公众号,https://mp.weixin.qq.com/s/LgXP2IRbyidRSSH9U7q5RQ;https://mp.weixin.qq.com/s/qyegF_r_SPGnkEdZqkVjxA

[10] 参见饿了么公众号,https://mp.weixin.qq.com/s/p2YjW7q6mybWLjOoplo01A。



(本文为授权发布,仅代表作者观点,未经许可不得转载)

“星标”、“转发”、“在看”,给小编加鸡腿哦!

投稿请联系shipa@shipa.org

近期热文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存