推荐系统中的公平与影响因素
编者按
2021年,全球范围内对于人工智能的监管已经开始从理论探讨走向实际的立法和执法阶段,标志性的事件就是欧盟提出了《欧洲议会和理事会关于制定人工智能统一规则(《人工智能法》)和修正某些欧盟立法的条例》的提案,以及我国国家互联网信息办公室发布的《互联网信息服务算法推荐管理规定》。
关于人工智能安全和监管,本公号发布过以下文章:
今天和大家分享的是个人信息保护专家田申的文章。
推荐系统中的公平与影响因素
——公平是什么我无法回答,但是如果问什么是公平,我或许知道。
公平并不是一个简单的哲学概念,推荐系统也不仅仅是一套算法。我们并不擅长宏大叙事,仅期望从实践的视角对这一命题进行研析,去管窥蠡测推荐系统场景中的公平。
一、“横看成岭侧成峰”:推荐系统公平性的多维侧面
避免对宏大概念的论述陷入空对空的理论分析最好的方式就是对问题进行解构分析。研究与论述推荐系统的公平性也概不例外。讨论公平性问题,需要在对象受众、应用的场景以及价值平衡三个维度展开。
(1)利益攸关方
推荐系统所构建的生态体系中存在着多方利益相关方(Multi Stakeholder),需要站在不同利益相关方的视角下审视公平问题。例如在内容应用中“用户-创作者-广告主-平台”构成了维系产品运行的业务体系。用户需要获得更加丰富多样,且自己感兴趣的内容;创作者无论是“大V”、KOL,还是新出道的“草根”,都希望自己的作品可以让更多的用户看到;广告主希望自己的产品或服务可以被推送给更精准的受众;平台则希望通过满足用户需求,做大基数以开阔更大的市场。这样的生态体系拆解研究方式,也可以移植到搜索、电商、娱乐甚至人力资源、金融服务等其他应用领域中。我们下面使用图表的方式来阐释平台生态中不同利益攸关方之间的关系。
用户 | 创作者 | 广告主 | 平台 | |
用户 | 机会均等、不被不当的差异化对待、避免回音壁效应 | 看到自己需要的内容 | 不看或少看广告 | 免费且良好的使用体验 |
创作者 | 吸引更多的粉丝,且有更高的粘性 | 即使创作新人或者小微团队也有一定的曝光与展示机会,避免强者恒强的马太效应。 | 广告很重要,但不要抢夺过度流量 | 更多的流量支持 更多的变现渠道 |
广告主 | 更多有效的广告曝光 更高的广告转化 | 优质内容很重要,但也需要更多的广告位占比 | 避免作弊流量、避免广告投放中的“流量劫持” | 更大的受众基础 更准确的曝光与转化 |
平台 | 吸引更多的用户 | 吸引更多的创作者 | 吸引更多的广告主 | 保障各方主体正当利益和公平,维护平台生态健康 |
从上述表格中,我们不难发现,生态中的各利益攸关方都有自己的合理诉求与需求导向,但是在追求这些价值的过程中,如何确保“公平”是一个需要综合考虑与权衡的复杂系统。各利益攸关方不仅在不同角色之间需要被公平对待,相同角色之间也需要被公平对待,但是我们可以注意到的是,在不同的维度和视角下审查,“公平”的内涵有着不同的定义与价值诉求。
我们可以将利益攸关方归纳为三种类型:Consumer、Provider、Platform。根据其特点与应用场景,在推荐系统设计应用的过程中,对公平的标准与要求也有所不同。
类型 | 主体 | 对公平的要求 |
Consumer | 用户、消费者、被决策的个人 | 更多从“平等”(Equality)的角度去要求。用户因敏感信息被分为不同组的时候,对不同组的推荐而有明显、显著的差异。确保根据敏感属性划分的用户组的推荐结果无大偏差;确保基于受保护群体成员身份,特别是由敏感属性(如性别和年龄)确定的人群不被歧视。 |
Provider | 内容创作者、商家、广告主等 | 更多从“公平”(Equity)的角度去要求。实践中大品牌、大集团的产品占据了绝大部分流量,中小商家只能在长尾流量中挣扎。在市场竞争中维持公平,需要推荐系统对中小企业,从“公平”(Equity)角度提供更多帮助,比如给予相应成比例的、更多的流量帮助他们坚持下去。 |
Platform | 平台型应用 | 更多从“守门人责任”(Gatekeeper)角度去要求。在保障对前述主体履行公平性责任的同时,自身在维护平台生态过程中, 不能为追求平台利益而损害平台内主体的利益。 |
(2)场景特征
推荐系统拥有广泛的应用场景,在不同的应用场景中公平性的内涵也各侧重,对公平性的“容错率”也有不同。一般而言,对娱乐领域的算法容忍度高于那些对人的法定权利产生影响的领域,比如:金融、就业等。
场景类型 | 重点关注主体 | 对公平性的要求 |
内容信息 | Consumer | 对用户不能“唯时长论”,不能将用户沉浸作为唯一目标。 不能利用对用户的情绪进行“诱导”,引导正确价值观的塑造与维护。 避免信息不对称等原因造成的谣言信息传播,并为用户提供辨别谣言的渠道与途径。 |
Provider | 不能为追求短期效应而鼓励低质信息的传播与分发。 扶持优质作者的作品有效传播。鼓励健康、多元内容创作与分发。 | |
电子商务 | Consumer | 价格、服务水平不因身份不同而被不正当的区别对待,避免“大数据杀熟”。 |
Provider | 对低质假冒商品的打压与限制。 平台自营业务与平台入驻商家应当保障基本公平,不能超越法律进行“自我优待”。 | |
人力资源 | Consumer | 应当公平设定筛选与排序的算法逻辑,不能因非岗位实际需求以外的因素进行决策。 |
金融信贷 | Consumer | 需要公平考虑授信及推荐借贷类型算法策略,避免借贷人陷入财务危机。 |
(3)价值平衡
首先,保障公平不代表抹杀个性化,特别是不能以“个体公平”作为评价公平性的标准。“个体公平”将抹杀个体粒度的差异性,否定合理个性化与差异化的需求。追求“个体公平”不仅没有更好保护社会利益,反而还会增加整体交易成本。在追求“整体公平”的同时,需要满足推荐的准确性与有效性。公平不是终极目的,保障个体合法权益、增进社会总福祉才是我们追求的目标。
其次,保障公平的同时需要平衡隐私利益。通常而言,数据的质量与规模是是保障推荐系统公平的基石,后文中我们也将会进一步说明数据对于构建公平推荐系统的重要性。在追求推荐系统尽可能达到公平的同时,也需要考虑受众隐私的保护,数据收集、挖掘不仅需要满足法律所要求的“最小、必要”原则,还需要审慎评估在数据处理活动的过程中对用户的“隐私侵入”。我们必须承认在努力推动公平性是一个带着镣铐的舞蹈,对数据的使用不能一味味求多求全,需要考虑“信息短缺”场景下的公平性构建。
最后,需要从全局的角度判断生态整体的公平性。平台如果单纯为了满足“自然排序”的“非个性化分发”而关闭首页的推荐功能,可能非但没有保护和满足用户的权益,反而可能导致小商户、长尾商户缺少曝光流量而利益更加受损。长此以往竞争生态将向头部商户集中,最终可能反而侵害用户的权益。
二、影响推荐系统公平性的要素
“算法”是当前研究推荐系统的公平性的热点,多数观点认为算法的不透明、不公开的黑盒特征导致了算法歧视等影响推荐系统公平性的首要原因。事实并非完全如此。实践表明,推荐系统的公平性受制于数据质量与规模、算法模型的构建与推荐系统的架构以及用户自身的行为等多方面因素。
案例:在影视网站中,推荐引擎推荐的作品对女性的推荐结果不如对男性好。造成这一现象,既有数据质量的问题,也受制于算法、用户自身等因素的影响。
第一,数据集质量与规模:在用户数据集方面,男性用户在这个数据集中多,且更活跃;在作品数据集方面,男性与女性偏好的作品流行度也不一样;
第二,算法模型方面:由于女性用户对于相同作品给出的评分,相较于男性用户会给出的更高,但是训练模型没有对这一差异做方差处理;算法并未将相关因素纳入,例如未能将“性别”这一特征作为推荐结果所考虑的因素。
第三,用户自身方面:相似的男性用户所表现出的偏好更相似,而女性用户对于视频偏好之间的差异性则更大,个性差异化更大。
案例源自于清华大学张敏教授讲座:推荐系统的公平性研究
(1)数据质量
推荐算法的本质是自动学习数据的内在规律,预训练模型本质上也是由数据驱动的,可以说数据是算法模型的信息来源。推荐算法利用数据训练出的“内在规律”,再对未知的数据进行推测。训练样本(数据)质量对于模型训练的效果具有至关重要的作用,特别是在训练通用模型的过程中,由于训练所需数据大多为无标注数据,这样的数据样本更容易存在“偏见”等固有问题。由于模型反映的只能是训练数据的内在关联,无法去反映全面、动态的真实生活时间,因此训练数据集的“偏差”也会被模型不加区分的体现出来,导致决策出现“不公平”。
在数据本身存在固有的风险之外,“数据投毒”等恶意攻击行为也是影响数据质量的不可忽视的重要因素。由于目前的推荐系统都是中心化的,服务端的算法模型需要将从客户端收集的数据进行反馈,这就给了攻击者制造“数据中毒攻击”的机会,例如:使用批量注册的虚假帐号进行恶意评价,给不应该好的产品故意打高分,或者恶意打低分,引发数据基础改变,导致推荐系统准确性基础受挫(Garbage In, Garbage Out ),最终导致公平性受损。
(2)算法系统
算法模型训练任务所设定的预测目标正当性是底层风险,即模型架构不应引入不公平的设计,为此需要考虑以下因素:(1)模型是否设计为试图识别任何潜在的偏见和歧视。(2)是否针对模型应用的行业或领域采取了削弱偏见和歧视的措施。(3)是否对输入模型的样本特征本身进行了充分评估,避免遗漏可能导致不公平的因素。
算法系统的鲁棒性也影响着最终结果的公平性。确保推荐算法鲁棒性足够健壮,不仅需要在设定概括性的综合安全指标,还应当注重针对不同的具体场景设定更加细粒度的安全评估指标,以避免异常情况下推荐结果错误。例如:通常而言,高赞高传播的信息一般是优质内容,但是在标题党、煽动情绪的文章也可能造成相应特征,而针对这种特征就需要设定更加精细的安全指标。
同时,对信息内容理解的准确性也是推荐算法公平的重要基础。在推荐系统中,也需要对候选池的item的正确理解,才可以根据相关预设目标进行排序。模型对item的理解是基于对大规模数据样本的拟合学习,并得到一个能够将内容与标签相关联的参数框架。当前所面临的风险是,在模型学习与理解过程中,容易遭受“对抗性威胁”,即在样本中加入干扰来“欺骗”模型。例如OpenAI的研究人员发现其实验室最新的通用视觉模型可以轻易被欺骗。例如,如果在一颗青苹果上贴上“ipod”标签,那该模型有99.7% 的概率将图中物体识别成ipod,而不是青苹果(注释a)。
此外,是否具有对算法推荐结果的干预机制是衡量算法系统安全性的重要尺标。在推荐系统工业化落地过程中,不仅需要考虑模型训练、测试和评估阶段通过调整参数或者模型架构来削弱可能的偏见和歧视,还需要在召回、粗排、精排等环节中引入干预机制,以保障推荐结果正当性与公平性。
(3)人类自身
人工智能的所有问题溯源最终可能都可以归咎于人类自身。我们可以从三个方面进行阐释:
第一,数据源是基于人类社会活动而产生的,其中不乏具有偏见与有害的信息。这是复杂的历史产品,在人类社会中难以彻底消除。也就是说,数据集的本身的“污染”可能就是由于其人类基因决定的。
第二,设计与使用推荐算法的人本身可能就存在着系统性的偏见与错误,这种偏见通常是隐式的、与过往经验相联系的。例如:就业过程中认为未婚女性因为可能面临生育问题,而将该类特征作为负向指标作为建模特征纳入。再如:在设定模型参数变量时,将“噪声”信号作为“特征”信息予以输入。例如,将到岗率和工作时长作为衡量投入度的决策因子。
第三,在使用推荐系统产品过程中,人性固有的缺陷进一步推动推荐系统“学习到不良的反馈”。例如:标题党、低质猎奇类型的信息往往更容易获得点击率,推荐系统就可能会拓宽、深化、合并甚至标准化这些问题,或者带来新的问题。
三、推荐系统公平性的保障
(1)数据保障
数据质量是推荐系统公平性的基础,对训练数据集进行清理是目前展开的探索。实践中已经对数据集是否有毒进行了探索性标注。如果数据集被标注为有毒内容,则不会将其纳入模型训练环节。此外,邀请志愿者对评论数据进行打分的方式也逐渐被采用,当多数评分者将评论标记为低质量时,该评论则被可能认定为有害的(注释b)。
对于实施恶意数据投毒的网络黑灰产活动的对抗也一直在进行中。传统的方式是通过风控模型识别水军帐号等欺诈者。但是这种传统方式有很多局限性,因为在实施恶意评论中有些用户是正常用户,其只有一部分评分是假评分(可能受到利益诱惑),因此一旦采取这种移除方式,不但扩大打击面,而且对平台生态也将造成很大冲击。目前正在探索联合任务学习——识别真实用户评论的框架:即为用户建立的特征向量,利用GCN模型建立二层网络预测评分,利用随机森林输入欺诈者检测模型,输出预测评分,与其真实评分进行比对,以保障推荐模型的鲁棒性。
(2)系统工程
推荐系统公平性问题需要在真实而非单纯实验室理论环境中考虑,一方面,需要关注对预训练模型的微调,以改善模型在特定社会和伦理维度上的表现,以增加模型在价值规范方面的敏感度和“理解力”;另一方面,还应当从整体上关注推荐系统中不同阶段的公平性,例如在推荐系统的召回、排序、重排阶段,通过设置训练目的规则、人工干预等方式提升算法系统的公平性。例如:在召回阶段将可信源信息作为法定推荐内容在一定阈值内进行召回,确保信息的准确性;在排序阶段,通过质量评估模型对低质内容进行打压,避免低质信息的分发。同时,对信息分发增加打散、混排、强插等规则进一步确保公平性。
注释a.Goh G, Cammarata N, Voss C, et al. Multimodal neurons in artificial neural networks. (2021-03-04)[2022-03-05]. https://distill.pub/2021/multimodal-neurons/.
注释b. Jigsaw. About the API. [2022-06-29]. https://developers.perspectiveapi.com/s/about-the-api.
美国电信行业涉及外国参与的安全审查(一):基本制度介绍
美国电信行业涉及外国参与的安全审查(二):国际性的第214节授权
美国电信行业涉及外国参与的安全审查(三):建立外国参与安全审查的行政令
美国电信行业涉及外国参与的安全审查(四):FCC对中国企业的陈述理由令
关于健康医疗数据方面的文章有:
关于数据的安全、个人信息保护、不正当竞争等方面的重大案例:
因隐私政策不合规,西班牙对Facebook开出巨额罚单 英法两国对 AdTech和广告类SDK的监管案例分析 Facebook事件多层次影响 及中美欧三地监管展望 FTC vs Facebook:50亿美元和解令的来龙去脉 FTC与Facebook“2019和解令”全文翻译 案件摘要:德国反垄断监管机构对Facebook数据收集融合行为裁决 德国联邦反垄断局审查Facebook数据收集融合行为的背景情况 德国联邦反垄断局对Facebook数据收集和融合行为提出严格限制 GDPR与相关数据保护法律处罚案例调研 他山之石:美国20年间33个儿童信息保护违法案例分析 重大案件 | 分析WhatsApp的2.25亿欧元罚款决定:合法利益事项 “脸书文件” | 爆料人的美国会听证会开场白、欧盟“数字服务法”推动人的表态 重大案件 | WhatsApp被罚2.25亿欧元一案核心事实与争点述评 重大案件 | CNIL对脸书、谷歌的Cookies实践的处罚:官方公告译文
供应链安全 | 白宫发布关于降低依赖外国对手的重要矿产的行政令 供应链安全 | 美国从科技供应链中剔除中国行动的内幕(外媒编译) 供应链安全 | 英国政府推进《电信(安全)法案》以确保供应链安全 《关于推进生物技术和生物制造创新以实现可持续、安全和可靠的美国生物经济的行政命令》(全文翻译)