2003年,我在读研究生,选择“个性化推荐”作为我的课题。那时的我着迷于用技术带给人 serendipity —— 意外发现的惊喜。如今我却为推荐系统的发展感到悲哀:开发它的公司并不会去帮助用户发现珍宝,他们想要的只是成为注意力经济战的王者。
你即使对“推荐系统”四个字感到陌生,也一定见过淘宝的“猜你喜欢”,甚至你也遇到过这样的惊悚时刻:前一秒刚在微信群里和人聊某个话题,下一秒它就出现在了你的APP头条。
这些APP是如何得知你当下的兴趣,是输入法还是智能音箱出卖了你,这些隐私问题本文暂不讨论。我更关心的是:它是否会一点点的控制你,就像刘宇昆小说《完美匹配》中的人工智能助理蒂利那样。
这一瞬间,蒂利的声音突然在耳机里响起,“你也许要问问她是否喜欢当今的日本甜点。我刚好知道一个地方。”赛伊发现,蒂利的话让他突然非常想吃一点甜美精致的食物。他试图整理自己的想法。蒂利刚刚分析出连他自己没有想到的需求?还是在把那个想法植入他的大脑?蒂利毕竟只是科幻,我们似乎还犯不着杞人忧天。那让我们看看现实又是如何。
##推荐系统过去只是呈现无伤大雅的广告,如今目的却是要尽量占有你的时间。##
二十年前,亚马逊推出了协同过滤:通过物品之间、用户之间的相似性,为用户从上百万种商品中找出最可能感兴趣的那些。象牙塔中的研究者们对文章、图片、视频等多种内容探索个性化推荐算法,试图帮助人们找到自己喜欢的文章或音乐。但在真正网站上使用推荐技术的,多数还是为了让你多买点东西或多点几下广告链接。(相比之下,豆瓣是多么小清新的一个存在啊!)
在当时这也并不太坏:无非就是网页上有一个广告框,避开不看就是了。但2006年FaceBook推出信息流,如今微博、今日头条、抖音等都不再简单按时间排序、而是按兴趣筛选内容后,推荐系统对你的影响就大得多了。
今日头条有上万名销售,据说当销售们被广告主问及“已经在百度上投放广告、为什么还要投你们”时,应答的基本话术是告诉客户算法优势及今日头条的用户时长。今日头条的APP人均单日使用时长是76分钟。(本段信息来源2018年4月2日《第一财经周报》)
既然用户使用时长对售卖广告那么重要,APP厂商当然要想方设法把用户留在应用内了,所以,APP就会用个性化推荐的方法呈现更符合用户兴趣的信息,让用户不知不觉就被黏在应用里。
##推荐系统将你困在过滤气泡中。你耗费了更多的时间,却获得了更少的信息熵。##
在学术论文中推荐效果的好坏,需要综合考虑“准确率”和“召回率”两个数值。如果推荐给你100篇文章、你对其中70篇感兴趣,那么准确率就是70%。如果你有100篇感兴趣的文章,算法会推荐给了你其中70篇,那么召回率就是70%。
准确率高,推荐给用户的文章确实都是用户感兴趣的、用户就更有可能点击。但光有高准确率也不行,相似的文章看了一些后用户会腻烦,这时就需要挖掘用户可能感兴趣的其它内容。
但现实中的推荐系统不能也不会收集用户所有的兴趣偏好,算法效率的要求(50毫秒以内)注定了系统不会为一个推荐遍历浩如烟海的千万级信息。所以,不同于学术上会平衡准确率和召回率,实战中的推荐系统只需要给用户一点点新奇感、让用户继续留在APP里就够了;把更多用户可能感兴趣的不同的内容找出来(高召回率),从来都不是系统的工作目标。
图片来源:今日头条曹欢欢的分享
今日头条的算法架构师介绍头条的推荐算法,会通过分类、话题、实体、来源等打标签,依据热度、新鲜度、动作等排序,通过用户兴趣标签对内容做截断,高效的从很大的内容库中筛选比较靠谱的一小部分内容。
所以,当你放下手机,回忆起自己曾经热爱、但几乎未在今日头条上出现过、因而几乎就要被沉浸在手机中的你遗忘了的种种兴趣,就能明白:APP用简单粗暴的几个词语为你描绘的用户画像,实在是你应该逃离的过滤气泡。
##本应该帮助用户应对信息洪流的推荐技术,却成了消耗用户注意力的帮凶。##
忍不住感慨万分。2003年,当我偏执的选择“个性化推荐”作为研究生课题时,我们谈“注意力经济”,思考的还是如何帮人应对信息的洪流、在有限时间内获得最有价值的信息。但如今,衡量推荐系统好坏的标准,却是“它让用户在APP里停留多久”。我曾经着迷于Serendipity——“意外发现的惊喜”,但现实中对于APP厂商来说有多少意外多少惊喜已不再重要,广告点击才是关键。
上个月,看到头条发布搜索功能,感觉毛骨悚然。不再只是你闲暇的随意浏览,而是你刻意搜索的信息,都被一家如此精通算法、知道如何迎合你兴趣的公司控制,结果会如何?相比之下,百度搜索中的广告太容易识别,危害已经小很多了。
但我们却无法对此叫停。就算今日头条不“入侵”你的搜索结果,一定会有新的公司这么做,就连曾号称“don't be evil”的 google 也不能相信,而且技术总会越来越高明。我悲哀的看到,互联网时代隐私无处躲藏,我们造机器来帮助思考、机器却渐渐冻住我们的思想。这并不能简单的用“善”或“恶”来评价,而是技术发展的必然。
##读波兹曼的书来提醒自己警觉,了解推荐算法从而反制推荐系统,是减少技术对大脑入侵的可能有效的尝试。##
我去翻尼尔•波兹曼的“媒介批评三部曲”(《童年的消逝》、《娱乐至死》、《技术垄断》),想从人们与电视的对抗中,寻找一些和当今科技对抗的方法。波兹曼是个有些迂腐的老头儿,我总觉得他对新技术带来的正面影响太缺乏想象力,所以才会有那么多关于old good days 的怀念。但他的价值,就在于用一种不同的声音,惊起我们的警觉。若非如此,我们的大脑或许会被科技一点点入侵,直至醉生梦死。
在《技术垄断》的最后一章,老头子给了好些值得刻在心底的醒世名言,例如:
不接受效率是人际关系最优先目标的思想;
摆脱对数字魔力的迷信,不把计算当作替代评价的充足根据,也不把精确的计算和真理画等号;
至少对所谓“进步”观念抱怀疑态度,不把信息和理解混为一谈;
钦慕技术独创,但不认为技术代表了人类成就的最高形式……
还有一个方法,也能帮助降低技术的负面影响,那就是了解技术本身。我认识一些朋友,靠着对推荐系统的理解,反向驯化今日头条甚至抖音,效果还不错,至少他们从这些APP中获得的有价值信息的比例能远高于一般用户。
所以,下图的推荐系统课程或许能帮到你。这是给计算机工程师看的专业课程,但有七八篇是纯文科生也能看懂的;剩下的三十来篇跳过公式、算法光看文字,非专业人士大约能理解 1/4 左右吧。如果你足够好奇、对掌控推荐结果也感兴趣,不妨通过这门课来全面了解一下。
如果你还不想读那么硬核的东西,那就看刘宇昆的《奇点遗民》吧,也会有启发。
《完美匹配》中觉醒者与人工智能助理的公司的对话尤其让人深思:
“我们只不过揭露出人们内心已经存在的阴暗面。”瑞恩说,“珍妮没有告诉你我们捉住多少儿童色情狂,阻止了多少谋杀,揭露了多少贩毒集团和恐怖分子。通过滤除集权政府的宣传,散播异见人士的诉求,我们颠覆了那么多独裁者和强权分子。”“别把你们说得那么高尚。”珍妮说,“你们颠覆政府以后便和其他的西方公司一拥而入大肆获利。你们只不过是另有目的的宣传者——旨在把世界变得更单一,把每一个地方都变成密布着购物中心的美国郊区的翻版。”“像你这样愤世嫉俗倒是没什么难度。”瑞恩说,“可我为自己的成就骄傲。如果说把世界变得更好的代价是文化帝国主义,那么我们会兴高采烈地整理安排全世界的信息,从而让人类过得更有尊严。”“为什么就不能中立地提供信息?为什么不能像以前那做一个简单的搜索引擎?为什么要监控和过滤?为什么要操纵一切?”赛伊问。“中立地提供信息不可能实现。如果有人问蒂利一名候选人是谁,蒂利应该让他们去看候选人的官方网站还是批评他的网站?如果有人问蒂利‘什么是伊斯兰教?’蒂利该返回信奉者还是异教徒编写的网页?蒂利应该突出伊斯兰教历史和教义的哪个部分呢?‘我相信你’这个按钮上所隐含的责任我们要认真地担负起来。“Centillion的业务是组织信息,这需要选择和引导,还具有本质的主观性。对你来说重要——真实——的事物对别人不一定同样重要或真实,这取决于个人的评判。为了搜索你认为重要的事情,我们必须了解你的全部。这也就跟随之而来的过滤和操纵没什么区别了。”
你准备好,面对技术的看似无辜与振振有词的“恶”了吗?
点个“在看”,和朋友聊聊这个话题吧👇