查看原文
其他

TikTok大劫案:美国总统也抢不走的武功绝学到底是什么?

老局长 星海情报局 2021-01-18


2020年7月30日,美国国会大楼。


高悬正中的大屏幕被分为了数个传输画面,画面上分别是苹果的CEO库克,谷歌及其母公司Alphabet的CEO桑达尔·皮查伊,Facebook的创始人兼CEO扎克伯格,和亚马逊创始人及CEO贝索斯。


这四家公司那时的总市值相加,超过5.7万亿美元,相当于英法两国2019年的GDP总和。


一名国会议员正襟危坐,皱起眉头,语气强硬地向这个世界上最有影响力的四个科技巨头提问:“请你们回答,你们是否认为,中国政府窃取了美国公司的技术?”


这是美国总统特朗普誓言必将封禁TikTok的几个小时之前。2020年所发生的一切,似乎都在创造历史。但扎克伯格在这场反垄断会议上炮轰TikTok的画面,注定将和整个事件一起,被载入现代商业社会的史册。


我们正在见证现代商业社会,最明目张胆的一次抢劫。


但绝大多数人还没有搞懂,这家中国企业到底掌握了什么样的技术,能让美国总统如此上心。


美国抢的是什么?


美国想要从字节跳动手里抢走的,到底是什么?


先给出我们的答案:不只是所谓的“算法”,而是数据+获取数据的能力。


为什么争夺的焦点并不是字节跳动所备受推崇的算法,我们后面再谈。首先我们先要弄清楚一件事:算法是什么?


算法和程序,是两个概念。简单来说,算法就是“解题思路”,而程序,则负责把这个解题思路,翻译成计算机能听懂并执行的命令。


我们平时用来写程序的各种语言,C++,Java,Python,就相当于英语,法语,温州话。但不管你用什么话来叙述一道题目,1+1=2是不会变的,同一个世界,同一个梦想。


以一道简单的数学题来说:已知两个条件:

  • a+b+c=1000

  • a2+b2=c2

求:a、b、c的所有自然数解。


题目不重要,我们有两种方法来解这道题。


第一种,列举,我把每一种可能性都列一遍,然后带入等式看是否成立。B站有一个Up主做过实验,这个算法在他的电脑上,跑出最终结果,用时共计1055秒,约合17.58分钟。如果你是人肉计算,可能要算到明天早上。


第二种,把c替换表示为“1000-a-b”的形式,然后带入等式求解;同样是这位B站Up主,第二种算法在他的电脑上,跑出结果的最终用时是:1秒钟。


算法二比算法一所用的解题时间缩短了超过1000倍。


▲ 改变一种算法思路,程序用时相差1000倍


通常更好的算法,解决问题的效率更高,同时解决问题时所占用的资源更少。好算法如同计算机界的袁隆平,我一亩地上长出的粮食可以养活1000个人,你一亩地只能种出10斤粮食,可能连10个人都养不活,这就是公司之间的技术差距。


摩尔定律我们耳熟能详:每块芯片上晶体管的数量每两年就会翻一倍,这使得电脑运行更快速,储存空间更大。但很少有人意识到,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示,在很多领域,算法所带来的进步,甚至超过了芯片所带来的进步。


站在这个角度,算法层面的优势,可以很直观地转化为一家商业公司的成本优势,这背后有惊人的商业价值。如果一家芯片公司可以估值超过1500亿美元,一家在算法领域优势巨大的公司为什么不可以?


问题仅仅在于,字节跳动的算法真的领先到了独步天下的这个程度了么?


不用疑问,我们现在就可以回答这个问题:在人工智能领域,世界上还没有任何一家公司的算法能够领先到这个程度。


也因此,美国人要抢的武林绝学,并不只是这套算法。


个性推荐时代的商业化启蒙


和普通人想象中不一样,字节跳动所依托的个性化推荐算法的基础架构,大约十来年前就是成熟的,这套基础架构某种程度上讲毫无秘密可言。


无论是头条,百度,谷歌;在中国,美国,欧洲,东南亚……几乎所有企业的个性化推荐系统,底层的基础都差不多,甚至有相当多著名的基础算法,本身就是开源的。


这种成熟,和两家我们再熟悉不过的公司有关,一是亚马逊,二是Netflix。这二者对每一个推荐系统从业者,包括张一鸣,都同样影响至深。


1998年,亚马逊创始人贝索斯决定通过算法,让计算机自动为顾客推荐相关图书。他们亚马逊将人类推荐和计算机推荐所创造的业绩数据进行了对比,结果发现:


人类惨败。


计算机智能推荐的业绩,一度占到了亚马逊总体业绩的35%左右。亚马逊成为了个性化推荐算法与商业化应用最成功的早期案例。


2006年10月2日,Netflix宣布了一场彻底改变个性化推荐技术格局的算法大赛:Netflix Prize算法大赛。


这次比赛,Netflix公开征集电影推荐系统的最佳算法,并承诺,第一个能把Netflix原有推荐系统Cinematch准确率提高10%的参赛者,将获得一百万美元的奖金


那一年,北京的房价,还只有8000元/平米。100万美元,你甚至可以在北京市中心买个1000平米的豪宅,大小相当于两个半标准篮球场。


这个竞赛后来被称为Netflix百万美元竞赛,吸引了全世界186个国家,超过4万个参赛团队参赛,大量经典算法在这次大赛中被开发出来,Netflix接过了亚马逊手中的火炬,成为了个性化推荐引擎商业化应用的又一个代表。


那一年张一鸣21岁,刚刚从南开毕业,进了旅游搜索网站酷讯,做垂直搜索编程。我们无法得知这次大赛是否在年轻的张一鸣心中留下过什么火种,但可以肯定的是,这两家公司都算得上“开宗立派之人”,在张一鸣后来的采访和演讲中,也反复出现过亚马逊和Netflix的身影。


字节跳动抢不走的武林绝学


如今各大高校的推荐算法课程里,都喜欢把互联网分为三个时代:分类目录时代——搜索引擎时代——个性化推荐时代。


分类目录时代的巨头是各大门户网站,搜索引擎时代的代表是谷歌和百度,个性化推荐时代的代表,今天看来,是字节跳动。


在Netflix百万美金大赛的6年后,2012年的3月,字节跳动在知春路的一幢民宅里诞生。


那时,市面上有相当多的新闻软件,其中不乏巨头。腾讯新闻,网易新闻,搜狐新闻,哪怕是初创类公司,头条也有ZAKER这样在业界有名的竞争对手。所有新闻分发类的App,在应用端的呈现方式都相差无几。


但同样的外壳之下,今日头条却有着与其他对手迥然不同的底层逻辑和驱动力:AI。


某种程度上讲,字节跳动一开始,根本就没想做新闻。


在那个主流还在招收移动端开发人才的年代,创立字节跳动时的张一鸣,招的最多的人,是机器学习算法工程师。他要做的,是一套人工智能领域最前沿的应用个性化推荐引擎——不是图片、段子、新闻,也不是短视频,就是推荐引擎。


但光有引擎是跑不起来的,总得把其他部件补全。底盘、车身、电气设备……做辆整车出来,才能开上路。


那构建什么样的应用场景,分发什么内容才好呢?


很简单:试!


亚马逊和Netflix能够被载入史册的一个重要原因,就是他们都是个性化推荐系统商业化应用的进程上,无法绕开的重要节点。这里的关键词,不是“个性化推荐”,而是“商业化”。


在字节跳动创立的初期,只有几个工程师的情况下,张一鸣就和这个团队一起做过数款app试水,这些app搭载同一套推荐系统,但分发的内容和应用场景各有不同,目的就是要找到市场反响最好的应用场景。


后来,从这十几个App里跑出来的,是搞笑囧图和内涵段子。这两个当家App和其他试水的App,又共同支撑起了最初的今日头条。


个性化推荐系统一般分三个部分:特征——函数模型——目标。


锌财经创始人、前猎豹移动全球内容总监潘越飞回忆,猎豹当时和今日头条是竞争对手,不同的是,头条上来就用算法分析,而猎豹那时还在用人工推荐系统。那时头条的人均使用时长是20分钟,而猎豹的人均使用时长只有5分钟。


后来猎豹开始使用基于纯热点的推荐算法,人均时长增长到了10-15分钟;使用了头条类似的个性化推荐算法之后,很快超过了20分钟。猎豹后来花了三、四个月,试图进一步提升人均使用时长,但最终,这个数据定格在了30-35分钟的区间,头条这时的人均时长已经突破了40分钟。


原因主要在于上述三个部分中的第一个部分:特征。


要让一套算法给用户推荐最合适他们的内容,首先,要让算法理解这些内容是什么。机器对内容的理解越准确,后期做匹配时也就越精准,整个系统的成长性和可拓展性也就越高。


▲ 常见的五种特征类别


潘越飞说,在初期的阶段,对于特征的理解,看不出太大的差异,大家跑得都很快。但越到后期,这种细节处理能力,就会慢慢凸显出来,最终造成难以追回的差距。


当今日头条上了视频的时候,它的人均时长一下子从40分钟,提升到了1小时15分钟。


“猎豹放弃了这个项目。”因为从图文到视频,几乎又要重新做一套新的特征工程。这个工程量惊人地大,大家在评估之后发现:“做不到了。”


但字节跳动不一样。


还记得么?字节跳动一开始的目标,是做一个“个性化推荐引擎”。


金庸写《倚天屠龙记》里说九阳神功,是“天下诸派内功不出其籓篱”,字节跳动做的这套引擎,就想努力开发一套用之四海皆准的推荐系统架构。


一如设计发动机一样,没有人会想要设计只有一辆车能用的发动机,我们都希望设计一台只要通过简单调试,就能装在所有车型上的发动机。


为了能够迅速试验迭代,找出更合适的应用场景,字节用同一套推荐引擎,搭载过数款App进行试水,它的个性化推荐本就不是单纯为了图文形式而准备的。而当风口从图文,转向短视频,字节跳动埋在血脉里的优势开始爆发出巨大的能量。


在抖音上线之后才开始追赶字节跳动,一切都已经晚了。


”能力也挡不住的天赋异禀


现在要回答我们一开始提出的那个问题了:为什么字节一直被推崇的算法,在这场抢劫中,并不是美国最重要的目标?


很简单:因为抢走了也没用。


个性化推荐系统的核心目的是两个字:预测。


比如世界上第一个机票价格预测网站Farecast,他们就通过行业机票预订数据库中的数据,综合每一条航线上,每架飞机上每一个座位一年内的综合票价纪录,来预测航班票价的。票价变动的原因有很多,但Farecast并不探究原因,只寻找规律。


我们说过,算法是解题思路,好的算法,节省时间和资源。但它最终决定的是效率,而不是准确率。


决定系统推荐准确率的,是数据量。


数据量越大,样本量越大,机器接受的训练量越多,最终做出的预测就会越准确。以Farecast举例,一开始这家公司预测的准确率并不是特别高,但到2012年时,公司积累了近十亿条价格纪录,其预测准确度已经上升到了75%,平均每张机票可以节省50美元。


TikTok的先发优势,确保了公司对其他竞争对手保持着数据量级上的碾压。不管是Facebook,还是腾讯,巨头们的钞能力,在绝对的数据量面前,都毫无疑问地失效了。即便是有完全相同的一套算法,包装成为另一个App和它竞争,也不可能达到同等的准确度。


这就像练武,算法是见招拆招的武功招式,数据是经年累月的内功修炼。就算招式练给你看,内力不够深厚,你也发挥不出效果。


自2012年至今,这套算法系统不断更新,字节跳动就像一个从出生起就不断修炼上乘内功的人,骨骼清奇,筋脉健壮,后天修炼的人很难追上它的进度。


有朝一日,骨骼清奇的少年去参加天下武林大会,前武林盟主发现你天赋异禀,再这样下去可能要威胁他的盟主之位,决定防患于未然,想要挑断你的手筋脚筋,废你武功。


但又看了一会,他发现你这武功玄妙,废了可惜,于是决定做一回丁春秋,用吸星大法,把你毕生所学都给吸到他自己身上。再不济,至少给你种个生死符,不管你武功多高,最后都要听命于他。


——这就是特朗普。


有幸的是,字节跳动有一个足够强硬的师门,最终如何尚未可知。


从“屌丝逆袭”到“天选之子


如果说数据是这个时代的石油,那么以TikTok的受欢迎程度,抢走这家公司,就等于掌握了一条连接着全世界油田的输油管道。


有幸的是,过去的多年间,中国科学家和软件工程师们的智慧和努力,让这个管道现在掌握在我们自己的手里,不像半导体芯片和光刻机。


2000年,微软研究中心的米歇尔和埃里克,为了改进Word中的语法检查功能,做了一项实验。他们首先选定了4种常见的算法。


一开始:

  • A算法表现最差,准确率只有75%;

  • B算法表现最好,准确率达到了86%;

  • 最佳和最差之间相差11%。


接着他们开始给这些算法添加数据量。当数据量从500万个单词,提升到10亿个单词的时候,情况发生了彻底反转。


  • A算法一跃成为最佳算法,准确率提升到了95%以上;

  • B算法成为表现最差算法,但准确率也已经提升到了94%。

  • 最佳和最差之间相差只有1%。


这个实验结果意味着:即便算法不是最好的,只要我有压倒性的数据量,也可以在最终的准确率上碾压对方。而刚好,我们的算法不弱,在数据方面,还有着得天独厚的优势。


以2015年来说,我们每天可以从互联网上爬取到的中文内容的吞吐量,大约是600万条/天(图文);美国大约是200万条/天,全欧共计50-60万条/天,印度共计50-60万条/天。


这意味着,一天中文内容的训练量,就超过了全球其他所有地区的总和。


领先如此之多的“训练量”,要是放在热血漫里,俗称:努力。


故事开始的时候,热血漫男主们看上去总不太像是天选之子,但通常看到某一个阶段,你才会发现,樱木花道天赋异禀;柯南出身推理世家;旋涡鸣人是四代火影的儿子;蒙奇·D·路飞一门显赫,祖父是海军中将,老爸是黑道大Boss……


不同的是,动漫男主们的出身无论如何都不可能由自己决定;一个企业的起点,却可以由领先于时代的前瞻性思维所决定。


乔布斯构建苹果产品矩阵的时候,核心的理念就是“数字中枢”,从iPod到iPhone,再到iPad,更像是一种产品上的迭代。iPod可以过时,但基于这个理念很快就有了iPhone,每一个开创时代的现象级产品,背后都是一个领先时代的理念在支撑。


欣慰的是,中国的企业也在努力用下一个时代的方式思考,做下一个时代的产品。比如华为鸿蒙,它做系统的逻辑就不是移动互联网的逻辑,而是物联网时代的逻辑。


你围追堵截,我可另辟蹊径;你废我武功,或许我不破不立。


科技没有国界,但科学家有。我们不惧开放,但封锁也未尝不是我们的好机会。


↓ 推 荐 阅 读 ↓


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存