查看原文
其他

摇篮资讯 | 谷雪梅担任摇篮计划17期导师!导师团名单陆续发布中

亚杰商会 2022-09-24

The following article is from 未知的Alpha Author 阿姨


亚杰商会自2004年落地北大朗润园以来,始终致力于推动青年创业家的进步与成长。2006年,亚杰正式推出“未来科技商业领袖摇篮计划”(简称“摇篮计划”)公益项目,用实际行动帮助创业家们实现梦想。

 

17年来,摇篮计划已经荟聚了500位大咖导师、800余位创业家,目前已有62家企业上市,助力超过5000亿人民币的投融资。

 

师者,传道授业解惑也。摇篮计划每期都邀请科技、商业、金融投资等各界精英组成强大的导师阵容,很多优秀导师还会连任,同时也不断有新导师加盟,补充新鲜的血液。值此摇篮计划17期招募盛大开启之际,亚杰迎来了一位新导师:谷雪梅正式加盟!



前谷歌中国研究院副院长、阿里集团副总裁、菜鸟网络CTO谷雪梅


谷雪梅,本科毕业于清华大学、硕士毕业于卡内基梅隆大学计算机科学学院。硕士毕业后,2005年1月加盟Google,2006年2月调任Google中国,成为Google中国第一位本土女工程师。在2015年加入阿里前,其为谷歌中国研究院副院长,主要关注大规模分布式计算平台、搜索推荐及广告、知识图谱等方面的技术研发。


2015年,正式加入阿里担任阿里巴巴集团副总裁。同年12月,负责阿里新成立的中台事业群下辖的搜索事业部,后又短暂任职阿里妈妈产品和技术负责人,并于2017年“双十一”过后前往菜鸟网络任职CTO。


谷老师长期致力于搜索技术研发,对搜索有着独到、深刻的理解。现转发谷老师撰写的《搜索是个世界观》一文,先睹为快!


文章转载自公众号:未知的Alpha

ID: echos_world



搜索是个世界观


在曾鸣教授《智能商业》一书中,提起两个核心概念“网络协同”和“数据智能”,其中数据智能主要引用了我们团队的工作。很有幸在过去20年,参与和旁观了数据智能进入互联网商业运作,大数据和算法也被几十亿用户每天使用。


数据智能的核心场景是“搜广推”,即搜索、广告、推荐。这些场景创造了万亿市值公司若干,前沿技术若干,但核心逻辑非常简单,即把用户需求和内容供给做最佳匹配。搜广推里,最先出现的是搜索,然后是广告(主要指效果广告),然后是推荐。从搜索人看,广告是带着商业目的的搜索,推荐是没有关键词的搜索。所以我们也经常自嘲,搜索像个大锤子,世界在我们眼里就是墙上的一堆钉子。没有搜索砸不进去的钉子,没有搜索解决不了的问题。


这个观点当然不全面,但从解决问题的效率上看,搜索,和它代表的数据智能的确是非常好用的工具。所以和大家分享它的底层逻辑,以及效率来源。



无序变有序



搜索的核心是“索引”(index)。搜索可以没有爬虫,没有酷炫的召回和排序,甚至可以没有倒排索引,但一定有正排索引,简称索引。索引的作用是把信息按某种方式组织起来,是无序变有序的过程,是熵减的过程。


所以,任何需要被秩序化管理的业务都可以考虑使用搜索。举一个貌似和搜索完全无关的例子:物流行业有个刚需,识别暴力分拣。这个常见问题很难进行精细的人工管理,所以工程师们想,既然操作空间内有摄像头监控,何不通过计算机视觉技术识别?但前提是要对暴力分拣图像进行大量标注才能开始训练模型,而暴力分拣的形态很多,识别准确率一直上不去。尽管行业内有厂商提供解决方案,某毒舌(其实就是我)认为其作用和根据大猩猩掷骰子买股票的效果差不多。


换条思路,如果不对暴力分拣的行为进行直接识别,而是用CV对物体进行识别,然后构建物体沿时间轴的轨迹索引,根据物理公式计算物体的移动速度,则可以清晰判断暴力分拣。而CV的物体识别准确率接近100%,牛顿力学公式也非常可靠,之前在标注暴力分拣时碰到的ground truth不明确的问题,用索引+mapreduce的思路迎刃而解。


做ToB业务之前,我以为搜索只适合做用户产品,但经历上面这个小例子,以及无法用几句话讲清楚的“包裹引擎”(把中国每天在路上的几亿包裹用搜索引擎的方式跟踪和管理),我发现索引是一种方法论,ToC和ToB都合适,先分析业务的底层信息,对信息进行解构、重构、组织,如果能构建出基础索引,后续可以通过很多数据结构和算法的方式高效处理。当然,索引的形式有很多,可能是对信息空间的索引,也可能是时间和空间的索引,甚至不一定是表格,而是张图,节点之间有关联,可以推理,这就到了知识图谱的领域,但核心是把无序的信息流程化地、系统性地组织起来,赋能业务逻辑。


额外说一句,组织管理也可以遵循熵减原则:虽然工作环境不是热力学第二定律要求的“封闭体系”,但熵减的大原则还是有指导意义的,任何一个组织,在不做管理动作的时候,自然而然地往无序、熵增方向发展,所以管理动作应该是反其道而行之的过程。工作中各种组织调整都是正常的,作为leader应该在调整后特别关注系统的“熵”值,即使目标是好的,也可能因为沟通不到位,管理动作不细致深入,而给员工带来更多困扰,增加系统的无序程度。



双边市场



回到互联网领域,搜索不止是技术、是产品,也是个经济学概念上的双边市场,或称平台经济,即搜索引擎作为平台,链接了买方(对内容有诉求的用户)和卖方(提供内容的第三方网站)。Google一直淡化它作为平台经济的掌控者地位,而强调“用户第一,其他会接踵而至”(User first,everything else will follow),但“知识卡片”这个产品特别明显地展示了硬币的反面。


“知识卡片”(knowledge card):比如搜索“哈利波特”,搜索结果页会出现一块“卡片”区域,包含这个关键词的核心结构化信息,如果用户有更多需求,再点击结果页的其他链接。知识卡片非常符合user first的理念,把用户关注的最核心内容直接显示在结果页上,可想而知,上线效果和口碑都非常好。但是……6个月之后,为知识卡片贡献大多数内容的wikipedia从Google获取的流量减少了4%。曾和我们团队并肩作战的Wikipedia的创始人来电表达忧虑,我们都理解Google追求用户体验的理念,但站在他的视角思考问题:Wikipedia是非赢利组织,流量变少的直接后果就是捐款变少,而维持庞大的集群和开发需要钱,这是非常现实的问题。甚至,从“产权”意义上说,Wikipedia创作了内容,而Google免费使用了这些内容,且伤害了内容创作方的利益。——由此衍伸,提供内容的第三方网站与Google在商业利益分配上都值得再推敲,这不是一句“用户第一”就打发得掉的。


从那时起,我开始关注互联网应用的经济学模型,并很快收敛到Jean Tirole的双边市场和平台经济理论,他的理论很好地解释了Google的局限性,并让我看到电商搜索和推荐在双边市场机制设计上的精妙之处。非常凑巧,在我决定去福报厂的时候,Jean Tirole获得了2014年诺贝尔经济学奖。(下一篇会展开讲一下双边市场理论,双边市场里最典型也最赚钱的搜索、推荐和电商的玩法,以及作为创业者如何和市场领先者竞争。)



用户兴趣



上面第一部分是物理学,第二部分是经济学,那么第三部分谈谈搜索里的人性和社会学价值。


除了地图,大部分搜索场景里结果没有对错,只有好坏。所以,除了和关键词的匹配度之外,衡量搜索结果一般用“用户满意度”,但这个指标过于主观,且不易采集,所以退而求其次,用点击率(CTR)和停留时长等客观指标代替。

而所有的客观指标都可能被滥用。在双边市场里,当平台(如Google)和平台上的卖方(如第三方网站)利益不一致的时候,零和博弈就不会停止。卖方想用更低的成本获得流量,而平台则要打击这种行为,维护双边市场的公正,所以这些年搜广推的反作弊、反欺诈、反刷单一直存在,道高一尺、魔高一丈,缠斗宛如波澜壮阔的史诗。


既然“用户满意度”不能只依赖客观指标,而靠人工采样获得的满意度数据又太少,所以搜索在非常早期就采取了Navboost,即把其他用户点击的搜索结果加权。这本质是一种共识机制,这种机制后来在推荐里大放异彩,即最常用的u2i。多年过去,搜索和推荐算法越来越丰富和酷炫,但在满足用户上的底层逻辑一直没变,说人话就是“在我为你选出的这些结果里,其他用户比较喜欢这几个,要不你试试?”


所以当运营问:为什么用户会对这样的结果满意?为什么?为什么?很抱歉,当下的搜索和推荐都不擅长发现因果性(causality),所以只能关注相关性(correlation)。这个问题我思考了10年,直觉上相关性之下必有因果性,所以一直试图找方式验证。


10年前做第一版知识图谱,先构建了最初级的图,有实体(节点),有实体间的关系(节点之间的边),当时就在想除了实体之间的已知关系,还可以推导(infer)出未知关系,所以节点之间的边会越来越多。后来在福报厂带搜广推,对inference的执念不改,最看好graph embedding方向,因为相信它是构建和推演user/item底层的庞大隐含特征空间的最佳工程实践。这项工作很难,不在算法,而在工程,因为对边的计算量是节点数的阶乘,虽然可以做大幅矩阵裁减,但仍比当下的基于KV表格的,以mapduce为核心计算逻辑的工程问题难很多。


最近两年比较少关注搜广推技术的发展,但应该没有革命性的突破。个人观点,看好两个技术:


  1. 图计算引擎,主要是解决计算节点之间的信息吞吐和热点问题。这几年大家都在讲“算法工程化”,但是,很多底层的工程基础设施是特别需要算法优化的,权且称为“工程算法化”,但对大规模工程体系熟悉又懂算法的交叉人才很少见,以至于图计算引擎进展差强人意。

  2. 针对graph embedding矩阵分解优化算法,这个数学分支最近有些突破,计算复杂度降了1.4%次方(如果没记错的话)。算法科学家们可以参考。

“用户兴趣”这个部分写得又长又干燥,为了挽尊说点好玩的吧。搜索进化到推荐的里程碑是今日头条的崛起,但身边很多同事卸载了头条app,因为嫌弃它推荐的内容太low,不符合自己的兴趣。但分析一下所谓low的内容怎么来的:


  1. 整个内容生态很low,没有好东西可以推荐;

  2. 系统识别用户兴趣后推荐了low的内容。


首先,1是不成立的,头条里有非常多的好内容,且持续有更新更好的内容出现。至于2么,推荐系统固然会受到大众数据的影响,但个人因子也是权重很高的,它好像一面镜子,你是谁,它就如实反馈。所以low的不是系统,是你,该嫌弃的也不是app,你的兴趣可能就这么low。所以装上头条吧,如果随着时间的推移,页面里出现更多的好内容,那么恭喜,你成长了~



迭代优化



从1998年开始成为Google用户,这23年来我看到的最不可思议的事情是,数据智能的底层逻辑非常简单,却可以发展出不亚于人类历史上重大文明的影响力,无论从产值、市值、人口数量、以及精神层面的依赖。—— 这种被称为“新商业文明”的现象不是指单一企业,或单调的搜广推产品,而是由这些产品衍伸出来的大数据智能,和相关的互联网巨头。


既然被称为新商业文明,要理解它的核心诉求就先看看它竞争的稀缺资源是什么,比如农业文明竞争土地和劳动力,工业文明竞争资本和专利,互联网商业文明目前看竞争的是算力、算法、大数据。为什么呢?因为这种文明追求的是快速反馈带来的迭代进化。工业时代,推出产品以月、甚至年计,市场反馈闭环非常长。而搜广推为核心的数据智能应用,反馈闭环以天、甚至小时计(计算能力完全可以做到亚秒级,只是用户反馈是小时级),所以它的进化速度和工业风的现实世界比就像怪兽,哪怕开始的时候很蠢,但架不住学得快,且7x24不知疲倦地学。


工业界感受到了巨大压力,希望用数据智能实现升级,RPA是最近投资领域非常火热的话题。但好多从互联网出来的创业者感慨改变传统行业的艰难,因为对反馈速度和迭代效率的要求不在一个数量级。业务策略的灰度和AB测试,实时数据反馈和相适配的业务决策……这种思维范式的碰撞还有很长的路要走,但无论怎么艰难,整体趋势仍乐观:即使现有的巨头不容易改变,总会有后起之秀用更快更高更强的方法挑战现有秩序。


汤因比是100年前的英国历史学家,研究宏观历史和文明进化。他在《历史研究》一书中否定了静态的地理决定论,提出了“挑战-应对”为核心的动态文明兴起观,“挑战-应对”简单说就是迭代优化:文明遇到挑战,应对过去就更壮大一些,然后再挑战,再应对,不停反馈,循环优化,直至强大的文明体系形成。(文明的持续和衰落先不谈,这里只说文明兴起)


挑战-应对理念和我们身处的数据智能世界、以及被数据智能改变中的世界几乎匹配。恰当的历史观可以指导实践:挑战并不可怕,没有挑战才会让文明的兴起停滞。而应对,则是生存的唯一选项,要活下去就要努力,996被认为是福报,从宏观历史的角度看并没有错。我们身处这个巨变的时代,所有人都可以成为挑战者,所有人都可以成为文明的塑造者。


依然拿《三体》结束:给时间以生命,给岁月以文明。





导师已经陆续就位,

你还在等什么?

摇篮一直是创业者温暖的家,

欢迎更多优秀的创业家加入我们,

让我们一起追梦!


点击原文链接 一键申请


或滑至图尾 码上报名




-END-


亚杰基金LP年会圆满落幕,2022一起向未来!

摇篮星闻 | 90后创业新星史晓刚荣获2021年度“北京榜样”年榜人物!

摇篮布道 | 刘晓松:基金的投资逻辑

摇篮星闻 | 石俊峰入选2021北京青年榜样 理财魔方荣膺金融科技双50强



关注“亚杰商会”

成功不能复制

智慧可以传承

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存