查看原文
其他

疯狂的幻方:一家隐形AI巨头的大模型之路

暗涌Waves 暗涌Waves 2023-12-21



 |于丽丽

编辑 | 刘旌



在蜂拥而至的大模型团战中,幻方大概是最异类的一个。

这是一场注定是少数人的游戏,很多创业公司在大厂入局后开始调整方向甚至萌生退意,而这家量化基金却孤绝前行。

5月,幻方把下场做大模型的独立新组织,命名为“深度求索”,并强调将专注于做真正人类级别的人工智能。他们的目标,不只是复刻ChatGPT,还要去研究和揭秘通用人工智能(AGI)的更多未知之谜。

不仅如此,在这个被认为格外依赖稀缺人才的赛道,幻方还试图去集结一批有执念的人,并祭出了他们认为的最大武器:一群人的好奇心。

在量化领域,幻方是一家抵达过千亿规模的“顶级基金”,但它被这波AI新浪潮集中关注到,其实还颇具戏剧性。

当国内云厂商高性能GPU芯片缺货成为限制中国生成式AI诞生的最直接因素时,据《财经十一人》报道,国内拥有超过1万枚GPU的企业不超过5家。而除几家头部大厂外,还包括一家名为幻方的量化基金公司。通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛。

其实,这家很少被置于人工智能视野打量的公司,早已是一家隐秘的AI巨头:2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。

这意味着,单从算力看,幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。

只是大模型对算力、算法和数据都有强依赖,所以起步就需要5000万美金,训练一次需要上千万美金,非百亿美金公司其实很难持续跟进。各种艰难之下,幻方却很乐观,创始人梁文锋告诉我们:“关键是我们想做这件事,能做这件事,那我们就是最合适的人选之一。”

这种谜之乐观,首先来自幻方的独特成长路径。

量化投资是一个源自美国的舶来品,这使得几乎所有中国的头部量化基金创始班底,都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索着长大。

2021年,成立仅六年的幻方,抵达千亿规模,并被称为“量化四大天王”之一。

以局外人杀入的成长路径,让幻方始终像一个搅局者。多位行业人士向我们表示,幻方“无论研发体系、产品还是销售,都始终在用一种崭新的方式,切入到这个行业中来。”

一家头部量化基金创始人认为,这些年的幻方,始终“没有按照某种约定成俗的道路在走”,而是“按照他们想要的方式 ” ,即便是有点离经叛道或者争议,“也敢大大方方说出来 ,然后按照自己的想法去做”。

关于幻方的成长奥秘,幻方内部将之归结为“选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。

而更关键的秘密,或许来自幻方的创始人梁文锋。

还在浙江大学攻读人工智能时,梁文锋就无比笃信“人工智能一定会改变世界”,而2008年,这还是一个不被认同的执念。

毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多场景中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方。

一个有趣的细节是,在最早几年,曾有个同样疯癫的、在深圳城中村做着“不靠谱”飞行器的朋友拉他入伙。后来这个朋友做成了一个千亿美金的公司,名叫:大疆。

也因此,在做大模型必然涉及的钱、人、算力等话题外,我们还和幻方创始人梁文锋特别聊了聊,怎样的组织架构可以让创新发生,以及人的疯狂可以持续多久。

创业十余年,这是这位鲜少露面的“技术宅”型创始人第一次公开受访。

巧合的是,4月11日,幻方在发布做大模型公告时,也引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”

以下为对话:

做研究,做探索

>“做最重要、最困难的事”

「暗涌」:前不久,幻方发公告决定下场做大模型,一家量化基金为什么要做这样一件事?
梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。
幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。

「暗涌」:你们要自训一个大模型,还是某个垂直行业——比如金融相关的大模型?
梁文锋:我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。

「暗涌」:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。
梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。

「暗涌」:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。
梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。
大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。
我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。

「暗涌」:为什么你的定义是“做研究、做探索”?
梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
从近处说,GPT4还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。

「暗涌」:但研究意味着要付出更大的成本。
梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。

「暗涌」:那研究经费哪里来?
梁文锋:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。

「暗涌」:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?
梁文锋:我们也在找不同出资方在谈。接触下来,感觉很多VC对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从VC那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。

「暗涌」:我们对商业模式做了哪些推演和设想?
梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。

「暗涌」:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?
梁文锋:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。

「暗涌」:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。
梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。
从商业角度来讲,基础研究就是投入回报比很低的。OpenAI早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。
我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。

万卡储备与它的代价

>“一件激动人心的事,或许不能单纯用钱衡量。”

「暗涌」:GPU是这次ChatGPT创业潮的稀缺品,你们在2021年就可以有先见之明,储备了1万枚。为什么?
梁文锋:其实从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。
很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。

「暗涌」:什么样的好奇心?
梁文锋:对 AI 能力边界的好奇。对很多行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。

「暗涌」:所以2012年起,你们就开始关注到算力的储备?
梁文锋:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。

「暗涌」:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?
梁文锋:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。

「暗涌」:但这个过程也是一个烧钱行为。
梁文锋:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。

「暗涌」:显卡通常会以20%的速度在折损。
梁文锋:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。

「暗涌」:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。
梁文锋:电费和维护费用其实是很低的,这些支出每年只占硬件造价的1%左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。

「暗涌」:2021年,幻方是亚太地区第一批拿到A100显卡的公司,为什么会比一些云厂商更早?
梁文锋:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到2022年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。

「暗涌」:你会如何看大模型的竞争格局?
梁文锋:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。
头部的创业公司也有技术做得很扎实的,但和老的一波AI创业公司一样,都要面对商业化难题。

「暗涌」:一些人会觉得一个量化基金却强调自己做AI,是为其他业务吹泡泡。
梁文锋:但其实我们的量化基金已经基本不怎么对外募集了。

「暗涌」:你会如何去辨别哪些是AI信仰者,哪些是投机者?
梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。


如何让创新真正发生‍‍‍‍‍‍

> “创新往往都是自己产生的,不是刻意安排的,更不是教出来的”

「暗涌」:深度求索团队的招聘进展如何?
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底ChatGPT3.5风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。

「暗涌」:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在OpenAI、FacebookAI Research 等巨头的AI lab里。你们会去海外挖这类人才吗?
梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。

「暗涌」:为什么经验没那么重要?
梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。

「暗涌」:在创新业务上,你觉得经验是阻碍吗?
梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。

「暗涌」:幻方从一个完全无金融基因的外行,切入到这个行业,几年内做到头部,这条招人法则是其中秘密之一吗?
梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。

「暗涌」:为什么很多家试图模仿你们,却没有成功?
梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。
事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI,也没有所谓的任务。

「暗涌」:那你们的考核标准是?
梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。
因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。

「暗涌」:选来合适的人后,用何种方式让他进入状态?
梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。
其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。

「暗涌」:你觉得什么是打造一个创新型组织的必要条件?
梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。

「暗涌」:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?
梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。

「暗涌」:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?
梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。
但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。
很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波AI新浪潮之下,一定会有一批新公司诞生。

真正的疯狂‍‍‍‍‍‍

> “创新就是昂贵且低效的,有时候伴随着浪费。”

「暗涌」:做这样一件事,最让你们兴奋的是什么?

梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。


暗涌」:这次大模型招人,什么是我们必卡的条件?

梁文锋:热爱,扎实的基础能力。其他都没那么重要。


暗涌」:这种人容易找到吗?

梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。


「暗涌」:大模型可能是一件无休止投入的事,付出的代价会让你们顾虑吗?

梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看OpenAI也是烧了很多钱才出来。


「暗涌」:会觉得你们在做一件很疯狂的事吗?

梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。


「暗涌」:这里边会有一种精神奖赏。

梁文锋:类似你徒步50公里,整个身体是瘫掉的,但精神很满足。


「暗涌」:你觉得好奇心驱动的疯狂可以一直持续下去吗?

梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。


图片来源 |视觉中国

排版|杜梦‍‍‍





继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存