查看原文
其他

Z Potentials|高继扬,92年清华系操盘通用机器人,顶级自动驾驶交付经历,多家顶级风投重注

Z Potentials Z Potentials 2024-06-19

本期我们有幸邀请到了星海图的CEO高继扬。继杨是92年的年轻创始人,物理竞赛保送至清华电子系,后在南加州大学师从Ram教授,3年完成计算机视觉博士学业。

毕业后继扬在Waymo和Momenta开始他的职业生涯,获得了非常宝贵的自动驾驶全栈量产交付经验。这段经历带给继扬扎实的工程能力、AI落地的第一性原理思考,和探索具身智能Scaling Law的一手经验。

星海图的团队成员是继扬多年共战的伙伴和清华师兄弟,成立不到一年的时间里,已获得百度风投、金沙江创投、IDG等多家知名基金的连续投资。

本期万字访谈中,继扬向我们详细分享了他对AI科研、工程、具身智能商业落地乃至打造组织的思考。我们对继扬第一性原理的思考方式,强烈的创业的愿力和实地调研精神印象深刻,也惊喜于继扬创业以来的迭代成长。期待能用文字记录向读者一一传达。Enjoy!:)
  • 工程的本质是拆解+测量。90%的工程问题,通过重复方法论,就可以得到90分以上的结果

  • 自动驾驶是最简单形态的具身智能,在系统架构、产品定义、到测试,都是高度相似的。长期看,具身智能是改变人类生产力结构的机会

  • AI的一个本质规律就是它一定会失效,失效成本高意味着商业闭环的难度大。未来所有成功的AI产品,必须满足低失效成本和低数据获取成本

  • 技术是具身智能的主导变量,对技术的认知决定了怎么构建产品和商业闭环。星海图会采用递进式场景扫描,用一脑多形多场景的思路,面向终局,积累高质量数据

  • 任何 AI 的 Scaling law 都需要满足三个要素,大量、高质量的数据、可扩展的训练目标和具有强大表征能力的模型

  • 具身智能Scaling law 的第一阶段一定是真实数据加上模仿学习,必须建立在商业闭环上,而学习效率直接决定了商业上能不能跑通

  • 上肢的操作是最复杂的,也是存在分歧的。我们的观点比较鲜明,起码往未来三年,强化学习结合仿真器的路线不能通往终局

  • AI没有魔法,有的只是在正确方向上高速迭代

  • 最优秀的人,不需要绩效管理,但需要文化引导。我们定义的人才,具备好奇心、求胜心、反思能力和行动力,以及脱颖而出的“手艺”
01 从象牙塔到产业界,3年博士毕业,扛起多项量产工作,90后的高斜率成长

ZP:请继扬先介绍下自己吧,有哪些关键的人生经历?

继扬:大家好,我是星海图的创始人高继扬。我1992年出生,高中通过物理竞赛保送到清华。从小没觉得自己有什么特殊的,或者说没表现出什么,不过确实从小想做一些不一样的事儿。

我觉得能够把一个人和其他人区分开的,就是是否有高远的志向和梦想,想要把自己对世界的价值最大化。会在这个过程中不断地修正自身的缺陷,也不让自己停在舒适区中。

我2011年开始读本科,大一大二的专业是电子工程系,大三转到微纳电子系。大学时期就非常想创业了,但当时意识到芯片方向不太适合刚毕业的年轻创业者。转折点是大四下学期去商汤实习,是我第一次接触到人工智能、深度学习,模模糊糊中觉得这个东西未来可以让大家不编程了,就是我们现在说的软件2.0。

刚好大四也在考虑申请留学,就想一定要读这个方向的博士,后来就联系到清华4班的孙晨学长,现在在布朗大学做教授,通过孙晨进入到USC IRIS计算机视觉实验室,Ram是我的导师。(ZP注:Ram Nevatia,南加州大学计算机科学系计算机视觉领域的研究专家,在多目标跟踪领域取得了重要的突破。)

到了USC,我给自己定了两个目标,第一就是要坚持做计算机视觉的研究,第二就是快点毕业,加速创业进程。我最初定的目标是四年毕业,实际上比自己预算的毕业时间更早,三年就毕业了。

18年毕业之后找工作,决定先去自动驾驶行业,就去了Waymo做感知,后来意识到Robotaxi商业模式的问题和Waymo的一些问题后,回国在Momenta做量产,去年四月份左右把量产系统交付掉后离职了,23年9月份创立了星海图这家公司。

ZP:在商汤实习期那个时间点,AI在什么发展阶段?继扬参与了哪些工作?

继扬:当时AlexNet已经出来了,主流框架是VGGNet、GoogLeNet。我当时主要参与的是人体关键点检测,人体肩膀和肘的关键点的检测,我其实心里很感谢商汤的,在完全不会的状态下给我机会去学习成长。

ZP:USC博士毕业应该有很多选择,为什么想做自动驾驶?

继扬:找工作的时候,把AI相关领域都看了看,大致上是看了四个领域:第一是 AI+安防类的公司,商汤做的比较好;第二是 AI+广告,是Google、 Facebook的机会;第三是AI+Cloud,在云上开放API给大家用;第四就是自动驾驶。

我通过面试的方式接触了这四个领域的公司,最后觉得自动驾驶,第一是以AI为核心的行业,第二是它昭示了一个更广阔的未来——具身智能。

我觉得自动驾驶其实就是AI机器人,因为从系统架构、产品定义、到测试,都是高度相似的。自动驾驶是最简单形态的AI机器人,执行在公开道路从A到B指令的机器人,所以觉得先在Waymo做自动驾驶。

ZP:能分享一下在Waymo做出VectorNet的故事吗?

继扬:在Waymo,我和赵航(Waymo)、孙晨(Google Research)在一起做出了VectorNet。VectorNet 是一个基于神经网络的预测和规划算法,在此之前都是基于规则和优化的。我们当时希望用深度学习的方式去解决问题,最开始用CNN做。到了2021年8月,我们意识到CNN的表征能力是不足的,开始尝试用矢量的方式表达地图,以及用图神经网络的方式去做Encoder。当时Waymo内部正好有为期一周的Hackthon,就趁这个机会有了尝试和突破,后来还投了CVPR。后来很多自动驾驶也都用上了类似的思路。

VectorNet论文作者团队(赵行、高继扬、孙晨)

ZP:我们也知道继扬在Momenta有很重要的贡献,可以给我们的读者介绍您做的事吗?

继扬:我在Momenta最开始负责视觉感知,之后先后负责了定位、规控、泊车、NOA领航辅助系统、AI基础设施的产品。2022年年初开始负责泊车,4个时间将泊车系统的成功率从60%提升到95%,进入量产Ready状态;同时将定位也做到了基本可用的状态;到2022年6月正式开始负责NOA领航辅助系统系统,也就接手了规控、NOA系统研发团队,2023年4月正式交付给了客户上汽。

02 创业序章,工程的本质就是测量+拆解,AI的技术规律需与商业模式匹配

ZP:什么时候有了创业的想法?

继扬:大概是在读博的时候。当时去USC给自己定了目标,一是只想去IRIS计算机视觉实验室,二是希望尽快毕业,我本身的志向是创业,但创业之前想先在工业界工作一段时间积累经验,已经想好了在美国工作几年。

创业模糊的方向是人工智能,毕业的时候明确了做机器人,当时具身智能这个词还不是特别火。但长期的思考是,以20-30年为周期,具身智能改变人类生产力结构的机会。以及一个更底层的价值观,人类能够更幸福的基础是物质上更丰富,生产力水平更高,这是一个必要条件。互联网没有改变生产力水平,改变的是生产关系,AI+机器人是能根本上改变人类的生产力结构。

ZP:为什么选择在国内创业?

继扬:回国创业的原因,第一个是基于内心最基本的冲动:想做事。在美国可以有很轻松愉快的生活,物质上也能得到满足的。但始终会觉得自己的能量没有完全施展。加上我还是比较爱国,认可我们国家,就想回国干点事儿。

第二个是觉得在Waymo做成了我想做的事儿,也积累了工程经验。一是学术上、技术上做出来了我满意的工作。二是我在Waymo也接受了完整的工程训练,工程的本质就是拆解+测量。

面对一个大的复杂困难问题时候,首先做拆解,拆解成 3-5个不那么复杂的问题后,对每一个问题再做测量,测量就是有一个指标去评价这个问题。如果你发现问题还是太复杂的时候,再重复上面的步骤。最后你会发现,一个复杂的问题拆到最原子的情况下就是代码以及针对这个代码做的最基本的单元测试。

我也了解学习了自动驾驶全栈的解决方案,虽然我当时只做感知,但是是有机会去学习和参观上层代码的。四是到最后我也带了七八个人完整地做过一两个项目,经历过从框架定义,到共同实现,再到上线交付的过程,再往后的话边际收益开始递减了。

第三个也是我真正下定决心的一点,就是看到Robotaxi商业模式的问题和Waymo的一些问题。Robotaxi商业模式的问题是它和AI的技术规律是不匹配的,Robotaxi商业模式下,产品的单次失效(试错)成本太高了,而AI的一个本质规律就是它一定会失效,失效成本高意味着商业闭环的难度大,很难做到单次失效成本<两次失效间的收益,所以当时觉得Robotaxi的商业模式是有问题的,它在未来一定会出现,但很有可能不是这个阶段,也不是Waymo这样的模式。同时也意识到Waymo的一些问题,一是它把目标定为做区域级的 L4,这就衍生出各种各样的组织结构的问题、迭代方法的问题,像Tesla就不是区域级的L4而是大范围的L2;二是Waymo没有一个真正意义上的创始人,所以没有在公司里面说了算的人,我觉得这对于一个没有稳定业务的创业状态的公司是很可怕的,因为出了错之后没有人为这个结果负责,也没有人能有足够的Power去调整。于是我就想去做量产,因为量产失效成本低,还落地,所以就回国来做量产

ZP:刚您提到工程的本质,那科研也是类似的思路吗?

继扬:做任何工作都有它的基本功,比如工程的基本功就是拆解+测量,而做科研的人,也是在遵循一定的思考范式,比如做科研中最厉害的是提出问题的人,这是一类,比如要解决Image Classification的问题,然后基于这个问题做了一个数据集Image Net,这是李飞飞做的事儿,她提出问题、定义问题,这叫Problem Formulation;另外一类是针对问题提出Significant方案,比如Resnet;当然还有一类是针对既有方案做Incremental的改进,这个改进游分为几类,实验条件不变性能改变、性能不变输入变少(强监督变弱监督)。以上这些就是科研的基本功,那么工程的基本功就是拆解+测量。美团有一个口号是“苦练基本功”,发现90%的事儿,会被每日的基本操作所覆盖,用重复的方法论持续不断地解决问题,就可以得到90分以上的结果。

ZP:Timing上,为什么在这个时间点选择创业?以及您之前更多是自动驾驶的经历,算是一种转型吗?

继扬:我一直就想创业,博士期间只是觉得创业这件事光靠学术是不够的,需要在业界也积累些经验,在Momenta到22年年底的时候基本上所有的事情都负责过一遍了,再下去边际效益就递减了。而且我最基本两条人生观是第一我对这个世界的价值贡献要最大化。第二人生应该是一个享受的一个过程,你要去做自己想做的事,没必要蹉跎岁月。所以22年底就决定把手头量产的系统都交付好了就可以撤了。

在23年离职的时候就觉得继续做自动驾驶的话,Tesla在这个方面已经做得很厉害了,他是一个成熟的体系。而且在我看来自动驾驶就是具身智能的一种形式,从系统架构、产品的定义到测试,他们是都是高度相似的。所以我不认为我是跨行,我一直是在这个赛道上在做积累。

ZP:所以在Waymo和Momenta的工作经历,对今天做具身智能有哪些影响呢?

继扬:第一个就是商业层面,学会了关注两个成本,一个是失效成本,也就是犯错成本;另一个是数据的获取成本,我们看来所有成功的AI产品公司里,这两个成本都低,比如ChatGPT、Tesla L2,失败的AI产品公司里,这两个成本都很高,比如Robotaxi。

第二个是对生态位的思考。公司在整个大产业链条里的生态位特别重要,整个产业分工里不同生态位的毛利不一样,能拿到的数据也不一样,这就是为什么我们坚定本体要自己做、整机的设计要自己来,要直接面向终端使用者交付,中间不能隔开,不然数据就没有自主权,长期的发展会有问题。

第三个是技术层面。我到现在都认为,在这两家公司的研发经验积累了一套自动驾驶研发迭代的方法论,和具身智能AI机器人迭代的方法论是一模一样的,本质都是AI,都需要做数据闭环做迭代,只不过机器人要多一个操作算法,机器人是操作加移动,自动驾驶是单个移动。还有就是在Waymo那会养成了一个对工程的基本认知:工程=拆解+测量。

ZP:这次创业,星海图的创始团队是如何聚在一起的?

继扬:我们创始团队是四个人:我(左二)、赵行(右二)、李天威(右一)、许华哲(左三)

天威是UCL硕士,是我在Momenta的同事,他是校招进Momenta,五年升职4次到高级总监的职位,之后负责整 SLAM。我觉得天威用两个字描述就是“搞定”。他能交付、能搞定各种事儿。搞定背后也是有方法论的,能给客户解决问题,这方面我对他很有信心,我们一起在Momenta做了很多交付,配合默契程度也很好,他目前在公司里负责本体和系统这块。

赵行是MIT的博士,是我在Waymo的同事,我们23年2月份就开始聊创业这个事。他首先是能高瞻远瞩地定义方向,并且在这个方向上可以做出1-2个Shining的工作。作为教授,他是我见过的人里面少有既了解方向,又能看到落地价值的人,并且对未来继续做这事儿有很大的热情。

华哲博士毕业于伯克利大学人工智能研究中心,现在是清华交叉信息研究院的助理教授,领导具身智能实验室(TEA Lab)。华哲加入团队晚一些,但我们已经认识很长时间了,而且他和赵行之前也是清华的同事,关系也很好。

我觉得我们整个创业团队在融资战略、商业化方面需要经过锻炼,变成更专业的创业者,在不同的阶段可以游刃有余一些。我们这个团队是真正意义相知相识、志同道合、而且彼此有默契和信任,有共同的理想和方法论,所以这会是我们长期做这件事的重要保证,是我们这个团队独特的一点。

03 探索具身智能Scaling Law,低失效成本和低数据获取成本是关键

ZP:具身智能目前处在什么行业阶段呢?为什么选择这个时间点入场呢?

继扬:我看到三处变化。第一,从硬件层面,之前的机器不具备做智能的条件。为什么现在具备条件了?很大程度是自动驾驶让传感器、算力的价格降低了,并且技术更加成熟了。第二,操作算法一直在快速地进步,我们看到了一些能够以通用的、泛化的方式来解决问题的场景。第三是移动和感知在自动驾驶领域的积累,这是一个量变到质变的过程。这三个要素让我们觉得这个时间点做具身智能是OK的。

我们认为和具身智能和大语言模型的关系并不大。大语言模型的作用在于让机器人理解,但机器人的关键问题在于能否在物理世界执行。有了执行之后理解的价值才能放大。

ZP:您提到了落地场景,这点很关键,您认为具身智能公司应该怎么做落地场景选择?

继扬:在做场景选择的时候,我们需要回到两个最基础的原则,就是产品失效成本和数据获取成本。我们到现在还是一直用这两个原则去检验场景好不好。此外,还有一点要关注的,也是我们之前关注不够的:有需求不代表有付费,也不代表这个付费是痛快、利索的,是能够快速把营收规模做起来的。如果我们没法在一个好的场景里把商业闭环跑通,我们就会是这个行业的先烈。

我们曾经短暂尝试过社区最后一公里的场景。迄今为止,我都认为这个场景是有需求的。但这里面最大问题是付费链条太散,没有一个高度集中的主体能够收取费用。所以场景选择,我们也比较关注客户的付费意愿是否强烈,包括付费主体是否完整。社区最后一公里存在的问题就是付费方不完整,付费方都是小 C 端的客户,整体付费意愿也不是特别强。

在场景选择方面,也要考虑技术能不能落地。在下半年7月份,我们会让大家看到我们选择的场景。

ZP:大家对具身智能的期望是,能力可泛化,逐渐解锁场景。您认为能力和场景解锁的过程是怎样的?是相对线性发展的,还是会类似语言模型有突变点?其中的关键点是什么?

继扬:这个问题就是具身智能中的 Scaling law。 Scaling law 的前半段一定是没什么意思的,但是当它累积到一定量后就会发生变化。我们在做场景选择的时候,也会关注做的数据累积是面向未来的场景。

具身智能最终的运用一定是在生活场景中,与人互动的。其实很多工厂的设计都与人的限制相关,如果把人的限制都抛开,根据机器的能力重新设计,工厂可能会发生彻底的改变。具身智能最终服务的是与人进行交互的环境。我们在做前期的场景选择,这个场景所获得的数据必须对终局有贡献,累积的数据能复用到未来的移动和操作场景。

我觉得选场景,对所有具身智能公司是最有挑战的一条。你首先得特别清楚技术空间,我们在这个高速发展技术中的什么位置。同时,得比较清楚商业空间,各种需求都得看、 现场看。我们的策略就是递进式的产品扫描,看完一圈哪里不够深入就再看一圈。生活场景、仓储物流场景、工厂场景我们都在一圈一圈搜索。

ZP:您提到要选择对终局有贡献的场景数据。这个数据栈应该如何拆解,其中最稀缺的“数据金矿”是什么?

继扬:咱们回到技术。我们讲的“一脑多形”包含两个基础模型,第一是视觉感知基础模型。第二是运动控制基础模型,又包括上肢的操作模型,下肢的通过和移动模型。

对于视觉感知,通过传感器扫描获得的真实物理世界数据,这个最有价值。我们要想办法获取这种数据,而且把获取成本降下来。

对于通过和移动,拆成两个部分。一是复杂场景的规划问题:面对一堆人和障碍物,机器人如何规划路径。我们通过模仿学习来解决,看人在复杂场景怎么走。第二是, 困难且复杂的地形机器人如何通过。我们用强化学习解决。真实的环境数据是最重要的,在仿真器里,用地形数据训练。

上肢的操作是最复杂的,操作的认知也是存在分歧的。有些公司和团队认为强化学习结合仿真器能通向终局。我们的观点比较鲜明,起码往未来三年,这种方法是不靠谱的。

在第一个阶段,一定是真实数据加上模仿学习。真实数据就是要人操作的方式,在现实世界获取。遥操作的数据的获取,必须建立在一个完整的商业闭环里,才能降低数据获取的成本。

同时,对算法的要求就是学习效率要高。是10次遥操作就学会,还是100次,1000次。学习效率直接决定了商业上能不能跑通,因为这是边际成本。

仿真器加强化学习这个做法,我们认为在操作的发展脉络里面,它有作用,但不是主导作用。主导作用是真实数据加模仿学习。归根结底,技术是主导变量,对技术的认知决定了怎么构建产品和商业闭环,确实是很复杂的。

ZP:综合您提到的这些技术特点,您觉得具身智能是有先发优势的吗?

继扬:我认为做 AI 就像曾国藩所说的“结硬寨、打呆仗”。我不太相信,两三个人的小团队,一夜之间能做出特别牛逼的工作,因为 AI 的终局就是暴力美学。什么是暴力美学?就是“结硬寨、打呆仗”。就是一点点往前拱,在这个拱的过程中,保证方向对,迭代速度快。所以我们说,AI里面没有魔法,有的只是在正确方向上高速迭代。所以,对具身智能来说,公司的核心竞争力是持续的数据的获取能力和高效的使用能力。先发和后发,取决于我们能在多大程度、多快速度上把这两个东西建立起来。

ZP:您认为具身智能,可能像CV的历史一样,由学术圈提出更好的模型架构和公开数据集么?

继扬:对模型架构来说,学术圈是有可能提出更好的模型架构的。在 Transformer 被提出之前,大家用 CNN、LSTM 都解决不好 NLP 的问题。

但对于数据来说,我认为可能性不大,核心还是回到数据来源这个问题。如果是真实数据,需要通过成本很低的方式采集,数据采集成本又与商业闭环相关联。

如果是仿真数据,我的基础判断就是,你做学术玩一玩可以,但迁移到真实世界有很大问题。我们还是认为数据的获取和使用能力才是核心壁垒,我们要特别努力构建这个壁垒。

ZP:一脑多形的路径选择是行业共识吗?是否有非共识?

继扬:有的公司选择只做具身智能的“脑”,给别人赋能。我觉得还是回到获取数据这个本质问题。起码目前的认知,自己做“形”,是帮助我们获取数据的很好的办法。因为你能够控制整个产品和使用场景。

ZP:怎么看强化学习的在具身智能的成熟度。

继扬:强化学习在机器人的 Locomotion 中的已经被证明是非常可靠的。双足和四足机器人的 Locomotion,背后的强化学习算法都是相通的,模拟环境是一样的,只是本体存在一定的差别。原理在于 Locomotion 的奖励设计相对简单,就是保证不摔倒。

但是操作的强化学习就复杂了,奖励函数的设计都很难。比如拿起水杯倒水,关键是确保水不会洒,这样的奖励在模拟环境中很难设计。尽管大家在积极探索强化学习在操作上的应用,但目前看,还没有可靠且能落地的解决方案。

ZP:那这样看,数据采集的速度是不是取决于硬件部署的速度?而不是我们所想象的 data driven 的方式,能够某天有一个突变点?

继扬:在这里,我们可以用图来说明。图的横轴表示时间,纵轴表示智能程度,你可以画三条曲线,每条曲线对应一种类型的机器人。传统的轮式机器人,前期增速度很快,但是上限低。因为它很多场景进不去,没有商业闭环和数据闭环。双足人形机器人,特别是配备灵巧手的人形机器人,上限特别高。但在这个阶段,增速特别慢,因为成本很高,无法建立商业闭环。

所以,对于要发展智能的公司来说,主要任务就是选择合适的形态,让我们在3-5年的发展周期里,有最高的智能上升斜率,“一脑多形”的“形”是手段,“脑”才是目的。

ZP:具身智能 Scaling law 的达成路径可能是怎样的?您认为行业探索到什么阶段了?还有哪些达成 Scaling law 的关键变量?

继扬:客观来讲,具身智能的 Scaling law 目前仍处于早期阶段。我觉得它在商业上的表现可能与 GPT 不太一样。GPT 直到 GPT-3.5 阶段才开始产生商业价值,到 GPT-4 阶段才爆发。

具身智能不必等到 3.5 或 4 阶段才有商业价值。在公司发展的第一阶段,我只需要一个形、一个场景,就能产生商业价值。具身智能在没有真正意义上的场景通用性的时候就能产生商业价值。这是我们比较乐观的地方。

达成 Scaling law 的最核心的条件是数据。数据不是充分条件,但永远是必要条件,没有数据是一定不行的。任何 AI 的 Scaling law 都需要满足三个要素,大量、高质量的数据、可扩展的训练目标和具有强大表征能力的模型。对于具身智能来说,我们仍然缺乏数据。我认为我们已经想清楚了训练目标,但仍需要时间去实现。

ZP:创业公司是否有机会引领,达到 Scaling Law?

继扬:我觉得关键是人才。目前看最有希望做出Scaling Law的人才都在创业公司。大厂不太存在特别sharp以及对未来非常坚定的人才。大厂也不是特别允许对未来特别坚定(笑)。因为你要做什么不取决于你的意志,取决于你老板的意志。

ZP:怎么看中国在具身智能行业的身位,有什么优劣势?

继扬:客观对比,相比于大语言模型,中国和美国的发展步调还算是同步的。在人才方面,中国可能算不上丰富,但我们最顶尖的人才质量上也不逊色于美国,还是有有厉害的人愿意回国。中国真正的优势在于我们有美国没有的场景,数据又是从场景里来的。

ZP:您觉得具身智能和大语言模型这两条技术线是并行关系,还是存在一定依赖关系呢?

继扬:我觉得不依赖,是并行的。具身智能最终三层架构。顶层是大语言模型或多模态大语言模型,做理解和任务意图拆解;中间层是指令集;底层是基础模型,包括感知和运动操作基础模型。顶层和下面两层是解耦的,顶层由大语言模型公司负责,下面两层是具身智能公司发展。

ZP:如果 OpenAI 的下一代多模态模型出来了,会对您的观点产生影响吗?

继扬:还是回归到一个最基本的点,多模态大型模型依赖的数据是什么。多模态大型模型依赖互联网数据,这些数据中缺乏大量的 3D 信息。对于具身智能来说,3D 信息是独特、重要的信息。单纯靠互联网数据学不出3D结构。虽然 Sora 展现了对物理世界一定的理解能力,但实际上它所做的是渲染,而机器人需要的是重建。这两者虽然相关,但并不完全相同。

ZP:怎么看未来具身智能的市场格局?

继扬:我认为在第一个阶段,具身智能领域的公司基本上都是 ToB 的。ToB 很难垄断,是个多方共存的状态。不同公司在各自探索的场景上也存在挺大不同的,但最终会收敛到几个真正能够取得成果的场景上。在这个收敛过程中,创始团队的技术理解、场景洞察力和执行速度,决定最后市场份额怎么分配。总的来说,我认为未来有4-5家公司同步存在

04 打造有战斗力的团队,实现具身智能体服务世界

ZP:您认为公司的发展可以分为几个阶段呢?分别需要多少时间呢?

继扬:在第一阶段,我们的产品肯定是一个形态与一个元场景相匹配。随着发展,我们会有第二种形态,适配更多场景。第三个大阶段,通过前期的场景和形态积累,我们的“脑”特别强了。这个脑可以通过简单的适配,部署到其他“形”上。这类似于 GPT经历了1、2、3、4代,推出GPT store,可以让用户直接用模型了。要让机器人达到 GPT-4 的阶段,我们要在一脑一形的基础上,逐步叠加元场景,让脑变得更加通用,降低部署成本和边际成本,然后开始向外开放。我觉得第一阶段做成,需要3-5年,就会有稳定的现金流了。达到第二个阶段大概是6-8年。

ZP:海外的 Physical Intelligence似乎直接想从第三阶段开始?您怎么看他们的路线。

继扬:我们内部有过讨论,没想明白Physical Intelligence 的数据从哪里来。数据是所有公司绕不开的问题。我们大概了解到,他们会购买一些机器人本体部署之后,然后一些数据。

ZP:未来一两年里,公司发展最关心的三个问题是什么?

继扬:第一件事是融资。这个阶段不是客户在选择公司,是资本在选择公司,决定哪些公司能留在牌桌上。第二件事关注业务。到底哪些场景能做哪些不能做,递进式做场景扫描。第三件事是组织建设。组织作为一个整体有没有战斗力是很重要的。

ZP:您觉得怎么打造一个有战斗力的组织?

继扬:第一是,每个人都必须有自己的手艺,并且能够兼顾上下的环节,这样整个公司能结成一张网,团队的战斗力就强。

第二个,是公司的文化。最优秀的人,他们不需要绩效管理,但需要文化引导。我们需要用正确的方式引导大家,对高素质人才做定义,对研发的迭代方法做定义,以及让大家重视客户价值。

我在公司中宣扬的人才素质就是“两心两力”:好奇心、求胜心、反思能力和行动力。因为我们要做的事情是突破边界的事情,得有强烈的探索欲望走出边界。走出边界之后就会有困难,得有求胜心去战胜,并在过程中反思迭代。最后,一切都归于行动。我们不关注员工的起点高低,但是特别关注迭代速度。

ZP:星海图的长期愿景是什么?未来希望成为一个什么样的公司?

继扬:一句话就是具身智能体服务世界。在全球范围内,100亿台机器人为 100 亿人提供服务。现在看是一个极其庞大的数字,但我认为是我们有生之年可能看到的世界,平均每个机器人服务一个人,劳动会变成一种选择。当然这不是我们一家公司去完成的。

05 快问快答

ZP:您有印象很深刻的书可以推荐给大家吗?

继扬:《曾国藩的正面与侧面》。我在大四申请学校不顺利的时候,看到了这本书,后来我也看了很多遍。这本书里讲曾国藩40岁前和40岁后判若两人。40岁之前他是儒家清流,以道德自居,不屑于与一些人同流合污。但是40岁后他组建湘军,平定太平天国军队,成为满清重臣。

驱动他转变的,是他在30-40岁时遭遇连续打击,想做的事都做不成。在那之后他悟出一个道理:评价一个人的标准,不完全是道德的高低,而是在想做一件事的时候,他能撬动多大的势能,而且最后能做成功。

这个道理套用到我身上,评价一个人,技术和学业的高低不是唯一标准,更是能在这个现实世界做多大的事,有多大的这个能量去做这件事,且能把结果交付出来。这些是最重要的,是当时我心态认知上的一个转变。

ZP:创业路上有什么人或者事情影响到您吗?

继扬:首先是我们创业的伙伴,伙伴是团队的核心。其次是我老婆,她很支持我,也很理解我。创业既需要对远方的目标有坚定,也需要内心有安定。坚定来自于对远方梦想的执着以及团队的支持,安定对我来说就是家庭的后盾。

ZP:继扬是第一次做CEO,感觉创业的压力如何?

继扬: 我感觉还好。具身智能是我一生的事业,短期的得失、快慢都是过程。我曾经问自己为什么一定要创业?我找到的答案是我享受这个过程,是我想亲身经历的过程,所以压力还好。

我觉得,通常压力和焦虑来自于行动不足,就是干的不够,该干的没干。所以我应对压力,首先就是靠拼尽全力去干,这是主动能动性之内的。也需要把自己放空,拿的起放得下。

ZP:期待什么样的同学加入星海图?

继扬:就是“两心两力”,好奇心、求胜心、反思力、行动力。以及有在具身智能领域中脱颖而出的“手艺”。

ZP:这一年的 AI 和机器人,有什么让您和团队最兴奋的进展?

继扬:我觉得 demo 性的工作不能让我感到兴奋。但如果特斯拉基于 FSD(全自动驾驶)V12 版本的 Robotaxi 推出,并且效果不错,我会觉得这是真的厉害,因为它是真的产生现实世界影响力,并且跑通了方法论

ZP:之前有预期到 FSD 的V12版本能达到现在的能力吗?

继扬:我觉得FSD找到了具身智能在公开道路的Scaling law,是预期内的。也证明了我前面讲的方法论是比较work的。

ZP:您通常通过哪些渠道来持续学习?

继扬:所有的渠道都可以。但我逐渐意识到,公开信息不是好的渠道。很多时候公开信息的Recall和precision都不是那么高。当然我觉得咱们这个公众号信息质量还是很高的(笑)。

对于创业而言,关键和有价值的信息通常来自于两个方面。一是行业前沿的进展,最好通过阅读论文获取一手信息,二是产业场景信息,一定要现场看,不要听别人讲。

ZP:最后一个问题,继扬怎么定义 10 年之后的自己?

继扬:我觉得还是回到我基本的人生观:尽了高继扬最大努力,做了一些对这个世界有正向价值贡献的事,同时在这个过程中,他没有蹉跎岁月,享受了这十年的人生光阴。

请注意,此次访谈内容已经过精心编辑,并得到了高继扬的认可 。有兴趣加入星海图的读者可以通过ZP联系公司 ,我们也欢迎读者通过留言互动,分享您对本访谈的看法。

Z Potentials 将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。


-----------END-----------



关于Z Potentials

🚀Z 系列正在招新一期的Z Explorer

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存