查看原文
其他

Z Potentials | 程昊,离开大厂圆梦机器人,要做人形机器人的基础设施

Z Potentials Z Potentials 2024-06-19

人形机器人不仅仅体现技术成就,更深层地反映了人类对于自我模仿、创造和超越的不懈追求。自古以来,人形机器人的概念就富含着对未来和科技的无限想象,从古希腊神话中的自动机器人到中世纪炼金术士的机械人形,再到现代工业和服务业中的高度复杂机器人,每一步的发展都紧密关联着人类对科技进步的渴望和对理想生活的构想。

如今,AI 大模型和机器人硬件的进步,让人形机器人离现实更近了一步。本期我们有幸邀请到了人形机器人新星公司「加速进化」的CEO 程昊总,并展开了一场深入交流。程昊既是机器人发烧友,在清华大学自动化系就读期间多次参加Robocup比赛;也是一位资深创业者,曾创办朝夕日历,并被字节跳动收购。AI和底层硬件的进展如此激动人心,程昊选择离开大厂,再次创业,加入波澜壮阔的行业革命之中。

在这场交流中,我们一同探讨了,人形机器人的入局Timing、各个系统工程的技术进展、未来中美人形机器人的格局和演化方向,加速进化的定位和愿景。

让我们一起走进此次对话!Enjoy!


01 机器人坚定信仰者,从软件形态的日程助理,到软硬结合的人形机器人

ZP:请先简单介绍一下自己吧!

程昊:大家好,我是加速进化的创始人兼CEO程昊。因为之前朝夕日历的经历,经常被大家问到关于第一次创业的经历、以及为什么这次创业要做机器人,我是一个从小就非常喜欢看科幻类内容的人,甚至一度觉得自己被打了思想钢印,我非常笃定地坚信我们未来做事情一定离不开机器人,而且人类一定要探索太空,太空是一个对硅基非常友好但对碳基极其不友好的地方。

所以清华来我们学校招生的时候,我就问说哪个系做机器人,老师说自动化系,然后我就报了自动化系,到了自动化系我就问哪个实验室做机器人,说赵老师做机器人,而且刚好在研究机器人踢足球赛,就申请加入了。当时主要在做偏感知决策的算法,不过当时算法还比较初级,大概在零几年,开始动手真正做机器人就发现,距离真正能变成现实还太遥远了,传感器、硬件不成熟、AI也不成熟,当时想让机器人踢足球都挺费劲的,而且当时还是个“命题作文”。

(图为程昊09年在奥地利参加Robocup比赛的图片)

当时比较火的是Google Assistant、出门问问,我觉得这个方向其实也是机器人的子分支,苹果手机出来之后我觉得这就是机器人,有摄像头、麦克风、智能运算等等,这就是未来机器人的一个很重要的载体,就思考有机器人之后能干什么,那么智能助理就是机器人很重要的一个方向,所以第一次创业的方向就选了日程助理方向,主打智能时间助理的概念。

当时刚毕业对产品、市场和商业认知都非常浅显,但比较幸运的是赶上了移动互联网和大众创业万众创新的红利。回头来看,做得比较对的一件事是,我们认为Google Calendar 之所以能成,是因为有 Gmail,但中国没有邮件生态那么中国的Gmail是什么?我们觉得是微信,所以我就Push我们合伙人一定要装微信,非常早就开始做微信的服务号,通过扫码关注服务号,就可以做日程邀约,慢慢把用户做起来,后来字节要做飞书,就把我们收购了,加入字节之后就开始做飞书People板块。

(图为朝夕日历创业时期的程昊)

ZP:可以分享一下,从创立朝夕日历,到在字节带领庞大团队的感受和收获?

程昊:我刚加入字节的时候萌生了一个想法,就是觉得创业团队没有活路了,因为我发现字节这样的公司,又能招到特别牛的人、又有钱、战略又非常笃定、文化又非常简单,就和一个创业公司一样,在字节也干得很开心。去了飞书People板块,有一个窗口期是可以招很多人,然后把这个产品扎扎实实做好,那个阶段的变化,是对管理的认知很大的提升,之前创业带二三十人,后来在飞书做日历也是带二三十人,是一个一阶管理者,到了飞书People之后变成多阶管理者。

ZP:为什么在这个时间点选择再次创业,并且是偏硬件的领域?

程昊:2022年特斯拉人形机器人原型Optimus发布之后,就在和导师讨论现在是不是入局的Timing,因为机器人这个行业一直在发展,最早是工业机器人,后面到协作机械臂、AGV、四足机器人,技术一直在进展,但觉得还没到,因为我一直想做机器人能够通用化的那部分。

这一波马斯克带动了行业情绪,导致机器人零部件发展迅速,变得便宜,这是第一个很重要的因素,第二个因素就是大模型。2022年底关注GPT-3.5,觉得在任务拆解上还不行,到了2023年初GPT-4出来之后,我们第一时间发现已经可以把任务拆解做得很清晰了,好像一直以来行业都是在黑暗里摸索,突然一束光照了进来,觉得窗口要打开了,这就是本质的东西,就是机器人能否根据实时的输入动态决策,而且是多模态的,之前纯靠强化学习也能训出灵活决策的,但是不能多模态、不通用,应该既能踢足球、也能做家务。

第三个因素,之前行业内Locomotion一直也是很大的瓶颈,现在技术路线在慢慢收敛。因此必要条件越来越成熟,所以觉得是好的Timing。

02 聚焦关键问题,提供可靠、二开友好的基础设施,降低机器人开发门槛

ZP:最近有哪些对通用机器人很关键的技术进展?比如OpenAI 最近推出的Sora有帮助吗?
程昊:Sora对机器人还没有带来直接的提升。我觉得这些技术进展像是像灯塔一样,灯塔照亮了一片区域,开始有一帮工程师进来造桥造路,系统就会越来越成熟。
在我们看来,Sora 这类视觉大模型可以生成非常柔顺自然的动作,视频里的人类行走和操作都很自然。这个能力可以用到机器人的运动轨迹生成上。原来机器人的轨迹生成主要是一些基于模型的算法,且是做在运动控制(小脑)这个模块的。我们判断未来轨迹生成应该是放在感觉决策模块,也就是大脑侧。因为人类的动作轨迹都是基于视觉反馈得到的。Sora 出来之后,更让我们相信这个判断是正确的
最近ALOHA也很火,除了说明夹爪也能做很多事,也说明模仿学习的ROI也是很高的。目前有机构在尝试让人形机器人从 0 学习走路,结果训练出来的姿势非常诡异,学习成本也很高。而基于遥操作或者模仿学习的训练,不需要从 0 学习,训练数据和学习时间会大大降低。我们判断未来基于遥操作或者模仿学习来训练,是一个很重要的研究方向。模仿学习也是很重要的方式。
ZP:将轨迹生成任务放在大脑侧的好处是什么?
程昊:好处主要是和感知强结合,比如人拿一个杯子,拿取杯子的轨迹一定是和视觉识别相结合的。大模型现在有物理引擎,能直接指出轨迹,未来就能指挥关节运动。所以大脑和小脑结合一定是很重要的,现在虽然还在摸索阶段,但是是一个挺重要的可能性,值得探索。
ZP:现在通用机器人开发有哪些难点和痛点?
程昊:(笑)到处都是难点。做个类比,就像在70年代造PC,要用晶体管造一个电脑,这个难度可想而知。现在通用机器人的本体是瓶颈、关节也是瓶颈,我们试了市面上很多关节都有各种各样的小问题,但关节问题很快会变得更成熟。
接下来系统、工具链、开发者生态都是问题。这些会影响开发门槛,开发门槛不降下来,很多开发者会望而却步或者浅尝辄止了。
现在这么多AI学者,肯定想碰碰机器人的,但他一进来就可能就崩溃了,发现没有靠谱的硬件,软件又都是开源工具,搭建环境就需要很长时间。这些门槛会很影响行业发展的。
ZP:Sim2Real是否也是难点之一?
程昊:Sim2Real是一个综合问题,之前的运控算法很多是基于模型或者优化算法的,存在大量具有物理意义的参数可调,是白盒的,那时 Sim2Real 就是反复的调参。但是现在都改成了基于神经网络的强化学习算法,黑盒的,在仿真里跑通后再部署到真机上,没有那些参数可调了,Sim2Real 就变成关键难点了。这是一个很综合的问题,不是只提供一个工具就能做好的,比如硬件关节能不能变成理想的力矩输出源,以及仿真环境里对机器人还原的颗粒度是否足够细。
ZP:加速进化有什么差异化的思考和认知吗?
程昊:我脑子里有一个全景图。中间是多个Agent构成的机器人 Agents 生态。Agent的一侧是本体、主控、系统,另一侧算法 Server,机器人大模型,基础大模型(语言模型、视觉模型等)。
我认为未来应该是两侧往中间发展。一方面,机器、硬件、主控系统做得越来越强;另一方面,基于语言模型、视觉模型的综合性机器人模型变成熟,还可能会有强化学习层让不同agent 适应不同任务。未来会有适应不同行业和任务的Agent运行在机器人上创造商业价值。
本体侧,我认为未来肯定会有许多公司参与。但系统、芯片是天然倾向于最终只有少数几家主导的。机器人大模型,可能会有多家存在的。Agent Server可能与Agent类似,根据应用来划分。就像抖音有抖音的Server和推荐算法,喜马拉雅有自己的Server和推荐算法。
路径上,最关键的第一是钱、第二是人、第三是产品。如果像OpenAI 那样能融资,就可以直接做最重要的事情。但很多公司不具备这种条件,更关注的应该是PMF,先收敛地做一些东西,实现一个小的商业闭环,一点点滚大雪球。
ZP:您怎么看中国公司在这波具身智能和机器人中的身位?有哪些优势劣势?
程昊:国内现在很多团队,是用行业里偏成熟的构型和算法快速做 Demo 来融资。我觉得这也是正确的,就像刚刚提到,成功的要素包括足够多的钱、优秀的人和做出好产品。但是行业内的人都知道,目前这几个成熟的构型和算法都是基于一个很简化的模型,比如类似鸟腿或者狗腿的轻腿构型,如果长期基于这套技术迭代,可能会有发展上的隐患。我们公司一上来就会选择一种 6 自由度的构型,更加接近人腿,海外的 Tesla 和 Figure AI 用的也是更接近人的 6 自由度腿。
从人才的角度来说。中国只有几个实验室在过去 20 年持续做双足locomotion,比如清华,北理工,浙大这些,其他主要做轮足或者臂。但美国有非常多的实验室在过去几十年持续的研究双足机器人,而且持续拿到比较多的经费。
从大家的demo也能看出来。海外会更加第一性原理地设计构型,不会被同行或者成熟可用的构型束缚。Tesla 现在没有展示防踹性能,甚至demo 也不在复杂的地形里,这就是大家对场景不同的思考。机器人是不是需要翻跟头?机器人应该有多快的移动速度?当一个1.6-1.7米的机器人以两米每秒的速度走向你,其实是很吓人。如果需要很快的移动速度,完全可以让机器人坐无人车。
所以总得来说,Demo驱动的项目有意义,也能拿到融资,但是既然行业马上要迎来拐点,应该聚精会神往正确的方向走。
ZP:大模型我们落后美国半代到一代,这个差距还有可能扩大,代差对具身智能意味着什么?
程昊:基础模型代差肯定会影响具身发展。Sora已经证明了,好的视觉模型可能会很依赖一个强大的大语言模型。如果基础模型差距拉大,对具身肯定有影响。但是,历史上看,只要是中国举国之力发展的领域,还是会死磕出来的
ZP:前面讲的都是中国相对美国的劣势,相对优势您觉得有什么?
程昊:第一是机器人的制造,我们有非常明确有优势。第二,中国竞争很激烈,会卷出很有竞争力的卷王公司。其实美国最大的优势也是有Tesla这样的公司,有钱、有人才、有马斯克这样远见卓识的CEO。我们只能去追赶。
ZP:中国和美国未来的人形机器人的格局会是什么样?
程昊:美国的玩家会比较少,可能就是Tesla、Agility、Figure AI这些。Agility是行业做的比较好的,商业化也比较扎实一步一步走。新的公司就是Figure AI。另外还有一些实验室孵化出来的。整体上公司并不多。中国的通用机器人公司相当多,虽然中间会有一些乱象,但是最后还是会跑出来一些优秀的公司。
ZP:Tesla 的FSD技术,有多少可以复用在Tesla的机器人上?
程昊:说实话FSD我不够了解。但是未来机器人会有自己的SoC,现在主要是用车的、PC的芯片。视觉任务主要用GPU,运动控制用很多CPU,当然强化学习的运动控制也会用上GPU计算,这中间涉及到不同时刻算力的调度。未来会很类似苹果推出自己的M1、M2。机器人也会有自己的芯片。
ZP:人形机器人达到一个商业化的闭环可能是什么样的路径?
程昊:在我们看来,现在就只有一条,就是先面向开发者,逐渐面向B端,最终面向C端。特斯拉有自己的B端造车场景,可以做闭环。但创业团队,最早还是面向机器人开发者。
ZP:您讲的开发者包括哪些群体呢?
程昊:现阶段科研开发者偏多,未来会有更多增量市场。现在很多科研开发者买机械臂做各种研究。固定基的机械臂其实能干的事很少,接下来就是浮动基的机械臂,再接下来就是人形机器人。因为,既然 AI都多模态了,肯定希望硬件载体也能兼容多个场景,最后倒推出人形这种通用形态的机器人。至少在碳基的自然选择里,人形胜出了。
ZP:刚聊到开始我们会面向开发者,我们提供的产品服务是什么?
程昊:我们对开发者会比较了解,因为我们实验室本身就是种子用户,目前需求很明确,就是可靠(也就是皮实耐摔)和二开友好,在这两个点上是可以达到PMF的。二开友好上,我们会提供可插拔的算力,开发者可以基于自己的需求去做扩展,因为我们自己做算法的时候会知道,刚上一个算法的时候,其实并不知道这个算法需要消耗多大的算力,那么在我们产品里可以灵活地更换算力是非常重要的。
当然我们需要做的是,Intel、ARM和Nvidia等不同的硬件如何统一调度好,可能渲染比如感知算法用的是一种芯片,处理逻辑运动控制算法用的是另一种,但不需要暴露给开发者,让开发者对底层没有感知,将接口给开发者就好。
ZP:我们产品发布的预期时间表是怎样的?未来一年里公司在整体发展层面最关心的三个问题是什么?
程昊:大概在今年Q3。(笑)有太多问题需要解决,从CEO的决策上来说,就是找钱、找人、找商业化路径;从产品的视角上来说,关心的问题就是Locmotion的进展、机器人本体的关节价格、大模型的发展速度。

03 坚持模拟实战演练,对自己真实,用韧性和耐心做出伟大的公司

ZP:作为CEO,您认为公司的长期愿景是什么?未来希望成为一个什么样的公司?
程昊:将围绕机器人计算的软硬件做好,有机会做成一家非常伟大的公司,并且对行业和世界会有很大的正向影响,我比较坚信机器人的时代到来之后,人类社会会变得非常好,机器人是生产力革命。
ZP:字节的经历对程总这次的创业有什么帮助?再次创业心态有何不同?
程昊:我觉得非常有帮助,过去几年有过几次比较大的成长,第一次是第一次创业,创业一般是阶越式提升,从完全不懂商业到公司开始赚钱,是认知层面很大的提升。第二次是在字节,在字节是高斜率成长,因为在字节有机会接触非常多优秀的人、做很有挑战的事情、管非常复杂的团队,而且字节是一家非常好的公司,提供一个很好的环境,能够让人成长,能够把事做成。
字节的方法论也很简单,就是非常理性、走正道、踏踏实实做事、先做再说。也要求字节人需要更有韧性、更有耐心、做得更好。在字节这几年我看到了一种可能性,就是踏踏实实做事、理性分析,也可以做出一款这么好的产品、做成一家这么伟大的公司。
ZP:可以分享一下现在公司日常工作中有趣的小故事?
程昊:我们公司每周有一个Demo Day,所有员工都扮演客户,会有人展示最近一周的成果,现场会有各种Bug、出各种问题,但是觉得我们就是通过个形式,鼓励大家敢把技术拿出来展示,模拟实战场景,这个方式对大家的业务推进和员工心态会有帮助会出现之前一直不成功,在Demo Day的时候成功了,也会出现平时都没问题,Demo Day的时候突然就宕机了,就很有趣,但我们坚持要让问题尽快在内部暴露,而不是在客户面前暴露,因为我们也是希望为客户提供可靠的产品。
ZP:这一年的AI和机器人进展让您和团队最兴奋的是什么?
程昊:过去一年就是大模型,尤其是在任务理解和拆解上的进展,以及最新出的视觉模型Sora,在轨迹生成上可能会出现新的解法。
ZP:作为创业者,您通常通过哪些渠道来持续学习?
程昊:看书,传记和历史类的会更多一些,以及用ChatGPT看Paper。

请注意,此次访谈内容已经过精心编辑,并得到了程昊先生的认可。我们也欢迎读者通过留言互动,分享您对本访谈的看法。Z Potentials将继续提供更多关于人工智能、全球化市场、机器人技术等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

-----------END-----------


关于Z Potentials
🚀Z 系列正在招新一期的Z Explorer
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存