恐怖的人形机器人
全球第一家人形机器人独角兽诞生了!
继1月底与微软洽谈后,机器人初创公司Figure AI还在寻找更多金主。
1,亚马逊创始人贝索斯,投资 1 亿美元;
2,微软,9500 万美元;
3,OpenAI ,500 万美元。
4,英伟达与亚马逊的附属基金,各自5000 万美元;
6,英特尔风投部门, 2500 万美元;
7,LG Innotek , 850 万美元;
8,三星投资集团, 500 万美元;
9,Parkway Venture Capital , 1 亿美元;
10,Align Ventures , 9000 万美元;
11,Aliya Capital Partners , 2000 万美元……(还有一大串金额较小的,略过)
总融资额为 6.75 亿美元,投后估值达到 27 亿美元左右。
但众所周知,目前人形机器人风头最盛的是谁?马斯克。
科技大佬们如此集中的大规模投资,瞬间就把美国科技圈子划分为特斯拉和非特斯拉两派,泾渭分明。
如此针锋相对,很明显就是绝不让老马吃独食。
01
执着的理由
关于机器人的外形是否一定要和人类一样,质疑声从未停过。
相当一部分人认为,人形机器人是多余的研究。
人类的独特,在于想象力出众和团队分工协作。
但从身体构造来看,我们的生存能力并不强,既不耐寒也不耐热 ,一到夜晚就成了瞎子。
运动能力更是差劲,肌肉必须后天锻炼,不像动物一样天生就有,负重不如马、跑得没猫狗快、不会飞、不擅长游泳、跳得也不高。
一个并不完美的构造,为什么要将之作为范本?
比如,人只有两只手,难道机器人也要限制成两只手?
为什么要设计一个脑袋?如果是为了放传感器,全身分布放置岂不更好?
为什么要有腿?在陆地上行进,履带车效率更高。
至于跳跃,让机器人跳起来所需的功率,都能够飞行了。
都能飞了,还要腿干什么?
以一般的眼光来看,机器人做成人形,是完全没必要的。
既然如此,科技大佬们为什么还要烧大钱、花大力气去研发人形机器人?
首先,最浅显的一方面:
人类形态更容易唤起投资者、消费者和网民的认同感,更容易圈钱。
这一波AI浪潮,掀起了技术革命的同时,也引爆了全球科幻圈子。
比如,对马斯克而言,至少在未来几年,他的擎天柱最终能否商业化并不重要,只需要将这些宣传噱头与自己捆绑在一起,就能顺利卖出更多车,股价节节攀升。
在商言商,这是科技大佬们必然有的想法。不过除此之外,或许还有更深的一方面:
因为他们所追求的是普适性,是更大的商业价值。
任何一种商品,必须是每个人都能使用的,而不是少数人的专属。
但我们现在所能看到的所有人形的、非人形的机器人,从功能上而言,只能适用单一场景——这实际上就不能称之为机器人,顶多是具备一定智能的机器。
既然带个“人”字,至少要具备一定的交流能力,能适用于人类社会。
而人类社会中的绝大多数建筑与工具,都是为了方便人的使用而设计的。
比如,成年人的平均身高170cm、体重70kg,那么汽车、房门、桌椅、走道等私人的、非私人的任何物品、设施,都是以这个标准生产建造的。
所以,如果要造一台通用机器人,理论上人形机器人才最合适。
凡是人类能用的工具,它都能够直接使用。我们不需要为机器人专门设计另外一套标准、工具和环境。
简而言之,就是为了方便。
但这里有个非常矛盾的点:
人形机器人在人类社会的优势是通用性,但这同样是限制它商业化落地的最大障碍。
不同于工业机器人只需要完成某项单一任务,人形机器人得在开放式的环境中,完成更复杂的任务。
而当前阶段的所有人形机器人,要么依然只能针对单一场景的单一任务,要么就必需有开发人员实时控制,无法直接给普通人使用。
何解?
因为过去的人形机器人,并不具备交互性。
更精准点说,并不具备普适的交互性,只有掌握了相关技能的研究人员才能与机器人交互。
越来越成熟的大模型,或许能解决这个硬伤。
02
相辅相成
其实早在去年,日本东京大学团队就开发了全球第一个由GPT-4驱动的人形机器人Alter3。
它最大的亮点,就在于使用者并不需要具备任何专业知识,只需要与机器人进行自然语言交互,就能指示它执行各种任务。
它是怎么做到的呢?
主要通过两种技术,zero-shot(零样本学习)和CoT(思维链),GPT-4才能将人类的自然语言转换成机器人能理解的代码。
比如,你对Alter3说“笑一个”,它会先向GPT-4询问,什么是笑、怎么表现出来,然后GPT将答案转换成Python代码,机器人再根据代码完成面部动作。
这个过程看起来很复杂,但在人的肉眼中,几乎是0延迟的。
更厉害的是,Alter3还拥有纠错能力——它能根据使用者的的口头反馈,事实调整自身行为。
这种极强的灵活性,或许能在一定程度上理解为学习能力。
Alter3已经足够神奇,但它已经是过去式。
是的,就是这么快,AI迭代的速度远超以往任何技术。
最初,GPT只是个单纯的文字对话模型;2023年9月,语音和图像功能正式上线,大力发展多模态技术;到今年,以GPT为基础的视频生成模型Sora又问世。
这一步一步,蹭蹭递进,你觉得像什么?
OpenAI要让自己的大模型,越来越符合人脑的标准。
人脑最基本的能力是什么?五感神经。
语音功能可以理解为大模型的听觉神经,图像→视频可以理解为视觉神经。
有人觉得不对,大模型生成的图片、视频,都是根据人的指示来的,并不是它自己“看”到的。
但想想看,我们人看到的东西,就是直接“看”到的么?
我们的眼睛“看”到的任何静止的、运动的事物,都是脑神经对光信息反馈,从而形成的一种视觉效果。
这与大模型根据信息指令,生成图像、视频,逻辑上是一样的。
区别只在于,我们的信息源于自然界的万事万物,大模型的信息源是一串串代码。
关于这个问题,可以以后再具体讨论……
回到主题。
既然大模型能在短时间具备视觉、听觉,那么另外的嗅觉、味觉、触觉,想必也很快会实现。
但问题又来了。
嗅觉我不太理解,而味觉、触觉的产生,必须与外界有实际接触,单靠大模型怎么可能办得到?
仅靠AI自己当然不行,所以它需要载体、需要一系列成套的“器官”,也就是黄仁勋一再强调的“具身智能”。
什么样的人造器官才能还原出我们想象中的五感?
最简单的,当然是直接模仿人的身体构造。
至少在现在看来,人形的“具身智能”是完善多模态大模型的最优解。
而在大模型五感越来越成熟的同时,人形机器人的功能会越来越丰富、越来越具备普适性。
大模型是大脑、人形机器人是肉体,两者相互辅助、共同进化。
这是个非常优美的良性循环。
只要算力、硬件技术跟得上,电影里的那种智能机器人,也就不远了。
看到这里,是不是有点细思极恐的感觉。或许,人类自己也是这么诞生的?
谁又是我们的master?
03
潜在的价值
一旦真正的智能机器人出现,它们有多大的价值,是很明了的。
除了老生常谈的家务、养老、学习、伴侣等,更重要的是充当劳动力。
我们普通人往往担心,机器人会不会抢走自己的范围。
但从更宏观的角度来看,更大的威胁不是机器人是否会取代人力,而是智能机器人能否及时到来。
老龄化越来越普遍,目前全球大部分经济体,尤其是发达经济体,失业率都达到了1980年以来的最低水平,劳动力严重短缺。
比如日本,预计每年将减少40万劳动力。
照此趋势,到2030年,全球预计将产生8520万人的缺口,导致8.452万亿美元的损失,相当于日本+德国GDP之和。
这种时候,能7×24小时无怨言工作的机器人,就显得尤为可爱了。
这里需要再强调一下,为什么一定要人形机器人。
因为劳动力的短缺,普遍存在于各行各业,并不只是制造业。
如果只是在工厂劳作,不需要管外形,实用就行。
但正如上文所说,机器人想要进入人类社会的所有行业,最好是具备普适性,能够在现有的社会中直接使用。
不论服务生、收银员还是教师、司机、扫大街的等等等等,它们都能胜任。
这样的未来,想必是美好的,就像电影和小说里描述的那样。
其中蕴含的市场,想必是极为巨大的。
根据马斯克描述,全球劳动力市场将高达40万亿美元,是电动车市场的10倍,可能还低估了。
但机器人毕竟不是人,所谓外形,都只是人为的造物。
金钱与欲望的火焰,无论什么时候都不能烧到对未知的敬畏。
Robot一词,源于捷克作家卡雷尔·恰佩克笔下的《罗素姆的万能机器人》,原型为“Robota”,在捷克语中为“苦力”的意思。
罗素姆公司大量制造机器人奴隶,它们拥有人类的外貌,日复一日从事繁重的劳动。在海伦娜等理性主义者的帮助下,Robota逐渐拥有自我意识,开始对自己的社会地位不满。
起义爆发,人类被屠杀殆尽,只有像机器人一样用自己双手劳动的阿尔奎斯特存活。
统治世界后,Robota们痛苦地发现,技术资料已被人类焚毁。为了创造后代,它们请求阿尔奎斯制造新的机器人,并自愿成为实验材料。
然而,阿尔奎斯特能力有限,尽管肢解了一个又一个Robota,也无法成为新纪元的上帝。绝望之际,一对男女机器人突然进化出人类独有的情感——爱情,拥有了繁殖后代的能力。
新的亚当和夏娃诞生了,世界得以延续。
哈利路亚!
……