李飞飞团队:如何制造更聪明的人工智能?让人工生命在复杂环境中进化
导语
我们都知道大脑是控制身体的中枢,或者夸张点说,身体只是大脑的傀儡。然而事实果真如此吗?认知科学指出,人类并不总是“先知后行”,很多时候也会“先行后知”,身体在塑造精神方面也有着强大的能力。但是人工智能的研究常过于关注“软件”上的智能,通过各种算法模拟神经网络,却忽略了生命的具身智能。斯坦福人工智能研究所联席主任李飞飞近日在Nature Communications 上以“进化和学习产生的具身智能”一文,在模拟环境中证明了人工生命的具身智能,为复杂环境下机器人的设计提供了启发。
研究领域:人工生命,进化算法,具身认知
郭瑞东 | 作者
张澳 | 审校
邓一雪 | 编辑
论文题目:
Embodied intelligence via learning and evolution
论文链接:
https://www.nature.com/articles/s41467-021-25874-z
1. 智能和身体形态有关
1. 智能和身体形态有关
动物能够完成适合其物理形态的特定任务,这被称为具身智能( embodied smarts)。每个动物的智力在与环境相互作用的过程中,都是与其物理形态协同进化的。因此,蜘蛛用它们细长的腿编织网,海狸拍打它们宽阔的尾巴发出警报,猎豹飞快地跑去抓斑马,而人类有手指去抓握工具。
虽然人工智能也很聪明,但它的智慧与动物不同。人工智能通常是无实体的,如自然语言处理等机器学习,通常是在计算机内部的硅基芯片上完成的,在真实世界中没有物理实体。虽然计算机视觉需要摄像机或传感器,但它通常独立于任何物理形态。
斯坦福大学李飞飞等研究人员想知道:物理形态对智力的进化有影响吗?如果是这样的话,计算机科学家应该如何利用物理形态来创造更聪明的人工智能呢?
为了回答这些问题,它们创建了一个计算机模拟的游乐场。在那里,被称为“ unimals”的节肢动物主体可以在突变和自然选择的约束下学习。随后,研究人员开始观察unimals的虚拟身体是如何影响其智力进化的。
研究发现,虚拟生命的身体形态影响了它们学习新任务的能力。在更具挑战性的环境中或在执行更复杂的任务时进化出的生命形态,比那些在简单环境中进化出的生命形态,能够更快更好地学习。在这项研究中,具有最成功形态特征的人工生命,相比其前几代祖先能更快地完成任务ーー尽管它们在学习开始时的智力水平与其前几代祖先相同。
2. 人工生命的角斗场
2. 人工生命的角斗场
在模拟中,研究者不仅改变了人工生命的身体形态,还改变了它们的训练环境和执行的任务,使得实验的复杂度远高于之前的同类研究。通过锦标赛式的达尔文进化方案,该模拟能够确保每一种人工生命的形态都不会被一票否决,就算在不利的环境下依然有机会将形态传递给下一代。该方法既保持了种群的多样性,又降低了仿真的计算量。
每次模拟开始于576个独特的人工生命,包括一个“球体”(头部)和一个由不同数量的圆柱形节肢以不同方式排列而成的“身体”。每个人工生命都以相同的方式感知世界,并以相同的神经结构和学习算法开始模拟。换句话说,所有的人工生命在开始它们的虚拟生活时,都拥有相同程度的智慧,只是身体形状不同。
图3. 人工生命所需要经历的各类环境
然后,每一个人工生命都要经过一个学习阶段。在这个阶段中,它要么穿越平坦的地形,要么穿越包括块状山脊、阶梯和平滑山丘等更具挑战性的地形。还有一些人工生命必须移动箱子到目标位置,才可以跨越复杂的地形。
图4. 人工生命分别通过平坦、需要绕障和需要将箱子推至指定位置的环境。
训练结束后,每个人工生命与其它三个在相同的环境/任务组合下训练的人工生命参加锦标赛,获胜者能够产生后代。后代在面临与其父母相同的任务之前,经历了四肢或关节的微小突变。所有的人工生命(包括获胜者)都参加了多项锦标赛,只有当新的后代出现时才会开始衰老。
3. 身体进化,使得习得有利的行为更快
3. 身体进化,使得习得有利的行为更快
在每个环境完成三次进化迭代(每次迭代产生4000种形态)后,幸存下来的人工生命平均经历了10代的进化,其形态十分多样,包括两足动物、三足动物以及有或没有手臂的四足动物(见图5)。
研究人员从每个环境中挑选出了10种表现最好的人工生命,并从头开始训练它们完成绕过障碍物、推球或者把箱子推上斜坡等全新的八个任务(见图6)。
结果是:在需要绕障的环境中进化的人工生命,比在平坦环境中进化的人工生命表现更好,而当在需要将箱子推至指定位置的环境下进化出的人工生命表现最好。表现好的人工生命,无论是单独学习(通过较少的训练获得更好的表现)还是跨代学习都更快。事实上,经过10代进化后,表现好的人工生命已经十分适应环境,以至于它们学习相同任务的时间只需要它们最早祖先的一半。
这与19世纪美国心理学家鲍德温(Baldwin)提出的一个假说是一致的,他推测在进化的早期,祖先习得的行为将逐渐成为本能,甚至可能在后代中遗传。鲍德温效应指出:学习适应性优势的能力,可以通过达尔文的自然选择遗传给后代,即“大自然选择的身体形态变化,使得后代能更快学习有利的行为。例如,如果一种动物在生命早期不能学会走路,可能更容易死亡,从而对基因型产生直接的选择压力,选出能更快学会走路的动物。该效应描述的从表型到基因型的能力转移,可能为习得更复杂的行为(如语言能力及模仿能力)腾出学习资源。
4. 总结:制造更聪明的人工智能
4. 总结:制造更聪明的人工智能
该研究在人工生命的演化中结合进化算法和强化学习,论证了以下三点:首先,环境的复杂性能够促进具身智能的进化,从而使后代形态有助于学习新的任务。其次,人工生命的模拟重现了鲍德温效应,进化能够将早期祖先学会的有利行为表达在后代的基因中。第三,学习效率和物理形态有关,某些形态更加稳定,工作效率更高,因此可以促进学习和控制。
一直以来,设计在复杂环境下完成任务的机器人都是一个难题。然而,真实世界需要机器人的场景往往又都是复杂的,比如爬过核反应堆提取核废物,在人体血管中穿行输送药物,在地震后的废墟中搜寻生命等。也许解决这一问题的唯一道路是通过进化来设计机器人。通过让人工生命在日益复杂的模拟环境中进化,帮助开发现实世界执行复杂任务的机器人,增强其泛化能力和稳定性。
自生成结构读书会报名中
生命是有心(意识)的,但当你一层层剥开生命的组织,却只有心脏而没有一颗“心灵”;打开大脑皮层看到一个个神经元,却看不到“意识”。然而,生命与意识都具有"自我生成"的能力,生命自发从非生命中生成,意识自发从生命中生成。更惊人的是,生命与意识的自我生成结构似乎很相似。如果这个假设成立,那么最可能的备选结构会是什么呢?
为了更深入地认识复杂活系统的自生成结构,集智科学家小木球(仇玮祎)联合周理乾、王东、董达、刘宇、苑明理、傅渥成、章彦博等科学哲学、计算机科学、物理学和生物化学等学科的一线研究者共同发起组织《自生成结构系列读书会》。其中第一季《共识——自生成结构与自复制自动机的研究背景》,将自2021年11月20日开始,其后拟于每周五晚19:00-21:00线上举行,预计持续12周。欢迎从事相关研究、对相关领域有浓厚兴趣的探索者报名参与交流。
推荐阅读
点击“阅读原文”,报名读书会