微软阿里纷纷入局,AI赛道大战开启!
加入高工移动机器人行业群,加微信:13692257554,出示名片,仅限移动机器人及智能制造产业链相关企业。
分化·进化
主办单位:高工移动机器人、高工咨询
峰会地点:杭州
峰会时间:2023年6月30日
同期活动:2023移动机器人产业链TOP30评选
扫描上方二维码报名参会
AI大模型,无疑是2023年以来最炙手可热的名词。
在AI的快速迭代下,各行各业都掀起了变革的巨浪。每个人都屏住呼吸,期待着下一个被AI颠覆的行业。
微软、阿里、谷歌这些科技巨头们最近的动作表明,下一个迎来革命的行业,可能就是工业机器人。
而人机交互,就是革命的突破口。
人机交互,革命的开端
工业机器人在过去的几十年发展迅猛,但短板依然明显:需要有专家教它们怎么工作。自机器人诞生以来,教机器人做事的方法完全没有变化:一个专业程序员团队需要花费成百上千个小时,手动编码让工业机器人完成特定的动作。
此外,操控不同的机器人还需要掌握不同的编程语言。这让调教机器人的技术门槛变得极高。
在现实落地中,这个团队还需要对生产场景有足够的理解,对机器人进行反复调试,机器人才能在不同环境下顺畅运作。如果机器人工作环境出现了变化,一线工作者还需要联系专业技术人员进行处理。这种人机交互模式的高昂成本始终是工业机器人普及的主要障碍。
AI大模型,就是清除这个障碍的最佳工具。
能够用日常的语言和人类交流,正是ChatGPT的出圈爆火的重要原因。一个对AI一窍不通的用户也能够自如地与它沟通,向它下达指令。
如果将这种能力运用到工业机器人上,一个一线工人就能随时根据现场的需要,用日常对话的方式来指挥机器人。人机交互的改进,对于制造业而言,无疑是一场革命。
头部AI大公司很快就嗅到了其中的商机,纷纷尝试用AI为工业机器人“注入灵魂”。
作为OpenAI的长期合作伙伴,微软首先进军这一领域。在今年年初,微软的研究人员就宣布他们在通过自然语言命令机器人单独完成特定任务,其中包括让机器人识别不同物体,以及控制“无人机以之字形的路径检查货架”。
更让人惊奇的是,面对人类没有说清楚的模糊问题,机器人搭载的AI会进一步地询问,以搞清楚研究者的真实目的。
例如当研究者要求AI 为他找饮料时,AI会先问清楚具体想要哪一种饮料。当研究者不直接告诉 AI 选哪个,而是说:“我刚从健身房回来,请帮我找个健康点儿的饮料。”AI会猜测研究者或许想要喝椰子水,并开始指挥无人机去取椰子水。
这种沟通方式打开了人机交互的一扇新的大门,人类不仅可以用自然语言与机器人直接沟通,机器人甚至能根据现场环境与用户需求,提供相应的建议。
这意味着,一方面,程序员与机器人的交互效率将有一个飞跃。另一方面,不懂编程,但对应用场景理解更深入的人也能参与调试,创造出效率更高的解决方案。
这在工业产线上尤为重要,因为同时精通生产需求与编程技术的工作人员凤毛麟角。如果AI能清晰地理解一线工作人员的需求,并根据具体生产环境实现需求,那么,实现降本增效将是一件轻而易举的事情。
面对微软勾画的未来宏图,谷歌马上给予回应。
微软公布论文不久后,谷歌与柏林工业大学共同推出了史上最大的视觉语言模型PaLM-E。据研究团队介绍,该模型随后将运用到工业机器人上。
PaLM-E最为业界关注的技术是,PaLM-E能够通过分析接收到的视觉图像,执行研究者的指令,而无需任何人类引导。例如在演示视频中,谷歌团队向机器人发出“把抽屉里的薯片拿给我”的指令时,PaLM-E通过分析来自摄像头采集的周围空间以及桌子的图像数据,生成了行动计划,然后机器人从抽屉中取出薯片,放置在指定位置。
在整个过程中,研究者既没有预先处理场景表示,也没有对其进行引导。只要用自然语言向机器人下指令,它们就能随机应变地完成任务。甚至,研究人员好几次故意“捣乱”,把机器人拿出来的薯片袋又放了回去,但它总能重新找到薯片袋并完成任务。
谷歌的计划,是将机器人从对环境变化不知所措的“人工智障”,成为能够根据环境变化,寻找相应行动方案的”人工智能“。
无独有偶,一个多月后,阿里也高调宣布入局AI+机器人的赛道。
在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇宣布:阿里云正在实验将千问大模型接入工业机器人。
在当天发布的演示视频里,工程师通过钉钉对话框向机器人发出指令,机器人立即理解了指令内容并回答,“好的,我找找有什么喝的。”随后,机器人开始识别周边环境,从附近找到一瓶水,并自动完成抓取、配送等一系列动作,将水递送给工程师。
工程师还介绍称,千问大模型为机器人执行任务提供了推理决策的能力,一线工人只需发送一段文字,千问就能理解其意图,指挥机器执行任务,有效提升生产效率。
从这三家科技巨头公布的具体成果来看,用自然语言与机器人交流,是他们不约而同选择的展示重点。他们认为让机器人理解人类的命令,并选择行动方案,也即”输入”环节与“决策”环节,才是这次"AI+革命"的突破口,而工业机器人则是AI则是未来最可能的应用场景。
其实,这也在情理之中。一方面,目前工业机器人部分技术已经逐渐成熟,在部分场景单一,作业难度不大的领域,AI的落地可行性相对较大。另一方面,人机交互的革命性改进能为制造业降低大量成本,因此这类AI+机器人的商业化落地可能性更大,更有利于刺激资本后续对该项技术的投入。
具身智能,智能制造的终局之战
然而,科技巨头们的野心远不止于此。
具身智能,才是AI+机器人的终极形态,它也将彻底改变当前制造业。
得益于英伟达创始人黄仁勋最近的豪言“AI的下一个浪潮将是具身智能”,这个概念快速进入了大众的视野。
英伟达创始人兼CEO 黄仁勋在2023年ITF世界大会发表演讲
具身智能,指的就是能够感知并理解周边环境,通过自主学习完成任务的智能体。其中的“智能”一词,指的就是与环境交互,同时在环境中行动的功能。
根据研究人员的设想,当人类下达指令时,一台具身智能机器人能够听懂人类的语言,“观察”自己所处的物理环境,然后通过理解、推理并与环境互动,完成相应任务。
换句话说,具身智能就是让机器人的感知、决策与行动更像人,能够完成目前只有人类才能完成的复杂任务。
那么,为什么具身智能将会冲击当前制造业的形态呢?
现在的机器人,依然需要人类告诉它完成任务的方法,例如按照特定工序组装机械。另外,机器人将一直遵照这个方法,不会改动。
但具身智能机器人,能够在与环境的互动中,一次次地迭代成长,自主学习并发现最优的行动策略。而最优的策略,可能远比人类制定的方法高效许多。
在未来,无论是生产工艺的改进、产线设计,还是AGV/AMR的集群调度,人类除了一开始的指导与监督以外,只要把总任务告知具身智能机器人,它们就能够实现全程无人化生产。同时在生产过程中,它们还会根据环境与当前生产效率,不断迭代升级生产的策略,且中间的调整完全无需人类参与。
正如中国工程院院士李德毅教授所说,可交互、会学习、自成长是具身智能的核心。
这或许就是制造业的终极形态:完全无人化,且会不断学习成长的全自动工厂。
未来已来?
有批评者认为,具身智能依然还是个遥远的梦想,距离大规模落地还有很长一段距离。例如具身智能机器人目前和陌生物体互动时,依然表现不佳。此外,目前具身智能无法完成长序列的复杂动作,如烘焙或洗碗等。
但一项技术在爆发期时的发展速度,往往比人们想像快得多,这类故事在人类科技史上数不胜数,最近的例子就是围棋AI。
自计算机发明以来,人们一直认为,围棋由于其高复杂度,是无法用人工智能模拟的棋类运动。
AlphaGo在2014年横空出世,那时候表现最佳的围棋AI甚至无法击败业余棋手,更不用说代表人类顶尖水平的职业棋手。
但AlphaGo在2015年就首次击败了围棋职业棋手,2016年更战胜了代表人类顶级水平的李世乭九段。从此以后,人类再也没有望AI项背。今天,围棋选手推翻了千年以来人类总结的对弈经验,而将AI的一招一式奉为圭臬。
这一切发生在3年之内。
当机器人搭载了AI大模型之后,他们又会花多久时间,推翻人类上千年的知识积累,重塑制造业,乃至于重塑整个人类社会?
往期回顾
物流展直击:无人叉车与出海
“机器人+”大时代来临,各地按下“加速键”
不再狂飙的锂电,机器人还有机会吗?