查看原文
其他

打不过就加入?Sora+机器人到底怎么做?落地性或存疑

Jack 机器人大讲堂
2024-09-06

近日AI领域的技术进步再次引发市场关注。OpenAI发布了文本生成视频模型Sora,谷歌发布最新Gemini模型,这些技术有望对作为AI 终极形态的人形机器人形成催化。


目前热度最高的Sora模型,根据OpenAI 的介绍博文,Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。也就是说Sora可以根据文字说明创建逼真而富有想象力的场景,从而具有灵活的视频制作能力,能提高视频多样化表现,此外,用Sora还可以具备视频剪辑能力,可以填补剪辑缺失造成的错误细节。


那么,Sora这类文本生成视频大模型,对于机器人行业将带来哪些提升?由于该技术目前不对外公布测试,目前我们从已有的部分视频,做出了一些基本判断。



▍真实世界数据集获取的全新可能性


明显,Sora作为一个先进的AI视频生成模型,对机器人领域可能带来的影响是多方面的。有望帮助机器人提升环境适应性、智能化和自主性。


首先,Sora的视频生成能力可以帮助机器人更好地理解和模拟现实世界,提高机器人学习和适应不断变化的环境和任务的能力。由于Sora展现出了对物理世界超强的3D仿真还原能力,这将有望带来大模型的训练数据集欠缺问题的新解决方案。


例如Sora能够高度还原例如水面等反光场景,这意味着我们或许能用Sora快速生成一些现实物理场景视频,从而完成特殊环境的建模和还原,然后让机器人进行仿真和动作执行,并优化其逻辑程序。


在这类场景中,Sora可以帮助机器人测试并实现更高级的视觉与避障功能。例如通过生成一些具有光影变化和水流变化等真实世界特征的视频,Sora可以帮助机器人更好地理解和感知现实世界中的视觉信息。这对于机器人的导航、物体识别和场景理解等任务都非常重要。



其次,由于场景具有一定真实性,如果Sora能提供软件开发套件 (SDK)、API 和编程接口,使开发人员能够将其功能集成到现有的机器人软件框架中。这种集成使机器人能够利用 Sora 通过生成包含多种角色和场景的视频,帮助机器人掌握高级功能,例如自然语言处理、计算机视觉、运动规划和决策算法,快速学习如何与不同的环境和对象进行交互。这种现实还原和高效模拟建模能力对于机器人的训练和学习至关重要,将可以使它们未来更加智能和自主。


另外,Sora 与机器人的集成可以通过实现更自然、直观的通信和协作来改善人机交互 (HRI)。我们注意到Sora生成的一些视频中,已经能够模拟人工过程,并以高保真度渲染游戏世界及其动态,同时保持极高的一致性。


例如在控制《我的世界》游戏中的玩家角色,已经能模仿一定的人类行为。这是否意味着在能构建一个家庭环境,借助Sora的多角色支持和场景一致性保持能力,让机器人快速理解和适应家庭成员的不同行为和习惯,最终加速机器人与人类进行交流,提高用户体验和满意度的过程,帮助机器人学习在复杂的社交环境中更好地与人类进行交互。



简单来说,Sora本质上是AI技术的一种演变,借助Sora这种新工具,人类能快速把各种真实环境数据化,并快速还原和建模,帮助机器人虚拟仿真和测试。只要文本细节越多,Sora可以生成的视频越精细,机器人训练获取的有价值数据会越多,机器人未来到真实环境中错误率越少,为人类的生活和工作带来更多的便利和创新。


我们构想一下,未来如果借助调用Sora 等大模型,机器人能通过与摄像头、激光雷达、雷达和惯性测量单元 (IMU) 等各种传感器集成,来进一步增强感知能力提升数据的真实性和可靠性,通过融合来自多个传感器的数据并使用先进算法对其进行处理,Sora 最后或许真正可以使机器人快速了解周围环境、自主导航并与人类和环境安全交互。


▍困难和瓶颈仍然存在


毫无疑问,目前Sora作为模拟器仍存在局限性。例如Sora可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,不能准确模拟许多基本相互作用的物理过程,这可能导致在某些需要精确物理模拟的场景中,Sora生成的视频结果可能不够准确或真实。


这并非无的放矢,我们发现,在Sora生成的视频中,一位老奶奶吹了生日蜡烛,但蜡烛的火苗纹丝不动,这意味着其可能无法理解具体事例的因果关系,Sora在理解世界的物理规则上仍存在局限性。同时Sora在描述随着时间推移发生的事件时可能存在困难。这意味着对于需要展示连续动态变化的场景,Sora可能无法完全满足需求,或者生成的视频在时间连贯性上存在问题。



目前Sora还没有展现太多在工业领域的视频,但我们可以想象问题会不少。虽然大量解读从视频结果中认为,Sora能根据文字指令创造出包含丰富细节的逼真场景和角色,并能够用多角度镜头生成一镜到底的60s长镜头,这带来了制作视频的便利性,然而Sora本质上只是一个基于大规模训练的文本控制视频生成diffusion模型。


作为一种复杂的AI模型,Sora背后需要高度的计算能力和算法设计来处理大量的数据,其本身也需要通过大量观察和训练,才能去掌握许多关于真实世界的物理规律。这意味着其前期研发和应用也需要大量的经济成本,后期才有可能反复套娃用于机器人等现实世界产品。这必然使得Sora的应用受到了一定的限制,特别是在计算资源有限的环境中,前期如何正确借用这类成熟模型可能是机器人企业能够以此提升的基础。


我们认为,机器人领域目前是人工智能的物理世界真实映射,如何将这些先进的技术应用到实际场景中,并实现稳定、可靠的性能表现,是一个重要的挑战。能够短期想到的应用场景是,Sora 如果能提供与各种机器人硬件平台的兼容性,包括不同类型的执行器、传感器和控制系统等。


这种兼容性将使 Sora 能够无缝集成到各种机器人架构中,无论是人形机器人、工业机械手、无人机还是自动驾驶车辆。例如,未来开发人员可以根据机器人系统的功能具体要求,有选择地部署Sora的模块,从而优化性能和资源利用率,节省大量的算力。如果 Sora 引入新颖的运动机制、传感器或人机交互方法,它可能还会优化人类对于未来机器人的设计,这也是值得期待的一个方向。


但与此同时,如何确保机器人在加入人工智能后,行为符合道德标准?如何避免机器人对人类造成伤害或侵犯人权?这些问题需要在使用Sora等AI技术时得到充分考虑和解决。因为随着AI技术的不断发展,机器人可能会具备更高级别的智能和自主性,所以机器人的研发人员,无疑已经是人类真实世界的最后把关者。



我们也认为需要注意Sora等AI技术可能带来的挑战和问题,由于Sora生成的视频真假难辨,如果被用于生成含有不当虚构内容的视频,会导致欺骗性或误导性信息的传播,这对于机器人的训练而言会带来巨大的社会问题,造成如数据安全、隐私保护、伦理道德等困惑。


很难想象,如果机器人用了这些垃圾数据进行训练,数据没有得到妥善清洗、处理或保护,可能最终会对用户造成损失或伤害。


因此,我国在推动机器人领域的发展的同时,也需要加强相关法规和标准的制定和执行,确保技术的健康、安全和可持续发展。人工智能上的很多事情都急不来。



----------------END----------------




工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 节卡机器人 | 珞石机器人 | 法奥机器人 | 非夕科技 | CGXi长广溪智造 | 大族机器人 |  越疆机器人 睿尔曼智能 | 优艾智合机器人 | 阿童木机器人 | 盈连科技 

服务与特种机器人企业

亿嘉和 | 晶品特装 | 九号机器人 | 普渡机器人 | 机器姬 | 猎户星空 

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®️机器人 | 罗森博特 | 磅客策 | 柏惠维康

人形机器人企业

优必选科技 | 宇树 | 达闼机器人 | 云深处 | 理工华汇 | 傅利叶智能 | 逐际动力 | 乐聚机器人 | 星动纪元 | 天链机器人

核心零部件企业

绿的谐波 | 因时机器人 | 脉塔智能 | 伟景智能 | 锐驰智光 地平线 | 本末科技 | NOKOV度量科技 | 青瞳视觉 | 因克斯 | 蓝点触控 | 福德机器人

教育机器人企业

硅步机器人 大象机器人 中科深谷 史河科教机器人


加入社群

欢迎加入【机器人大讲堂】读者讨论群, 共同探讨机器人相关领域话题,共享前沿科技及产业动态。


教育机器人、医疗机器人、腿足机器人、工业机器人、服务机器人、特种机器人、无人机、软体机器人等专业讨论群正在招募, 添加微信“robospeak2018”入群!


兼职作者&投稿

机器人大讲堂正在招募【兼职内容创作者】,如果您对撰写机器人【科技类】或【产业类】文章感兴趣,可将简历和原创作品投至邮箱:liuzk@leaderobot.com


我们对职业、所在地等没有要求,欢迎朋友们的加入!















 
 

看累了吗?戳一下“在看”支持我们吧

继续滑动看下一个
机器人大讲堂
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存