查看原文
其他

炸裂!业界首创,文生3D可控,华为引领元宇宙应用新纪元

谷神君 元界
2024-09-06



从人工智能三要素走向四要素之路,院士张钹清华演讲全文

“国外一开源、国内就自研”?斯坦福抄袭事件意外为中国正名



6月21日华为年度开发者大会做了一系列震撼发布。华为鸿蒙操作系统,打破美国垄断格局,形成与安卓生态、iOS生态三分天下的局面。不仅如此,鸿蒙系统是世界上唯一一个把PC、手机、汽车、智能家居打通的操作系统。这是中国科技的凤凰涅槃,或者说一次堪称里程碑式的跃迁。怎么祝福华为都不过分!


不过,作为一个以元宇宙和人工智能为主要关注领域的科技新媒体,元界(ID:Metabod)首先关注到的,是华为云盘古大模型5.0的横空出世,以其全系列、多模态、强思维能力和首创技术,开启了引领元宇宙创新应用进入新时代的大门,也加速了AI技术与元宇宙应用融合大时代的到来。


强大的3D输出能力


一个被淹没的关键信息是,盘古大模型5.0具有强大的、可控的3D或者说元宇宙空间的输出能力,并已然呈现出了在所聚焦的自动驾驶、工业制造、建筑等行业,及之外的广阔应用场景。


盘古大模型5.0的多模态能力,超越了一般意义上的多模态,能够更好、更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等。


在这一多模态能力及数据训练之下,造型设计师可以将自己的灵感,通过对话、画图与大模型交互,生成3D汽车或其它可打印的数字模型,并可进行风格化调整、零部件编辑、颜色更换等。这意味着,你可以将灵感瞬间转化为高度逼真的造型模型,并从风格调整到零部件编辑,再到颜色更换,每一步都实现精准操控,极大地加速从概念到产品的转化过程。


在工业设计领域,以新车造型设计为例,周期一般需要1-2年,盘古大模型可以让汽车的造型设计时间大幅缩短。


同样,基于盘古大模型的可控生成能力,只需输入设计的黑白草图,即可生成彩色并带有纹理的建筑群360°实景视频。基于盘古3D重建能力,设计师还可以构建出高真实感的建筑3D模型,将复杂建筑群的概念设计周期从数周缩短到数十分钟,助力建筑师创造出更加出色的建筑作品。


在自动驾驶领域,盘古大模型5.0通过创新的可控时空生成技术,结合场景视频生成、4D BEV视频生成、自动驾驶仿真库及路网信息,能更好地理解物理规律,大规模生成和实际场景相一致的驾驶视频数据,还可以灵活增加控制条件,生成不同路况、不同光照、不同天气的训练视频数据,加速自动驾驶技术的快速成熟。


不仅如此,图片和视频识别,支持10K超高分辨率,且生成的数字模型可以直接输出成3D文件,支持十几种主流格式,设计师可以直接3D打印成样品,极大促进了设计与生产的无缝对接,减少制作油泥模型的轮次,大大节省了成本和时间。


华为常务董事、华为云CEO张平安说,“盘古大模型让每个工业设计师、每个建筑设计师都拥有自己的专业助手,让所想即所见,所见即所得!” 


大模型正以超乎想象的方式,塑造着未来产业的边边角角。以盘古大模型5.0的发布为标志,一个由“文生3D”技术驱动的元宇宙新纪元,正因华为的牵引而加速到来。盘古大模型5.0在工业设计、自动驾驶等领域所展现的能力和成功应用,证明了华为在复杂环境模拟及预测上的深厚底蕴。华为周红:我们将建太空城市,元宇宙将被广泛运用




业界首创,首次引入盘古大模型


华为的这种超级3D生成能力,源于其称之为“业界首创”的STCG技术。STCG是Spatio Temporal Controllable Generation的简称,翻译成中文就是“可控时空生成”。


这一技术是一项创新的人工智能技术,首次在华为云盘古大模型5.0中引入。这项技术的核心在于其独特的能力,能够在时间和空间两个维度上实现高度可控的内容生成。具体来说,STCG技术使得模型能够根据特定的时空条件或者指令,生成与实际应用场景高度一致且精确的内容。


简言之,可文生3D,且可控,而这正是当下很多平台要努力攻克的山头和痛点。以此而言,华为又走在了市场前列,且在汽车、建筑等行业落地应用。这种技术突破或整合及与场景的结合能力,让人生畏。


相较于传统的二维神经网络和低分辨率的3D模型,盘古大模型5.0的3D能力能够更好地理解和生成三维空间中的信息,从而在多个领域展现出强大的应用潜力。


总结而言,STCG技术具有以下关键特点和应用领域:


1、时空维度控制:通过深入理解物理规律和时间序列数据,STCG能够生成在时间上连续、空间上精确的内容。这使得生成的数据不仅在某一时间点上准确,还能在动态变化的场景中保持连贯性和合理性。


2、超级多模态生成:该技术不仅限于文本或图像生成,还能够跨越多种数据模态,包括文本、图片、视频、雷达、红外、遥感数据等,为自动驾驶、工业制造、建筑设计等行业提供全方位的支持。


3、行业知识融合:STCG技术与行业知识紧密结合,这意味着模型在生成内容时能够充分考虑特定行业的标准、规范和复杂性,生成的结果更加贴近实际应用需求。


4、解决复杂问题:在自动驾驶领域,STCG能帮助生成各种驾驶场景下的决策策略,提高自动驾驶系统的安全性和可靠性;在工业制造中,它能助力仿真模拟、优化生产流程;在建筑设计中,则可以辅助快速生成符合规范的设计方案。


5、可控性与定制化:用户可以根据需要调整生成内容的具体参数,比如时间跨度、地理位置、物理条件等,实现高度定制化的输出,满足不同场景下的特定需求。


可以说,华为的STCG技术代表了人工智能及元宇宙应用领域的一大进步,特别是在处理涉及时间和空间复杂性的应用场景时,展示了强大的潜力和价值,有望重塑多个行业的运作模式和效率。


华为盘古大模型的3D能力,显而易见是基于其深厚的人工智能研究基础,并结合大规模数据训练和创新的神经网络架构共同实现的,这些技术进步共同推动了盘古大模型在三维空间处理和应用上的前沿地位。


盘古大模型也是基于华为云的AI平台开发的。可以说,以盘古大模型5.0发布为标志,AI与元宇宙正在加速融合中走进更多的现实应用场景。



别忘了这个动作


关注元界(ID:Metabod)的朋友应该记得,今年一季度,作为华为旗下投资平台的深圳哈勃,投资了具有3D硬核科技的北京谋先飞科技有限公司。红杉、高瓴后,华为哈勃投下这家元宇宙领域公司,3D引擎迎风口?


谋先飞科技,是一家在3D动作物理仿真方面具有技术底蕴的公司,自研的Motphys引擎,是一款构建真实物理行为和交互的基础软件组件,其核心能力是,能够让虚拟环境下的物体和人物动起来,在互动娱乐、元宇宙、工业仿真、影视特效等行业有广泛的应用。


但谋先飞能解决的痛点是,统一解算动作仿真与物理仿真,统一全部物理材质的求解器,在算法和工程上提供极致的性能优化,结合下一代AI驱动动作物理技术,配合完善的工具链和功能集,为3D交互时代的创作者们提供分布式、跨平台、实时交互更符合物理世界标准的虚拟世界。


AI驱动动作物理技术是谋先飞正在探索的下一代动作物理技术和研究方向。不清楚此次盘古大模型展现的STCG技术与谋先飞是否有某种关联,但作为一项被华为称之为“业界首创”的技术,必将在接下来引领元宇宙应用进入虚实融合,以及AI与元宇宙强关联、强融合的前所未有的境界。


撰文:谷神君   商务:yhxgj360(微信)



推荐阅读

黄仁勋:希望今天不是我的巅峰, AI的下一波浪潮是机器人技术

宇树科技王兴兴:与其完善多模态大模型,不如探索开发全新模型

重磅|中国银行大量申请元宇宙类专利,请脑洞!

入列颠覆性前沿技术!上海:系统性布局元宇宙、区块链全产业链技术

“智”者倪健中:以大国思想推动元宇宙大发展,打持久仗还得看中国

科学家作家吴军:为什么说元宇宙是技术和社会生活发展的趋势?

首次!中国元宇宙区县、产业园、乡镇、街区TOP榜评选,上路


继续滑动看下一个
元界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存