前沿研究丨一种连接材料基因组工程数据库与集成智能制造的新型数据标识编码
本文选自中国工程院院刊《Engineering》2020年第6期
作者:王毅,李佩璇,林徳烨,唐斌,王军,管全梅,叶谦,代海星,高军,范晓丽,寇宏超,宋海峰,周峰,马纪军,刘梓葵,李金山,刘维民
来源:A Geometric Understanding of Deep Learning[J].Engineering,2020,6(3):361-374.
编者按
数据标识符(DID)是所有类型数据库中必不可少的标签,尤其是与集成计算材料工程、可传承集成智能制造和工业物联网有关的数据库。随着先进材料的快速发展,需要建立材料信息学的相关数据标准。
中国科学院刘维民院士科研团队在中国工程院院刊《Engineering》中撰文指出,数据标识编码是连接材料基因组工程数据库与可传承集成智能制造的桥梁。文章简要介绍了设计时代集成计算材料工程领域数字孪生设计范式的几种观点,提出了一种由一组构建单元组成的通用 DID格式,且该格式与国际和国家标准中使用的经典标识符格式一致。DID具有灵活性,便于在各种云平台之间进行扩展和共享。另外,文章指出,建立材料基因工程云平台的主要目的是发现新型先进材料的协同应用,以服务和支持未来的集成智能制造技术,为加速先进材料的发现和制造以及提高研究产出、效能和协作铺平道路。
一、引言
随着人类进入集成智能制造时代,集成计算材料工程(ICME)的数字孪生设计范式对于加快新型先进材料的发现和应用至关重要。大量官方文件和计划已概述了计算材料工程的独特挑战和机遇以及未来可传承的集成智能制造(I3M)的战略蓝图,如美国的材料基因组计划(MGI)、中国的材料基因工程(MGE)和人-信息-物理系统(HCPS)、德国的工业4.0、韩国的工业创新3.0。材料创新赋予了解决问题的新技术能力并促进社会的重大进步。
基于这些先进材料的设计范式,材料发现和工程创新为技术进步开辟了新的领域,包括大数据、数据挖掘、机器学习、人工智能、云计算、金属材料本体论和知识图谱。与大数据和机器学习相关的技术有助于将理论预测与微观自由度联系起来,从而加速区域材料的设计和合成。如集成实验衍射数据、对称性统计反馈、基于密度泛函理论(DFT)的优化算法,第一原理辅助结构解析已成为一种新型的自动预测晶体结构的混合方法。DFT 计算和相图计算(CALPHAD)的集成被认为是材料基因和材料设计的主要部分,并已建成一个强大的数据驱动的ICME材料开发框架,该框架强调基于相物理性质的数据库。
众所周知,ICME是通过计算工具获取、工程产品使役性能分析和制造加工仿真的材料相关信息的集成。随着计算材料科学和计算能力的迅速发展,多物理场模拟推动了热力学、动力学、结构、缺陷和性质在多尺度上的预测,极大地加速了材料数据库或存储库的发展。此外,通过集成多尺度模拟,设计策略可以跨越从电子到相甚至到产品的范围,并且可以有效地确立筛选目标候选材料的原则和判据。
从集成智能制造/工程的角度来看,数据驱动的 ICME支持数字孪生类型的设计/制造范式,这突出了材料信息学的重要作用。尽管第三次工业革命(所谓的数字革命)仍在发展中,但是第四次工业革命的重点是基础设施和数字科技,并将非线性特征、数字技术和学科整合到虚拟材料和物理系统领域。
在智能设计时代,通过计算可以提前确定新的目标、候选对象和技术方案,从而有利于企业以较低的成本和较短的时间提供基于所获得的知识和模型的营销策略,以便在全球竞争中生存。为了对目标设计、优化、计划和解决方案做出有效的决策,解决公认的数据“4V”至关重要,包括体量、速度、多样性和准确性。据报道,北美的大型制造商已经花费了近7万亿美元来升级以前带有传感器的设备,使设备系统能够通过物联网(IoT)相互通信。有效地利用这些运营数据进行商业决策是一个巨大的挑战或机遇,然而目前仅有约1%的商业决策是这样做的。因此,不但应该关注促进数据集自动化收集、整理和分发的工具,还应该定义并遵循标准化的数据和元数据格式。例如,可查找性、可访问性、互操作性和可重用性(FAIR)这四个基本原则被提出,用于传统意义上的数据、算法、工具和工作流的指导原则。在收集和分享数据时应考虑所谓的FAIR指导原则。
我们最近的短评文章讨论了在当前数据驱动的 ICME的框架中,数据库、工具包、平台、原理、基准和标准的主导作用。由于数据驱动的ICME的短期目标已基本完成,长期目标正在进行当中,其中包括培养下一代ICME生力军并建立基于网络的ICME基础架构,以提高其全球工业竞争力和国家安全。据了解,构建材料信息学的相关数字标准对于发展数据挖掘、深度/机器学习和人工智能,验证有价值的数据和加速材料创新、发现和设计都是很有必要的。这还需要加强与工业伙伴的互动与合作。为了解决技术从实验室转化为实际应用时出现的问题,美国国家科学技术研究院(NIST)提出了关于性能和互操作性的标准,以加速创新并将应用新型智能制造技术的风险降至最低。此外,最近提出的中国材料与试验学会(CSTM)标准草案《材料基因组工程数据通则》是对MGE数据内容进行标准化的首次尝试,将对材料科学向数据驱动的科学体制的转变产生深远影响。
本研究提出了一种由一系列构建单元(意义段)组成的通用数据标识符(DID),作为CSTM系统地建立MGE数据标准的一部分,该标识符与国际和国家标准中使用的经典标识符格式保持一致。该DID具有灵活性,便于在各种云平台之间进行扩展和共享。相应地,典型的二维码可以被智能手机或特定机器生成并精确识别和解码。通过将这些二维码作为与云平台相连接的一组数据的指纹,成分-工艺-结构-性能-服役(CPSPP)工作流程中的进展和更新将被自动跟踪,从而为促进先进材料的开发及提高研究产出、成果和合作奠定基础。
二、数字孪生智能制造时代
(一)设计时代的数字孪生制造
数字孪生是物理实体的计算机化伙伴,是ICME时代的新型设计范式,被用于飞机、火车和发动机的设计制造。如图1所示,先进材料的典型发现、设计、创新和制造链包括成分、工艺、微观结构、属性和性能。材料科学中的CPSPP关系或工作流过程在指导材料的发现和制造方面极为重要,并且需要先进的技术,包括高通量计算、增材制造、人工智能、数据挖掘、机器/深度学习等。考虑到自下而上设计和自上而下工程,实验环节和理论环节之间的数字孪生特征以不同的背景色突出显示。MGI强调实验工具、计算工具和数据库以及它们之间交互作用的主导地位,而HCPS 和MGE则强调HCPS的交互作用,这预示了上述先进技术的未来的应用。
德国工业4.0强调通过信息-物理系统(CPS)来实现智能制造。美国对未来智能制造业提出了两个目标:①展望并促进美国工业的前瞻性和领导力;②有助于生力军的发展。这些目标也被中国的 HCPS和MGE考虑在内。机器学习算法可以通过识别主要数据和有价值的数据关系来加快对材料和基础科学研究的本质理解,从而加强人-物理系统和人-信息系统的解释,并形成科学知识和模型。在完成模型建立并根据材料参数预测性能之后,进一步分析训练模型中的梯度,可以确定主要的和有价值的数据关系,而这些关系无法通过人工检查或传统的统计分析方法建立。在数字孪生智能制造时代(也称“设计时代”),通过将自下而上的理论设计与自上而下的实验路线相结合,利用数字孪生智能制造技术,有望以较低的成本,更高效地设计和发现新的先进材料。这将加速MGI基础设施的发展、加强HCPS中的交互作用,并支持利用最新的先进技术同步构筑未来。
图1 ICME时代的数字孪生设计范式示意图,参考美国的MGI、中国的HCPS和MGE以及德国的工业4.0。MS:微观结构;HCS:人-信息系统;HPS:人-物理系统;CPS:信息-物理系统
(二)生态系统中的设计
数据和数据基础结构是保证MGI/MGE、ICME和I3M成功取得进展的三个基础之一。所有这些术语都是基于信息学。信息学是一个广义术语,涵盖了数据驱动的设计阶段,如储仓、可视化以及统计学习算法的应用。与MGI/MGE,ICME和I3M中强调的数字孪生智能制造范式相一致,通过所谓的模拟或数据驱动方法可以方便地解决选择和制造候选目标材料的准则、判据和策略问题。
数据是材料4.0的基本资源,它是工业4.0下I3M的一种形式,如图2所示。材料信息学将是未来工业制造的首要工作站,它包括材料加工和性能的大数据、机器学习算法、多尺度建模、虚拟合成和表征、原型测试和验证以及生命周期评估。例如,数字制造与设计创新研究所(DMDII)作为一个与学术届、行业和政府合作伙伴建立公私合作伙伴关系的机构,承担了通过数字技术提高美国制造业竞争力的责任。DMDII的目标是将整个生命周期过程中的数据进行数字化并将其集成起来,获得更好的解决方案和决策,并在这个领域成为一个卓越的全球性组织。
迄今为止,DMDII的5年合作协议已取得了一些极其重要的经验、教训和问题,其中包括:①通过数字制造改善组织间的运作;②加速数字技术的创新;③多方合作促成创新解决方案;④解决数字制造技术中的“死亡谷”(valley of death)问题。类似地,计算材料设计中心(Center for Computational Materials Design)是ICME的前身和催化剂,由美国国家科学基金会产业/大学合作研究中心于2005年成立,是将学术界、行业和政府联系起来的基础。该中心可在一系列CPSPP关系中促进计算材料科学和力学的发展,其重点是培养和训练计算材料设计的未来生力军。良好的数据管理对于后续的数据和知识集成、数据发布过程后相关团体的再次利用以及知识探索和创新都是至关重要的。
图2 基于网络的材料大数据平台(材料4.0)的概念
鉴于当前大数据及其使用的趋势,数据正呈指数级增长,其生成方式正变得全球化,并正在向新兴市场转移。自2011年以来,MGI已投资超过2.5亿美元,用于软件工具的开发、收集和报道实验数据的标准化方法的建立,重点大学的计算材料科学中心的建设以及大学与企业在特定应用研究方面的合作等方面。一个可持续的数据生态系统由一套机制(即标准)组成,这些机制的功能类似于自然界中的溪流,它们克服障碍,将数据从个体存储库传输到“数据海洋”(ocean of data),然后再循环将数据传回个体存储库,如图3 (a)所示。FAIR原则可以被描述为一个生态系统,这个生态系统包括湖泊(各种数据存储库)、水流(相互连接)、渗流(私有数据)、海洋(收集)以及冷凝和降水(再利用)。这种运输和循环的驱动力或动力并非基于全部有用数据。因此,为了揭示数据在空间和时间上可能的联系及其与其他项目的关系,应将可操作或有价值的数据标记并与元数据链接,这是我们提出通用DID格式的初衷。
图3(b)总结了当前材料基因组系统的技术、工具、模型和数据库基础,并强调未来基于相特性和结构调控显著提升系统功能。在材料基因组计划中需要更多的基础投资,重点是改进适用参数设计模型和构建高质量的数据库。人们认为,可扩展的、自动优化的相平衡基础设施(ESPEI)将是建立“数据海洋”和开发具有多种缺陷的多组分材料性能数据库的重要组成部分。在CPSPP关系的指导下,图3(b)显示了当前所有的计算材料设计方法都是基于处理过的数据,而处理过的数据又依赖于原始数据,ESPEI在这两种数据收集形式中都扮演着重要的角色,也就是说,可以假定这两组数据孕育了所有其他属性。这个概念与图3(a)所示的“数据海洋”的概念非常吻合。此外,通过结合ICME的级联结构或基于MGI数据库的所谓的集成计算材料设计(ICMD), ICME/ICMD机械设计模型可以加速创新,最终将研究室理念转化为工业制造。
图3 ESPEI在“数据海洋”中起着关键作用。(a)“数据海洋”的可持续生态系统示意图;(b)基于MGI/MGE的ICME方法应用的方法、工具、技术和数据库的整体层次结构。MSV:多尺度变量;TRL:技术准备水平;FLAPW:全势线性化缀加平面波;VASP:维也纳从头算模拟软件包;ESPEI-SQL:可扩展的、自我优化的相位平衡基础结构-结构化查询语言;DICTRA:扩散控制转换;D3D:Direct3D
三、标准系统
(一)DID编码原理及应用
集成物联网相关技术和基于云的技术将促进先进材料的发现和设计,并提高研究效率、性能和协作。通常而言,一系列基于云的工具(统称为物联网)可以集成实验室中的一切,从研究协议和设备到发表和数据存储。这种数字实验室管理将远远优于当前的科学工作流范式,甚至可能产生前所未有的研究方法,使今天所做的工作相形见绌。例如,已经建立的一个名为nanoHub.org的网络平台,为全球172个国家/地区的24万多名用户提供计算纳米技术的网络支持。由于它是一个科学云,nanoHub平台的用户可以设计和运行其工具,而无需安装或仅需最少的基础设施;因此,该平台以用户友好的方式把这些工具提供给全球。
我们认为,以条形码或二维码形式存储的有价值和有用数据的标签将被视为一组数据的指纹,并将与云平台链接。因此,被标记的数据将有可能自动跟踪CPSPP工作流过程中的进展和更新,这将加速新型先进材料的发现和制造,并提高研究效率、性能和协作(图4)。值得一提的是,建立这一云平台(即正在开发的www. MGE-TriD.com平台)的优先任务是在摩擦学研究领域发现新型先进润滑材料的协同应用。参与这个平台的所有研究人员都可以在全球范围内自发地合作。一旦从理论上或实验上生成大量数据,云基础设施和低成本存储设备就可以直接支持这个平台,并将这些数据推向可能感兴趣的研究人员。
图4 云平台示意图,展示了DID编码介导的数字孪生创新/制造范式,为自发跟踪CPSPP设计和发现程序铺平了道路。IMTD:智能制造技术数据
图5所示的是一种由一系列构建单元(意义段)组成的通用DID格式,该格式与国际和国家标准中使用的标识符的经典格式一致,如ISO/IEC 29168-1:2000 、 GB/T 27766–2011、GA/T 543.2–2011、GM/ T 0006–2012、GJB 7365–2011、SL 325–2014,SL 607–2018、WS 363.2–2011和QX/T 39–2005。在这里,每个构建单元均由大写字母和数字组成,没有符号,并且可以从成熟的云平台构建或转换。例如,智能制造技术数据(IMTD)服务平台已使用的DID原则已经被考虑,并集成到我们正在开发的平台(www.MGE-TriD.com)中。此外,每个构建单元的总长度不受限制,这遵循了ISO/IEC 10646国际标准中通用编码字符集格式。基于这些规则,本研究提出的DID具有灵活性,便于在各种云平台之间进行扩展和共享。因此,传统的二维码,包括汉信码(Hanxin Code)、龙贝(Lots Perception Matrix, LP)码、快速反应(Quick Response, QR)码、网格矩阵(Grid Matrix, GM)码和数据矩阵(Data Matrix, DM)码,可以被智能手机或特定机器构造并精确识别和解码。将这些二维码作为一组与其云平台链接的数据指纹,可以自动跟踪 CPSPP工作流过程中的进度和更新。
图5 根据现有的国际、国家和组织标准,展示的DID编码的推荐构造规则示意图。OID:对象标识符;ID:标识符;LP:龙贝;QR:快速反应;GM:网格矩阵;DM:数据矩阵
此外,DID编码不仅在云平台上提供数据指纹或一组数据的记录,而且还支持构建I3M核心的未来技术,包括先进材料、大数据分析、云计算、工业互联网和移动设备(图6)。
DID编码将改善ICME时代数字孪生设计范式中HCS、HPS、CPS的交互。例如,数据驱动的智能ICME强调先进技术,如增材制造、机器学习和大数据分析(或数据挖掘)。这些技术可以被认为是多尺度建模和基于模拟的材料和系统设计在航空和运输业中的催化剂。机器学习正受到越来越多的关注,并且在先进材料的发现和设计过程中,无论是在时间效率还是在预测精度方面都取得了巨大的进步。虚拟现实和增强现实不仅增强了人机交互,而且为数字和现实世界中的协同工作奠定了基础。在传统的可传承智能制造(I2M)中,“可传承”指的是数字孪生设计范式的一个新特点,即核心技术、通用模型或基本原理不会随着时间或其他更新或变化而改变。
正如华为技术有限公司在2019年的白皮书中称,集成化、智能化和可传承性(I3)功能被认为是未来基于数字云平台的三大基本功能。一方面,我们提出的构建DID编码的原则与云平台的数据指纹或数据记录类似,这符合I3 的特性,可以为I3M服务。另一方面,可传承的特性体现了材料发现、设计和制造中的材料基因的原始理念。相信所有这些成果和进步都会降低制造成本,提高产品质量。
图6 有助于I3M的10项关键技术。蓝色突出显示的技术可能涉及DID 编码。
(二)基于云技术的标准系统
最后,有必要强调的是,与材料信息学相关的数字标准对于机器学习算法、数据挖掘和人工智能的发展以及材料创新、发现和设计的加速至关重要。例如,NIST 正在开发若干面向制造系统技术和两个颠覆性制造领域(即机器人系统和增材制造)的测量标准。图7给出了中国大数据和物联网系统标准的框架,这将是I3M的基础。值得期待的是,我们提出的数据标识编码标准有望成为这两个标准体系的一部分。下一代科学标准的构建正在进行,这将改变我们对未来生力军的培养和训练。
图7 中国提出的大数据和物联网系统标准框架。ITOM:信息技术运营管理;RFID:射频识别;QoS:服务质量
四、结论
本文简要介绍了设计时代ICME数字孪生设计范式的几种观点,并提出了一种由一组构建单元组成的通用 DID格式,且该格式与国际和国家标准中使用的经典标识符格式一致。本文所提出的DID具有灵活性,便于在各种云平台之间进行扩展和共享。值得一提的是,建立 MGE云平台的主要目的是发现新型先进材料的协同应用。这个平台上的所有研究人员可以实时在全球范围内合作。一方面,我们提出的构建DID编码的原则与I3 特性相一致,可以为I3M服务;另一方面,支持未来有助于I3M的技术,包括高级材料、大数据分析、云计算、工业互联网和移动设备,可以改善HCS、HPS和CPS之间的相互作用。遗传特征起源于材料发现、设计和制造过程中“材料基因组”的原始概念。由于我们提出的构建DID编码的原则可作为I3M云平台上数据记录的指纹,因此可以期待,这些原则可能会被融入或整合进中国的大数据和物联网标准体系。
注:本文内容呈现略有调整,若需可查看原文。
改编原文:
William Yi Wang, Peixuan Li, Deye Lin , Bin Tang, Jun Wang, Quanmei Guan, Qian Ye, Haixing Dai, Jun Gao, Xiaoli Fan, Hongchao Kou, Haifeng Song, Feng Zhou, Jijun Ma, Zi-Kui Liu, Jinshan Li , Weimin Liu.DID Code: A Bridge Connecting the Materials Genome Engineering Database with Inheritable Integrated Intelligent Manufacturing[J].Engineering,2020,6(6):612-620.
作者介绍
刘维民,润滑材料与技术专家,中国科学院院士、发展中国家科学院院士。
长期从事润滑材料与技术的研究工作。建立了空间润滑研究平台,揭示了空间润滑材料的作用机制,通过结构设计和组分调控发展了多个系列空间润滑材料,应用于我国的航天工程。研究提出了滑动和关节轴承润滑材料的摩擦磨损机理,突破了高性能润滑材料制备的关键技术,研制的系列化固体润滑材料在多个航空型号工程获得应用。系统阐述了润滑剂作用的摩擦化学和摩擦物理机理,设计制备了低摩擦、抗磨损、高承载的多个种类的合成润滑油脂及添加剂,用于装备制造工业。
点击图片阅读丨前沿研究:稀土永磁材料专题
点击图片阅读丨前沿研究:稀土永磁体的前景展望
点击图片阅读丨战略研究:核能用材 & 矿产资源强国
中国工程院院刊
工程造福人类
科技开创未来
微信公众号ID :CAE-Engineering
注:论文反映的是研究成果进展,不代表《中国工程科学》杂志社的观点。