查看原文
其他

期待AI+NLP+KG尽快进入实用阶段,因为需求很强烈

常四爷 石头那些事儿 2021-10-15

早上看到能源局的一份文件《国家能源局关于征集“十四五”能源发展意见建议的公告》,随后转发朋友圈,并写了下面一段话:

我们已经写了一个月了,快完稿了。能源局的这个事儿,需要不少人力对各种方式过来的建议进行归类、整理和分析。如果采取知识图谱和语言理解技术,是不是可以提高效率?

这件事引发了田力老师的(tigergraph)图数据库群里头广大干部群众的热烈讨论,远在地球那头的联研院美国分院CTO广一老师说:应该可以,按照建议人、建议主题、建议内容等分别建立节点和边,可以建立能源局建议知识图谱。再加上利用自然语言处理进行自动分词


在学习和理解广一老师点评的基础上,我汇报一下去年和今年的一些工作体会,以及由此体会所引发的对AI+NLP+KG的强烈需求。


,政府在征求民意方面,知识图谱和图数据库技术,还是有工作可做的,听说人工智能在自然语言方面的水平,已经达到了2-3岁幼儿的境界了,也就是听得懂+初步的理解,未来在深度理解和推理方面,估计还需要做出很多的努力。


,我们家孙子正处在人工智能的初级阶段,多数感知和一点认知,我经常拿我们家孙子和人工智能系统做对比研究,于是乎颇有些体会和心得。上个周末,我和孙子讨论这个蓝色比较浅、那个蓝色比较深,他突然说游泳池的水也很深,我差点崩溃。第二天我们在饭馆吃饭,看他对旁边被围挡围起来的、印有Opening Soon的披萨店很感兴趣,我就说这家饭馆正在装修,随后在小区的游乐场,他看到滑梯上绑了一根红布条,就告诉我说:在装修,这下,我彻底崩溃了。


这是一个什么性质的问题呢?我立刻联想到了,前阵子参加电促会牵头的某电网公司某单位和中科院某单位举办的几次研讨会,是关于电力设备图片标注和图片识别的,这是一个非常重要、也是非常基础性的AI问题,按照AI三段论(感知、认知和推理),图片标注和识别,尚处在感知阶段知的初级阶段。按照我们不懂AI的粗浅理解,这个阶段有两个问题需要解决;一是环境识别、设备识别和故障点识别;二是故障点识别与设备缺陷的联动;如果能解决这两个问题,不仅可以表明AI在电网设备故障认知上达到了一个新阶段,也意味着AI巡检的结果,直接导入PMS的检修系统,将具备了技术上的可行性。对此感兴趣的同学们可以阅读《电网设备AI识别的三个层次》和《MRO:电网设备运维与检修的平衡》两篇文章。


,万军、志广和我这三位同学,去年在某省电力公司做资产全寿命周期项目劳动时,每个月、每个季度都要对地市公司和专业公司的报告进行汇总分析,尤其是对存在问题解决办法建议三个方面,进行分类汇总,人工干这件事,就是把每个下属单位报告中相关的文字部分,先扔到Execl表格中,然后进行语义和内容的理解,从主题思想慢慢的浓缩成关键字所表达的主要问题,其实这是一个非结构化数据结构化数据转换的过程,然后对已经被结构化了的关键字进行表格统计和分析,以便发现资产全寿命运动中,省公司、地市级公司和专业公司所存在的共性个性问题,例如涉及到对资产全寿命工作认识不足的、涉及资产全寿命培训的、涉及到基层人员变动的、涉及到各部门配合的、涉及到电网资产数据质量的、涉及到各烟囱环节打通的、涉及赋码贴签的、涉及到二维码扫描设备功能的等等,例如涉及二维码扫描设备的,只是个性问题,不是共性问题,为什么会是这样子的,分析表明,这个问题只存在于个别设备供应商的层面;再例如赋码贴签的标签供货和验收问题,就是一个共性问题,这就为省公司有关部门尽快解决这些问题,提供了建议支撑。


,这些事儿,人工做起来效率很低,我们去年一直在寻找这方面的解决方案,谈了几家貌似在NLP方面做的还不错的公司,发现都不行,最后,还是人工来做。


在实际工作中,我们还发现,有些地市公司,还搞不清解决办法建议之间的不同与差别是什么,所以,还要花不少时间,对这些问题进行重新归类,有些建议写到了解决办法中,还有些解决办法写进了建议中。不知道未来的基于AI的NLP,能不能发现和处理这些实际问题,真的很期待ing。


今年9月22-23号,电促会举办了2020年电力规划论坛,这是一次面向十四五能源电力规划的盛会,演讲嘉宾涵盖范围之广泛、观点之高度、线下线上参会人数之多,凸显了大家对十四五规划的强烈关注。会后我们按照去年的工作经验,对会议内容做了一些归类和统计分析。试图从中发现一些关于能源电力十四五规划中的一些共性个性问题。

我们把除制造之外的其他企业归类成服务,那么可以看出,物流、软件、安全和通信等服务企业参会占比接近60%,为什么这类企业参会比例比较高呢?显示出在市场竞争前沿的服务类企业更加关注十四五规划所带来的市场机遇。

我们花了较多的时间,对论坛22位嘉宾演讲内容的热词进行了归类统计,统计发现,在18个热词大类中,有10个热词的提及率比较高,这反映了什么样的话题或者问题,将成为十四五能源电力规划中应该关注的主要问题。而这些问题来自于包括院士在内的电力规划专家、主要央企和市场的共识,应该具有很重要的代表意义。


我们的能源电力十四五规划建议,就是在这个统计分析基础上展开的。


能源电力企业,存在很多结构化和非结构化的历史数据,尤其是非结构化的各种制度、规程以及涵盖整个资产寿命周期的各种历史文件。对这些文件进行分类、汇总的分析与统计,可以归纳和总结出对未来工作很有意义的价值,这是一项工作量巨大、而又繁琐的任务,仅仅靠人工几乎难以完成,因此,我们非常的期待AI+NLP+知识图谱技术能够帮助解决这些问题。


在电促会和国网大数据中心联合举办的、刚刚落幕的《2020年人工智能和大数据论坛》上,百度知识图谱部宋勋超架构师认为,目前基于数据算力深度学习的人工智能体系不能满足未来的发展,更新一代的人工智能应该是数据算力深度学习,再加上知识的汇集,体现了与知识相关的技术在未来人工智能系统发展中的重要价值。本次论坛有电科院、百度和腾讯等单位的嘉宾,在演讲中重点提到了知识技术中的知识图谱应用。其中,电科院王晓辉博士比较系统的讲解了知识图谱在AI中的应用,包括半结构化、非结构化数据的知识提取,建模自上而下和自下而上的不同选择背后的考量,以及知识图谱与图数据库的关系。


在此隆重感谢广一和田力两位老师,去年9月份,把我们带进了知识图谱和图数据库的圈子。


知识图谱和图数据库的更多分享....


“南岛语系”和“南岛语族”考古中的大数据弱相关性探讨


配电网的泛在全景感知怎么做?


新发地:流调真相有可能长时间停留在三文鱼案板上


可拓学:矛盾的共性和个性


胡乱说一通关于可拓学的学习体会


讨论:数据应用的价值,是数据驱动?还是需求驱动?

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存