查看原文
其他

新冠全球蔓延,AI+大数据拿什么拯救全人类? | AI 技术生态论

CSDN App CSDN 2020-10-16

整理 | 夕颜
责编 | 唐小引
头图 | 付费下载自视觉中国
出品 | CSDN(ID:CSDNnews)

自疫情发生以来,不少团队开始利用人工智能和大数据技术来进行疫苗研发、灾情防控等,比如百度LinearFold算法仅需27秒就可以预测新型冠状病毒的基因组,虽然目前还未发现治疗疫情的特效药,但可以大大加快病毒的研究和疫苗的开发速度;旷视科技的AI测温方案已经在北京的地铁站、火车站铺开,提高了疫情防控效率,等等。

 

在众多项目中,清华大学计算机系AMiner团队联合智谱.AI利用AI+大数据上线的一系列疫情相关产品,包括新冠疫情趋势预测、新冠高关注度专家学者分析、新冠学术成果时间线、新冠疫情惠民惠企政策地图、新冠肺炎疫情日报和新型冠状病毒/流感病毒知识集锦,也经受住了时间的检验,在抗疫中体现出了实实在在的价值,引起了我们的关注。

 

在使用AI+大数据抗疫系统开发上,AMiner团队已经积累出了一些经验,为了让这些经验给开发者更多借鉴,我们采访到了智谱华章科技有限公司CTO张鹏,让他来揭秘这些AI系统和产品背后还没有被深入了解的内情。

 

首先,我们先来了解下AMiner的疫情AI+大数据产品和功能。


疫情预测:智能AI算法预测确诊病例数量变化趋势


AMiner 团队和智谱.AI 联合推出的新型冠状病毒疫情趋势预测模型,以官方公布历史数据为基础,引入医疗隔离和大众防疫因素,以智能 AI 算法预测确诊病例数量的变化趋势。

                                   

根据此系统预测,从今天至3月12日,全国预测确诊数和新增确诊数将逐步下降,3月12日确诊数达到81005例,新增确诊45例。从历史数据来看,该系统的预测误差率较小。

 

那么,疫情趋势预测背后使用的模型和AI算法是什么样的呢?

 

张鹏告诉CSDN,在疫情爆发的关键节点,智谱.AI迅速组建疫情预测团队对疫情趋势进行推演。在疫情推演过程中,疫情预测团队将防控强度、医疗资源、人口流动等外界客观因素引入到SEIR传染病模型中,并利用经典机器学习算法对官方公布的历史数据进行学习,从而分省份出推演疫情的发展趋势。

 

后期预测团队新增加潜伏期、诊断期、疑似新增、复工情况和境外输入等多种情况,多维度优化现有疫情预测模型,从而预测每日确诊新增和治愈新增。例如:为了应对确诊方案更改的突发情况,团队根据相关论文和各省公布的确诊病例情况计算出潜伏期中位数和诊断期中位数,并将12日确诊病例数按正态分布到近期确诊日期上,从而降低政策改变对模型的干扰。


学者数据:实时分析全球最受关注学者数据


AMiner 平台收集融合了新冠病毒相关专家学者近 30 余年的科研行为数据,使用人工智能技术从学术影响力、研究兴趣、合作者网络等多个维度对多位全球高关注度专家学者的学术水平进行了深度分析。

 

受关注学者分析是实时的,系统会使用AI算法根据实时数据动态地追踪学者信息,更新最受欢迎学者消息。比如3月9日,最受欢迎的学者Top 1为香港大学新发传染性疾病国家重点实验室主任以及流感研究中心主任管轶,评分中详细的分析内容包含实时动态、成果影响力、合作者,以及专家的H指数、研究领域和研究兴趣等信息。

                           


这样的评分结果背后,AMiner用到了哪些技术手段?考虑到了哪些评分要素?又是如何保证结果实时性和准确性呢?

 

张鹏解释道,依靠AMiner学者平台,应用大数据分析和AI技术,特别是NLP和数据挖掘技术,他们的团队从新冠肺炎相关学者的学术成就、研究领域、合作者、高引论文、牛人引用及引用分析、实时新闻等多个角度,对学者进行精准、深入、详细的分析。

 

他以示例说明了这一复杂过程:

 

学者研究领域分析:首先,筛选出新冠肺炎相关关键词,计算其空间表示并聚类。具体来说针对新冠肺炎,AMiner收集了100多位相关学者及相似学者的大约10万篇论文,通过相关关键词的抽取分析,词与新冠肺炎主题相似度匹配,找出与新冠肺炎关系最紧密的关键词集合,再将这些关键词通过聚类算法进行聚类分析,得到新冠研究领域的主要研究热点。然后,计算学者空间表示和研究领域分布。通过分析学者的在AMiner库中的论文,抽取关键词,将关键词与第一步建立的关键词空间中的词建立联系,从而分析出学者的领域分布。


合作者推荐:团队利用经10余年构建的大规模学术知识库AMiner进行搜索,获取与学者有合作关系的全部其他学者,并根据研究领域、合作次数以及师承关系等多种维度进行推理分析,从而精确推荐合作者。同时,进一步通过AMiner获得该学者合作者的其他信息(包括论文信息、研究领域、基金信息和获奖信息等),以网状结构进行存储形成了一个小型的疫情专家知识图谱。

 

保证实时性和准确性:牛人引用及引用分析具有实时性,AMiner团队开发的学者论文引用实时分析系统,通过对学者论文引用关系数据的实时监控,能做到实时发现该学者论文的引用量,及引用的学者信息的变化。通过与AMiner学者库中的数据对接,准确地分析出引用学者的基本信息和研究信息、获奖信息等。准确定位论文中引用的位置,标记出引用的段落和句子后,再通过实体抽取、句向量抽取、情感分析等NLP技术对引用论文进行评价分析。


惠民惠企政策地图:智能匹配最佳扶持政策

 

新冠病毒肺炎疫情惠民惠企政策地图,通过收录和可视化展示疫情下各级政府和组织根据自己情况制定和发布的惠民惠企政策,在展示上通过搜索、地图的方式便于用户快速查找,同时提供按照时间、省份维度的统计,为中心企业主、政策制定和管理者提供有效信息和参看依据。

              

  • 数据来源及处理方式
 
政策数据主要来源于从国务院到县市各级政府门户网站公开发布的信息,对政策的发布时间、覆盖地区、主要内容做标签化处理和关系映射后,结构化存储,便于展示和检索。
 
  • 功能说明
 
  1. 数据更新:每日对各级政府发布政策做自动抓取,人工筛选后更新至地图上显示,并录入统计结果;
  2. 政策搜索:通过关键字对地区、政策文件名做检索,按时间倒序展示;
  3. 地图查询:根据各地发布政策的数量在地图上差色显示,通过选中地区可以展示该地区发布的各类政策
  4. 详情查看:政策添加链接,点击跳转点击跳转到源网页。
  5. 政策数据统计:按照发布时间提供发布趋势的统计,按照归属地区提供各省份的统计。
 
有趣的是,惠民惠企政策地图背后还用到了智能匹配相关技术。具体来说,就是使用智能抓取技术从各级政府、组织网站上抓取疫情相关的扶持政策,抓取包括国家各部委、省市各级人名政府的扶持政策,全国各金融机构对企业的支持举措,以及各企业公开发布的对外帮助信息。
 
惠民政策地图使用智能匹配技术,可以帮助企业寻找适合自己的扶持政策,用户在输入企业名称关键字的同时,系统会自动联想提示含有关键词的企业全称、法人和注册时间供用户确认企业,在匹配上系统对通过企业和政策分别做画像来实现政策的智能匹配,根据企业的所在地、经营范围、政策资金、企业规模、资质证书、专利情况等信息构建企业的画像,政策的画像是根据对政策标题和全文的语义解析来确定政策的适用地域范围、适用企业类型、适用行业领域、申报条件、政策扶持方向、政策扶持内容。通过企业画像和政策画像的匹配,给出适合企业的扶持政策。

疫情日报:文本语义分析和实体链接串联疫情新闻事件

      
         
可以看到,疫情日报可以将疫情相关新闻事件以节点串联起来,展示事件之间的背景关系图谱。
 
张鹏介绍道,疫情日报主要使用了文本语义分析和实体链接技术来实现对疫情相关新闻文本的分析。其中,疫情新闻的初步处理利用了基础的NLP技术,包括分词、实体识别等。而关键词抽取是利用了团队的专利技术,实现对关键词组和新词的抽取。相比传统基于统计方法得到的关键词抽,该方法具有更好的语义完整性和可读性。主题识别则采用的是基于文本语义的聚类算法,能够自动识别热点主题数量,并以关键词和实体为基础获得更好的主题识别效果。
 
虽然这个关系图谱能展示出疫情相关事件之间的联系,但仔细观察会发现,目前这个页面展示出的背景关系图谱似乎还比较简单,似乎在展示更深层次关系上还有更多进步的空间。张鹏坦承,目前展示的背景关系图谱实际上是在新闻数据中出现的实体共现关系图谱,并不是完整的背景知识图谱。而完整的背景知识图谱是来自大规模跨语言知识图谱XLORE系统,其拥有约1600万的百科知识实体和相关属性和关系数据。
 
目前,张鹏的团队正在抓紧研发将目前的实体共现关系图谱和XLORE百科知识图谱进行实时地融合,以展示更多、更详细的背景图谱,可能不久之后,我们就能看到一份更加丰富的疫情日报了。

AI+大数据抗疫的宝贵经验与展望

疫情凶猛,至今还未有有效的疫苗研发出来,因此,在接下来的一段时间做好打持久战的准备是十分必要的,用AI+大数据的方法已经展示出巨大的潜力。
 
Aminer团队在构建疫情相关AI+大数据相关系统和功能时遇到过哪些困难?对于面临突发性重大事件,利用AI+大数据技术做出快速反应方面,这支团队有哪些经验可以分享呢?
 
“传统传染病预测模型难以适应节日、政策、医疗条件变化等因素的带来的影响。官方统计口径和规则的改变同样对预测有较大影响。这些都给我们的部分工作带来了比较大的影响。我们的应对方法是及时根据官方统计数据的变化实时修正预测模型和未来预测数据,并将新闻和政策文件等作为预测因素,同时针对数据变化趋势实时分析变化因素,支持更多维度数据的综合预测分析,”张鹏这样描述他在这些项目中遭遇过的问题。
 
此外,大型突发事件中核心专家学者地位凸显,对专家学者的情报分析也需体现时事中的行为贡献。这部分的分析就涉及网络舆情和更广范围的学者活动信息,分析时也会有更多的困难和干扰。
 
通过这次的疫情事件,张鹏感觉技术和数据的积累非常地重要。所谓“台上一分钟,台下十年功”,在技术领域同样适用。
 
经过这次疫情,作为CTO的张鹏对AI+大数据技术在疫情中发挥的实质性作用有何感想?对这个方兴未艾的技术领域,他有何展望?
 
“此次疫情爆发突然,又时值春节,对社会运转和民众健康带来了极大的威胁。但与17年前的SARS疫情相比,技术手段的革新和进步,给我们对抗疫情带来了更有力的工具。大家现在可以很方便地通过手机、电脑等互联网设备非常便捷地获取疫情相关信息,例如数据发布、官方通告、物资信息等,甚至可以通过APP应用自测健康状态等。而AI+大数据同时帮助政府和各种机构更好地掌握疫情发展情况,制定当前抗疫策略,甚至可以有效预测疫情未来的走势。这其中的价值和作用很难简单地衡量和计算,”张鹏说道。“不仅如此,我们相信在未来的时间里,科学家、研究机构和技术企业会继续推进相关技术的研究和落地,相信不久的将来,我们可以利用AI+大数据技术更快地战胜本次疫情。展望未来,AI+大数据技术甚至有可能帮助我们提前预测和发现疫情的爆发,毕竟,这不是完全没有先例的。”
 
CSDN了解到,接下来,针对当前国际形势快速发展,Aminer还将推出国际疫情数据预测,提供国际疫情发展分析报告。同时,针对国际疫情输入国内的压力,他们也将提供境外输入疫情的分析及预警功能。
 
另一方面,Aminer还计划依托高维知识图谱,提供更加详尽的疫情相关专家学者分析报告和病毒研究等相关分析数据,为疫情研究者提供帮助,也为未来的医学、社会学甚至信息科学的研究准备详实准确的数据和分析结果。
 
抗击疫情的战争还远未结束,虽然国内的疫情似乎暂时得以控制,但国际上疫情发展的态势却不容乐观。相信在未来,AI+大数据还将会被挖掘出更大的潜力,助力全人类早日战胜疫情。
 
采访嘉宾:
 
张鹏,北京智谱华章科技有限公司CTO,清华大学2018创新领军工程博士,毕业于清华大学计算机科学与技术系知识工程研究室,研究领域包括文本数据挖掘和语义分析、知识图谱构建和应用等。长期致力于将语义信息挖掘和知识图谱技术应用于各种行业应用,在语义大数据分析、智能问答、辅助决策等应用领域拥有多年实践经验。
【End】《原力计划【第二季】- 学习力挑战》正式开始!
即日起至 3月21日,千万流量支持原创作者,更有专属【勋章】等你来挑战
推荐阅读 
微信联合苹果探索iOS系统的暗黑模式;iPhone SE 2于3月31日发布;Kotlin 1.3.70发布 | 极客头条国产 14nm 迎曙光,进口荷兰光刻机顺利入厂!

无需3D运动数据训练,最新人体姿势估计方法达到SOTA | CVPR 2020

年增代码 12.9 亿行,每天完成需求近 4000 个,鹅厂程序员秘密大爆料!

如何与亦敌亦友的 null 说拜拜?大神原来是这么做的!

从哈希函数、哈希冲突、开散列出发,一文告诉你哈希思想与哈希表构造到底是什么!

你点的每一个在看,我认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存