新冠全球蔓延,AI+大数据拿什么拯救全人类? | AI 技术生态论
自疫情发生以来,不少团队开始利用人工智能和大数据技术来进行疫苗研发、灾情防控等,比如百度LinearFold算法仅需27秒就可以预测新型冠状病毒的基因组,虽然目前还未发现治疗疫情的特效药,但可以大大加快病毒的研究和疫苗的开发速度;旷视科技的AI测温方案已经在北京的地铁站、火车站铺开,提高了疫情防控效率,等等。
在众多项目中,清华大学计算机系AMiner团队联合智谱.AI利用AI+大数据上线的一系列疫情相关产品,包括新冠疫情趋势预测、新冠高关注度专家学者分析、新冠学术成果时间线、新冠疫情惠民惠企政策地图、新冠肺炎疫情日报和新型冠状病毒/流感病毒知识集锦,也经受住了时间的检验,在抗疫中体现出了实实在在的价值,引起了我们的关注。
在使用AI+大数据抗疫系统开发上,AMiner团队已经积累出了一些经验,为了让这些经验给开发者更多借鉴,我们采访到了智谱华章科技有限公司CTO张鹏,让他来揭秘这些AI系统和产品背后还没有被深入了解的内情。
首先,我们先来了解下AMiner的疫情AI+大数据产品和功能。
疫情预测:智能AI算法预测确诊病例数量变化趋势
AMiner 团队和智谱.AI 联合推出的新型冠状病毒疫情趋势预测模型,以官方公布历史数据为基础,引入医疗隔离和大众防疫因素,以智能 AI 算法预测确诊病例数量的变化趋势。
根据此系统预测,从今天至3月12日,全国预测确诊数和新增确诊数将逐步下降,3月12日确诊数达到81005例,新增确诊45例。从历史数据来看,该系统的预测误差率较小。
那么,疫情趋势预测背后使用的模型和AI算法是什么样的呢?
张鹏告诉CSDN,在疫情爆发的关键节点,智谱.AI迅速组建疫情预测团队对疫情趋势进行推演。在疫情推演过程中,疫情预测团队将防控强度、医疗资源、人口流动等外界客观因素引入到SEIR传染病模型中,并利用经典机器学习算法对官方公布的历史数据进行学习,从而分省份出推演疫情的发展趋势。
后期预测团队新增加潜伏期、诊断期、疑似新增、复工情况和境外输入等多种情况,多维度优化现有疫情预测模型,从而预测每日确诊新增和治愈新增。例如:为了应对确诊方案更改的突发情况,团队根据相关论文和各省公布的确诊病例情况计算出潜伏期中位数和诊断期中位数,并将12日确诊病例数按正态分布到近期确诊日期上,从而降低政策改变对模型的干扰。
学者数据:实时分析全球最受关注学者数据
AMiner 平台收集融合了新冠病毒相关专家学者近 30 余年的科研行为数据,使用人工智能技术从学术影响力、研究兴趣、合作者网络等多个维度对多位全球高关注度专家学者的学术水平进行了深度分析。
受关注学者分析是实时的,系统会使用AI算法根据实时数据动态地追踪学者信息,更新最受欢迎学者消息。比如3月9日,最受欢迎的学者Top 1为香港大学新发传染性疾病国家重点实验室主任以及流感研究中心主任管轶,评分中详细的分析内容包含实时动态、成果影响力、合作者,以及专家的H指数、研究领域和研究兴趣等信息。
这样的评分结果背后,AMiner用到了哪些技术手段?考虑到了哪些评分要素?又是如何保证结果实时性和准确性呢?
张鹏解释道,依靠AMiner学者平台,应用大数据分析和AI技术,特别是NLP和数据挖掘技术,他们的团队从新冠肺炎相关学者的学术成就、研究领域、合作者、高引论文、牛人引用及引用分析、实时新闻等多个角度,对学者进行精准、深入、详细的分析。
他以示例说明了这一复杂过程:
学者研究领域分析:首先,筛选出新冠肺炎相关关键词,计算其空间表示并聚类。具体来说针对新冠肺炎,AMiner收集了100多位相关学者及相似学者的大约10万篇论文,通过相关关键词的抽取分析,词与新冠肺炎主题相似度匹配,找出与新冠肺炎关系最紧密的关键词集合,再将这些关键词通过聚类算法进行聚类分析,得到新冠研究领域的主要研究热点。然后,计算学者空间表示和研究领域分布。通过分析学者的在AMiner库中的论文,抽取关键词,将关键词与第一步建立的关键词空间中的词建立联系,从而分析出学者的领域分布。
合作者推荐:团队利用经10余年构建的大规模学术知识库AMiner进行搜索,获取与学者有合作关系的全部其他学者,并根据研究领域、合作次数以及师承关系等多种维度进行推理分析,从而精确推荐合作者。同时,进一步通过AMiner获得该学者合作者的其他信息(包括论文信息、研究领域、基金信息和获奖信息等),以网状结构进行存储形成了一个小型的疫情专家知识图谱。
保证实时性和准确性:牛人引用及引用分析具有实时性,AMiner团队开发的学者论文引用实时分析系统,通过对学者论文引用关系数据的实时监控,能做到实时发现该学者论文的引用量,及引用的学者信息的变化。通过与AMiner学者库中的数据对接,准确地分析出引用学者的基本信息和研究信息、获奖信息等。准确定位论文中引用的位置,标记出引用的段落和句子后,再通过实体抽取、句向量抽取、情感分析等NLP技术对引用论文进行评价分析。
惠民惠企政策地图:智能匹配最佳扶持政策
新冠病毒肺炎疫情惠民惠企政策地图,通过收录和可视化展示疫情下各级政府和组织根据自己情况制定和发布的惠民惠企政策,在展示上通过搜索、地图的方式便于用户快速查找,同时提供按照时间、省份维度的统计,为中心企业主、政策制定和管理者提供有效信息和参看依据。
数据来源及处理方式
功能说明
数据更新:每日对各级政府发布政策做自动抓取,人工筛选后更新至地图上显示,并录入统计结果; 政策搜索:通过关键字对地区、政策文件名做检索,按时间倒序展示; 地图查询:根据各地发布政策的数量在地图上差色显示,通过选中地区可以展示该地区发布的各类政策 详情查看:政策添加链接,点击跳转点击跳转到源网页。 政策数据统计:按照发布时间提供发布趋势的统计,按照归属地区提供各省份的统计。
疫情日报:文本语义分析和实体链接串联疫情新闻事件
AI+大数据抗疫的宝贵经验与展望
即日起至 3月21日,千万流量支持原创作者,更有专属【勋章】等你来挑战
☞微信联合苹果探索iOS系统的暗黑模式;iPhone SE 2于3月31日发布;Kotlin 1.3.70发布 | 极客头条☞国产 14nm 迎曙光,进口荷兰光刻机顺利入厂!
☞无需3D运动数据训练,最新人体姿势估计方法达到SOTA | CVPR 2020
☞年增代码 12.9 亿行,每天完成需求近 4000 个,鹅厂程序员秘密大爆料!☞从哈希函数、哈希冲突、开散列出发,一文告诉你哈希思想与哈希表构造到底是什么!