AI+PICOS在医学信息分析中的应用探索
声明:本文为火石创造原创文章,欢迎个人转发分享,网站、公众号等转载需经授权。
自20世纪迈入信息大爆炸时代以来, 各行各业都在主动或被动地改变其产业模式, 伴随而来的问题也越来越多,我们需要这么多信息吗? 准确性如何? 我们不再担心信息匮乏, 却需要更多地培养自身理解信息和分析问题的能力。
一、医学信息学概要
医学信息学包括医学与计算机科学、临床信息学, 图形信息学和生物药物信息学等学科,是通过研究医疗资源、实验设计和方法, 高效获取医学信息, 并进行管理和合理利用信息的。
1965年由美国国家医学图书馆开发使用的 Medline 是世界上第一个面向公众,信息全面的线上医学数据检索平台,且被一直沿用至今。90年代国际上大量先进地区医疗机构都已经开始应用电子病历系统(ePR), 包括北美、香港等。 21世纪以来, 随着电子信息技术的高速发展, 医学信息学已不再仅仅用于信息管理层面, 更多的是辅助医生进行日常诊疗工作, 比如远程医疗技术, 手术机器人等。
二、循证医学研究方法
循证医学理论 (Evidence-Based Medicine,EBM)是以现实医学证据为基础的, 促进推动医疗行为决策的研究理论。在该理论模型下, 传统医学知识的循规蹈矩已不如真实医学证据所提供的价值高。该理论对各种真实医学证据做出了证据质量分级,其中Meta 分析、系统综述和随机临床研究(RCT)属于较高质量类型。
EBM研究共包括5个步骤:(1)将不确定性转化为可以回答的问题,其中要包含批判性,实验设计和证据等级;(2)系统化地检索可找到的最好证据;(3)批判性地评估证据的有效性和正确性;(4)将发现的结果应用到实践中;(5)应用中效果的分析评价。
简言之,EBM 研究是 “定义问题—搜寻证据—价值评估—实践应用—效果分析”的流程闭环,其中最主要的环节是定义问题和搜寻证据。在准备阶段,研究者必须对问题的理解和思路保证绝对的清晰,才可以正确且高效地完成后续步骤。在素材搜集阶段,只有保证了高质量的证据,才可能获得有价值的结论,否再如何优化实验过程和结果分析,也是徒劳。
三、PICOS是什么?
为了将问题分解得更加清晰明确, 也为了更精准地找到合适可用的证据,研究者们总结出了很多种的思维模型, 而其中最具代表性和实用性的就是 PICO(s),其中 P指Participants (研究对象),I 指 Intervention (干预手段),C 指 Comparator/Control (对比对照), O 指 Outcome (研究结果,终点),S 指 Study design (研究设计)。通过 PICO(s)的问题刻画和要素分解, 往往复杂且晦涩的临床研究问题都可以迎刃而解。
例如, 作为肿瘤二线疗法的单抗类药物是比较热门的研究领域, 如果我们想知道德瓦鲁单抗(Durvalumab, 阿斯利康)在接受过放化疗的非小细胞肺癌患者(NSCLC)中的疗效, 如何分解问题呢?
首先对于研究对象(P) 需要梳理出两个特征, 其一是NSCLC, 其二是已经接收过放化疗且需要后续治疗的患者;对于干预手段(I)I, 我们可以明确这个问题中的主要研究药物为Durvalumab; 对于 对照对比(C), 我们可以定义其为其他二线治疗手段, 或没有接受二线治疗的患者; 对于研究终点(O), 一般会用生存率指标和疾病缓解指标来定义肿瘤领域的药物疗效。
通过问题的结构化梳理后, 我们提炼出了精准的问题框架, 后面的文献检索过程就会变得清晰简单。在操作层面, 我们需要做的就是结合特定文献检索工具的逻辑连接词(例如MeSH), 将 PICO(s) 转化成检索策略, 完成证据收集。
四、大数据和人工智能技术助力创新科研
对于现今的医疗从业者来说,除了临床实践以外,不断学习和创新科研也是必需的工作内容,否则很容易被新知识新技术所淘汰,而且这方面能力也是医生职称评级的重要标准。
据Medscape公布,2015年美国专科医生平均收入为 28.4 万美元,据统计,中国医生2015年均收入为 7.7 万元。中国医生工资待遇比较低,但工作压力较大,在美国医生眼里,中国医生一天看100多个病人的方式是不可思议的,2 min内看一个人是非常不负责任的,不过这种情况是由国情所决定,且压缩了中国医生可用于学习与科研的时间精力。在这样的背景下,如何帮助医生更快地、有效地去学习和科研也是人工智能技术在医学领域的一个探索方向。
1.科学文献存在多语言性、内容专业、有效阅读存在难度等技术壁垒。
先不论文献的多语言性对知识获取的难度提升,即使是母语系的临床文献,也比其他种类的文字产物更加晦涩难懂,而且信息量更大。但科学文献的优势也很明显,主要有结构相对固定、基本要素全面完整。利用文献特性,如果读者可以快速定位并且直接提取自己所感兴趣的信息,那么这样读取信息的效率是很高的,所以我们需要PICO(s)来成为读者获取信息的指南针。
2.应用人工智能技术可加快选题、检索、数据获取与整合的速度。
一般读懂 1 篇 3000 字文章至少需要20~30 min,而有目的性的数据读取只需要3~5 min就可以完成。如果我们将规则转化成计算机语言,那么这部分工作完全可以由机器代工,整体速度将近一步提升,3~5 min足够人工智能去筛选并提取上百篇上述类型文献的信息和数据。
相对的,在做科研和写文献的过程中,PICO(s)可以作为大纲来指导作者的构思和选题,帮助其高效获取并有效整理素材。例如,通过传统的人工方式,好的回归性数据分析需要4~6个月的时间周期去完成,其中选题需要约1个月,数据获取需要约2个月,数据分析和论文撰写还需要约2个月。利用PICO(s)的思维去优化这个过程可以提高效率,减少因选题不准和数据不足引发的返工率,在此基础上,结合人工智能的PICO(s)体系将可以进一步加快选题,检索,数据获取与整合的速度。
3.医学信息领域中应用人工智能技术的手段仍然不够完善,实际应用中存在一定的限制。
即便是被誉为业界老大哥的IBM Watson也在今年早期传出与安德森癌症研究中心停止合作的消息,并且其营收也停止了增长。IBM Watson曾取得过很多的成功:
2011年,Watson(沃森)就在智力竞赛节目Jeopardy 中获胜,此后IBM 就在一直积极宣传沃森。在与巴罗神经学研究所合作的过程中,Watson通过阅读2500万篇文献摘要,100万篇完整论文和400万专利文献,建立了模型去预测RBPs与ALS的相关性。
有研究者为了测试其模型的预测能力,首先将IBM Watson的知识库限制在2013年之前的学术出版物上,并要求Watson使用这些可用的信息来预测与ALS相关的其他RBPs。
在2013—2017年期间,Watson在对4个导致突变的RBPs给出了高度评价,证明了模型的有效性。而后,Watson对基因组中所有的RBPs进行筛选,并成功鉴定在ALS中改变的5种新型RBPs。而这仅仅是Watson在药物发现方面的尝试之一,除此之外还有与多家研究/政府机构在卫生保健方面的业务合作和拓展。
(点击滑动查看更多)
IBM Watson之后出现低谷的原因,主要是应用人工智能学习人类经验,分析问题、预测过程中是有诸多限制因素:
(1)AI的能力高低取决于数据量级大小:数据越多,模型越准确。(2)AI的分析能力基于过往数据——人类无法理解或者未出现过的事件,AI也无从知晓。(3)AI学习的内容是由人来灌输的——AI可以成为“最聪明的人”,却无法超越“人”的范畴。
因此,我们应该将AI看作人类的工具,使用它去提升工作效率,而不是成为独立个体去自由工作。IBM Watson恰恰是因为将自己定位成“医生”,而非“医生助手”,却始终无法达到这样的高度,从而跌入低谷。
4. 人工智能与循证医学的结合更加自然与合理
循证医学本身就是溯源回归性的总结分析,历史上沉淀的大量数据没有被整合或挖掘过,利用机器的运作方式高效地处理这些信息或可得到新的智慧,摸索出一定的规律,进而更好的帮助医生去攻克医学难题。
基于 PICO(s) 的框架模式,通过建设智能化医学信息服务平台,整合数据源,将研究问题具体化,提供智能文献检索和管理,输出图表和分析报告。见图2~4。
图2 发文趋势的可视化图表样例
图3 热点变化的可视化图表样例
图4 厂商分布可视化图表样例
五、小结
综上所述,普通纯人工PICO(s)模式下的EBM研究周期耗时较长,工作效率很低。谈到智能化医学, 很多人想到的都是辅助诊疗,其实若能将AI技术应用到PICO(s) 领域,医学信息研究者可以大大提高工作质量和效率。
另外,完整的PICO(s)是由多个标签组成的, 这些标签可以被 AI 利用形成学习逻辑,并通过大量文献的灌输, AI可以高速精确地提取我们需要的信息,将人工繁琐的检索和阅读时间大大降低。
目前智能化医学信息服务平台是基于 PICO(s) 的框架模式,整合多数据源,将研究问题具体化,提供智能的文献检索和管理,最终可输出可视化图表和分析报告。
—END—
作者 | 徐奕
责编 | 老姜
微信号:huoshi201523
备注信息:姓名-公司-职位
投稿邮箱:jiangaq@hsmap.com
点击文末“阅读原文”,提前观看大健康产业大脑视频,了解更多产业创新解决方案。(温馨提示:请在WiFi环境下观看。)