文献学习:机器学习帮助临床决策
💡专注R语言在🩺生物医学中的使用
本文使用zotero和obsidian自动生成
今天给大家分享一篇2019年发表于JAMA network open(IF13.3) 上面的文章,文章使用机器学习方法预测急诊患者的预后,帮助提高急诊分诊能力。
是一篇不错的临床数据挖掘、机器学习方面的文章。
Machine Learning-Based Prediction of Clinical Outcomes for Children During Emergency Department Triage
📜Metadata
Publication: JAMA network open IF: 13.353 Author: Tadahiro Goto, Carlos A. Camargo, Mohammad Kamal Faridi, Robert J. Freishtat, Kohei Hasegawa Date: 2019-01-04 DOI: 10.1001/jamanetworkopen.2018.6937
♾️Abstract
略
🤔文章思路
“这是一篇机器学习用于临床数据决策的文章,但同时也是一篇纯数据挖掘的文章,并没有用到自己的数据。作者用到的方法也很简单,都是大家耳熟能详的方法。
研究背景:美国每年大约有3000万儿童到急诊就诊,急诊正确快速分诊对于正确救治非常重要,尤其是一些危重患儿,但是由于人流量大等多种原因,急诊的分诊能力也是有限的。因此作者希望通过机器学习的方法优化急诊分诊能力。
研究目的:探索机器学习方法用于预测患儿临床结局的准确性。
数据来源:这篇文章作者并没有用到自己的数据,是完完全全的数据挖掘哦。使用了National Hospital Ambulatory Medical Care Survey(NHAMC) 这个数据库的数据,共包含2007年1月1号到2015年12月31号的之间的、年龄低于18岁的儿童患者52037例!
研究方法:结果变量:是否是危急重症(需要立即住进ICU或者住院留观)。预测变量:一般资料(包括年龄、性别),生命体征(TPRBPS),就诊原因,居住地等。使用了5种模型:逻辑回归,lasso回归,随机森林,xgboost,神经网络 ,其中逻辑回归作为基线模型,其他4个模型都和逻辑回归进行比较(这不是欺负逻辑回归吗!?)。
研究结果:
首先是临床研究型文章最常见的表一:基线资料表/人口资料表:
平平无奇的一张表,但是必须得有,这种图用R语言来画现在非常简单,只需要1行代码即可。我前面介绍了3种方法,都可以轻松画出这张表,大家可以点击链接学习:
模型预测结果
5个模型预测的结果,通过ROC曲线(也就是C-index)和决策曲线展示:
这里展示了5个模型预测危急重症的能力,需要注意,作者把2个结果分开计算,分开展示的。
众所周知,ROC曲线默认是阳性结果的,这篇文章作者把阴性和阳性都展示了,决策曲线也是一样。
这两张图,也是用R语言画出来的,作者提供了代码[1]。和我之前推文中的方法一模一样,无非就是改一下颜色而已,如果你已经学习过之前的推文,这两个图现在对你来说应该也是小菜一碟!
临床预测模型之二分类资料ROC曲线绘制
临床预测模型之生存资料的ROC曲线绘制
生存资料ROC曲线的最佳截点和平滑曲线
二分类资料的DCA决策曲线分析
生存资料的决策曲线分析DCA
除此之外,作者还计算了二分类资料的一些常见指标,比如敏感性、特异性、阳性预测值、阴性预测值、
阳性似然比、阴性似然比,结果作为表2呈现:
如果你还不知道这些指标,建议回头读一下之前的推文,临床预测模型之二分类资料ROC曲线绘制,里面有详细的介绍~
最后,作者计算了变量重要性,众所周知,基于树的模型都是可以计算重要性的~
这就是这篇文章的主要内容了。
😀优缺点
作者最后自己总结了6条不足之处,也是非常的诚恳了......主要就是说病人选择、病人信息、方法选择等方面的问题,感兴趣的可以自己认真学习下,看看老外是怎么总结不足之处的。
我认为这篇文章是很值得学习的,首先是数据来源,公共的数据库;其次是没有很难的方法,作者提供了代码,但是并没有提供数据,画图部分的代码和我之前推文里的基本一致,殊途同归;也许你会觉得这篇文章有些过时了,毕竟是2019年的文章了,但是我发现一篇2022年的相同套路的文章,下次分享给大家~
参考资料
[1]作者提供的代码: https://github.com/HasegawaLab/ED_triage_ML_children/blob/master/ED_triage_ML_children_summarized.R
获取更多信息,欢迎加入🐧QQ交流群:613637742
“医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。
往期回顾
机器学习算法识别结直肠癌中的免疫相关lncRNA signature
R语言机器学习R包:mlr3(合辑)
使用zotero和obsidian管理和阅读文献
zotero和obsidian联动(免费,软件插件和OB库分享)
统计学习导论基于R:tidymodels版和中文第2版!