机器学习算法识别结直肠癌中的免疫相关lncRNA signature
今天学习一篇2022年2月份发表于Nature Communications(IF 14+)的生信文章。
这篇文章思路并不难,也没有花里胡哨的技能和图表,但在2022年依然能发表在NC上,肯定是有很多可取之处的。
文章是关于机器学习算法识别结直肠癌中的免疫相关lncRNA signature。
📜文章信息
研究背景
研究方法
学习思考
📜文章信息
Title: Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer
Publication: Nature Communications
IF: 14.919
Author: Zaoqu Liu, Long Liu, Siyuan Weng, Chunguang Guo, Qin Dang, Hui Xu, Libo Wang, Taoyuan Lu, Yuyuan Zhang, Zhenqiang Sun, Xinwei Han
Date: 01/2022
DOI: 10.1038/s41467-022-28421-6[1]
研究背景
lncRN在结直肠癌免疫中发挥重要作用,但免疫相关的lncRNA在临床中的作用还所知甚少。本文通过整合多种机器学习算法构建免疫相关的lncRNA signature(IRLS)。发现IRLS在结直肠癌预后和免疫治疗中有重要意义。
研究方法
lncRNA signature(IRLS)的构建。通过聚类、多种免疫浸润算法(包括ssGSEA,TIMER, quanTIseq, MCP-counter, xCell, EPIC, and ESTIMATE)、WGCNA等确定了43个 immune-related lncRNA。然后通过10种机器学习算法的101中组合确定最佳的lncRNA signature。
不得不说,光是这第一步寻找IRLS的工作量,都超过不少低分灌水杂志的全部工作量了。
验证IRLS的可靠性。 通过联合TCGA和多个GEO数据集,并使用多种评价指标,评价IRLS的可靠性。计算了101种组合的C-Index,然后通过lasso和stepwise Cox继续筛选合适的 lncRNA。之后在TCGA和多个数据集中做生存分析。
这一步也是很大的工作量,作者在Methods里面有说明,这一步是使用多个R包完成的,每一种算法使用哪个R包都有详细的说明,感兴趣的小伙伴可以去研究。比较C-index是通过
compareC
这个包做的。评价模型在结直肠癌预后中的作用。 通过多个数据集验证,主要是看1,3,5年的AUC以及和其他临床指标比较的C-index。这一步是使用的图形也很值得学习!就是普通的柱状图,不过非常能说明问题,我认为是比那些花里胡哨的图实用多了,一目了然。
和已经发表的109个signature进行比较,确定这个IRLS的优越性!作者找了已经发表的109个signature,然后在多个数据集中计算C-index,进行比较!
不得不说,每一步都是很大的工作量!这就是别人能发NC,你只能灌水的原因吧...光是找到这109个signature也是不小的工作量了。
使用自己的数据进行验证。 这一步作者使用了自己医院招募的病人做了生存分析和,结果发现效果也是很好!并做了qrt-PCR和免疫组化等实验。
前面说明了造肿瘤预后中的作用,下面就是说在肿瘤治疗中的作用。
OK,文章基本内容就是这样的,很多细节问题并没有讲到,不过大体思路就是这些。感兴趣的小伙伴可以下载原文仔细学习,还有文章附件也要好好看哦。
学习思考
这篇文章通篇没有复杂的图表和方法,有的是足够大量的数据支持,让我想到一句话:最顶级的食材往往只需要最普通的烹饪方法! 干湿结合,说服力更强。不仅使用了多套数据集,还使用了自己的病人,不是纯生信分析,还加了一些简单的实验,这样结果就更加可靠,不会显得纸上谈兵的感觉! 如果你没有很棒的idea,你也可以尝试这种大工作量的方法。发不了NC,发个3-7分的还是可以的吧?能做到别人做不到的事,就是强! 基础很重要,现在生信文章或者湿实验,常用的方法就那么几种,关键是谁用,怎么用。高分文章也是各种方法的排列组合,基本思路是可以学习的,可以模仿的。基础扎实了,思路可以通过读文献学习。 文章提供了代码,但是没提供数据。不过也可以学习,看看优秀的人是怎么写代码的,你可以自己编几个数据试试看。而且文中给出了详细的说明,用了什么方法,哪个R包,用了那几个GEO数据集,数据是怎么处理的,从哪里下载的,都有详细的说明,感兴趣的小伙伴可以自己尝试下哦! 郑附一是宇宙第一大院!名不虚传...
参考资料
DOI: https://doi.org/10.1038/s41467-022-28421-6
这篇文章就是使用之前介绍过的zotero一键生成到obsidian中的哦,简单方便快捷好用!
以上就是今天的内容,希望对你有帮助哦!欢迎点赞、在看、关注、转发!
欢迎在评论区留言或直接添加我的微信!
欢迎关注公众号:医学和生信笔记
“医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!
往期回顾
使用R语言画森林图和误差线(合辑)
使用compareGroups包1行代码生成基线资料表
韦恩图进阶!upset plot 01
使用tinyarray简化你的TCGA分析流程!
R语言画多时间点ROC和多指标ROC曲线