查看原文
其他

机器学习算法识别结直肠癌中的免疫相关lncRNA signature

阿越就是我 医学和生信笔记 2023-06-15
关注公众号,发送R语言Python,获取学习资料!


今天学习一篇2022年2月份发表于Nature Communications(IF 14+)的生信文章。


这篇文章思路并不难,也没有花里胡哨的技能和图表,但在2022年依然能发表在NC上,肯定是有很多可取之处的。

文章是关于机器学习算法识别结直肠癌中的免疫相关lncRNA signature。

  • 📜文章信息

  • 研究背景

  • 研究方法

  • 学习思考

📜文章信息

  • Title: Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer

  • Publication: Nature Communications

  • IF: 14.919

  • Author: Zaoqu Liu, Long Liu, Siyuan Weng, Chunguang Guo, Qin Dang, Hui Xu, Libo Wang, Taoyuan Lu, Yuyuan Zhang, Zhenqiang Sun, Xinwei Han

  • Date: 01/2022

  • DOI: 10.1038/s41467-022-28421-6[1]

研究背景

lncRN在结直肠癌免疫中发挥重要作用,但免疫相关的lncRNA在临床中的作用还所知甚少。本文通过整合多种机器学习算法构建免疫相关的lncRNA signature(IRLS)。发现IRLS在结直肠癌预后和免疫治疗中有重要意义。

研究方法

  1. lncRNA signature(IRLS)的构建。通过聚类、多种免疫浸润算法(包括ssGSEA,TIMER, quanTIseq, MCP-counter, xCell, EPIC, and ESTIMATE)、WGCNA等确定了43个 immune-related lncRNA。然后通过10种机器学习算法的101中组合确定最佳的lncRNA signature。

    不得不说,光是这第一步寻找IRLS的工作量,都超过不少低分灌水杂志的全部工作量了。

    image-20220504092333105
  2. 验证IRLS的可靠性。 通过联合TCGA和多个GEO数据集,并使用多种评价指标,评价IRLS的可靠性。计算了101种组合的C-Index,然后通过lasso和stepwise Cox继续筛选合适的 lncRNA。之后在TCGA和多个数据集中做生存分析。

    这一步也是很大的工作量,作者在Methods里面有说明,这一步是使用多个R包完成的,每一种算法使用哪个R包都有详细的说明,感兴趣的小伙伴可以去研究。比较C-index是通过compareC这个包做的。

    image-20220504092813905
  3. 评价模型在结直肠癌预后中的作用。 通过多个数据集验证,主要是看1,3,5年的AUC以及和其他临床指标比较的C-index。这一步是使用的图形也很值得学习!就是普通的柱状图,不过非常能说明问题,我认为是比那些花里胡哨的图实用多了,一目了然。

    image-20220504093542924
  4. 和已经发表的109个signature进行比较,确定这个IRLS的优越性!作者找了已经发表的109个signature,然后在多个数据集中计算C-index,进行比较!

    不得不说,每一步都是很大的工作量!这就是别人能发NC,你只能灌水的原因吧...光是找到这109个signature也是不小的工作量了。

    image-20220504094009408
  5. 使用自己的数据进行验证。 这一步作者使用了自己医院招募的病人做了生存分析和,结果发现效果也是很好!并做了qrt-PCR和免疫组化等实验。

    image-20220504094400487
  6. 前面说明了造肿瘤预后中的作用,下面就是说在肿瘤治疗中的作用。

    image-20220504094614143
    image-20220504094642271

OK,文章基本内容就是这样的,很多细节问题并没有讲到,不过大体思路就是这些。感兴趣的小伙伴可以下载原文仔细学习,还有文章附件也要好好看哦。

学习思考

  • 这篇文章通篇没有复杂的图表和方法,有的是足够大量的数据支持,让我想到一句话:最顶级的食材往往只需要最普通的烹饪方法!
  • 干湿结合,说服力更强。不仅使用了多套数据集,还使用了自己的病人,不是纯生信分析,还加了一些简单的实验,这样结果就更加可靠,不会显得纸上谈兵的感觉!
  • 如果你没有很棒的idea,你也可以尝试这种大工作量的方法。发不了NC,发个3-7分的还是可以的吧?能做到别人做不到的事,就是强!
  • 基础很重要,现在生信文章或者湿实验,常用的方法就那么几种,关键是谁用,怎么用。高分文章也是各种方法的排列组合,基本思路是可以学习的,可以模仿的。基础扎实了,思路可以通过读文献学习。
  • 文章提供了代码,但是没提供数据。不过也可以学习,看看优秀的人是怎么写代码的,你可以自己编几个数据试试看。而且文中给出了详细的说明,用了什么方法,哪个R包,用了那几个GEO数据集,数据是怎么处理的,从哪里下载的,都有详细的说明,感兴趣的小伙伴可以自己尝试下哦!
  • 郑附一是宇宙第一大院!名不虚传...

参考资料

[1]

DOI: https://doi.org/10.1038/s41467-022-28421-6



这篇文章就是使用之前介绍过的zotero一键生成到obsidian中的哦,简单方便快捷好用!


以上就是今天的内容,希望对你有帮助哦!欢迎点赞、在看、关注、转发

欢迎在评论区留言或直接添加我的微信!




欢迎关注公众号:医学和生信笔记

医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!



往期回顾

使用R语言画森林图和误差线(合辑)


使用compareGroups包1行代码生成基线资料表


韦恩图进阶!upset plot 01


使用tinyarray简化你的TCGA分析流程!


R语言画多时间点ROC和多指标ROC曲线


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存