查看原文
其他

零基础生物医学大数据挖掘系列(一)开篇

2016-02-10 FreeScience 弗雷赛斯

今天,我们来讲讲大数据,什么,大数据是什么?你!给!我!


表理她,还有我!我!我!



大数据挖掘和分析就是从大量的、不连续的、随机的生物医学数据中,提取隐含在其中的、但又是潜在有用的数据,并且结合临床资料和生物学方法分析出具有临床和研究价值的信息的过程。


现在的生物医学的研究已经进入一个“大数据”时代,每30秒就有一篇新论文发表,但总体在转化医学和新治疗方法的进展上还是很缓慢,一部分原因是由于许多文章都集中在某几个基因或某一两个疾病,如此便形成了一个个知识孤岛,并不能对生物系统的研究构建一个总体画面,以至于一些有效的知识迟迟得不到发现。然而生物体是如此复杂,很多疾病机制和治疗手段实际上不是孤立的,它们之间存在千丝万缕的关系。两个毫不关系的东西很可能通过某种方式联系着,如果发现这种联系,就会产生质的飞跃,为治疗疾病发展新药提供新思路。例如,没有从文献数据的挖掘和分析,研究人员或许永远不会去测试鱼油能缓解一种循环系统疾病——雷诺综合症的可能。

 而对于一名临床医生和基础研究者,掌握了解读和分析大数据的基本能力,就等于拥有“大数据”宝库的钥匙,任你挖掘。怎么样,开不开心?



从此,你可以实现:

1作为申请课题的方向和基础工作;

2验证你现有的实验结果,提高文章质量;

3进行大量数据集的挖掘或采用独创的分析方法,单独发表SCI文章;

4指导实验研究方向,预测潜在机制,发表SCI文章。


本系列将从实际操作来介绍一些数据挖掘、系统生物学算法和可视化工具,可用于基因、代谢、蛋白质组学和药物等筛选工作的数据进行功能性分析。例如提供基因、蛋白、转录本列表,找出与之相关的重要通路、网络关系、疾病关系;如何下载原始的高通量数据进行分析;如何将结果可视化,做成文章中高质量的图表。以简单,实用,不编程,人人都能学会为原则进行讲解,适用于所有零基础的科研小伙伴。


生物医学大数据解读和分析——找差异分子案例实践(一)

 

为了零基础的小伙伴们更直接和方便的理解大数据挖掘,本系列将采用别人已发表的文章来进行数据分析还原,将文章中用到的分析过程和操作,一步一步还原,呈现给大家。


本期挑选的一篇文章是”Differentiallyexpressed gene profiles of intrahepatic cholangiocarcinoma, hepatocellularcarcinoma, and combined hepatocellular-cholangiocarcinoma by integratedmicroarray analysis ”是2015年复旦大学中山医院团队发表在tumor biology。(影响因子为3.611 ,PMID: 25712376)


文章的基本思路是收集别人的含有肝内胆管癌(ICC),肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据,然后分析得出三组比较差异的基因列表和相关通路和功能,最后挑选出其中的S100A11基因在HCC和ICC细胞系中验证表达。

此文就是典型的用别人的数据,发自己的文章,通过简单的表达验证,补足实验证据不足的缺陷,那么一篇几乎零成本(抗体,细胞系,pcr和wb的试剂总成本在1万以内)的三分以上ResearchArticle就这样完成了。而文章的关键就是在于数据收集和分析。


那么我们就开始还原数据分析过程了,首先要解决一下几个核心问题。


1芯片数据哪里来,怎么找?

2下载哪些文件,怎么下载?

3用什么软件分析获得差异基因?怎么操作?

4通路和功能分析是要用到什么软件,怎么操作?

5挑选其中的某一基因来实验验证有什么原则和方法?


那么接下一期将解决第一核心问题:芯片数据哪里来,怎么找?

这一期的给小伙伴的几个思考问题:

1.想想为什么这个idea能够发表SCI?

2.如果是收集分析肝癌和正常肝的芯片数据能发表SCI吗?

3.你临床身边或者研究领域有没有类似的idea?




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存