零基础大数据挖掘实例讲解—基因芯片数据库(二)
先来解答下上期几个问题,文章的创新点在于首次整合了他人的肝内胆管癌(ICC)、肝细胞肝癌(HCC)和混合型肝癌基因芯片研究,做了类似meta一样的工作。
对于肝癌和正常肝这样的设计进行类似meta整合研究已经有许多报道,所以重复一样的工作是比较难发的。而要寻找类似的idea可以从临床特征和分子角度去思考,例如找一些罕见的病理类型或原发灶v转移灶或复发灶v原发灶的设计,还可以从miRNA,lncRNA,拷贝数,甲基化等不同分子角度去做类似meta一样的工作,只要是别人没做过的,都是好的idea。
接下来就是解决芯片数据哪里来,怎么找的问题。
这是文章中用到的数据库GEO和Array Express,也是全球最大两个基因芯片公共数据。
用过pubmed的小伙伴应该对geo的搜索不陌生吧。
这是Array Express的搜索界面
根据流程共26个数据集,需进入到项目中具体查看实验设计的内容进一步查询判别。
具体解析:
1.确定关键词:这里就以肝内胆管癌为关键词搜索,然后进入到项目中具体查看实验设计的内容,来人工寻找到肝内胆管癌(ICC),肝细胞肝癌(HCC)和混合型肝癌的原始芯片数据。当然也可以"intrahepatic cholangiocarcinoma and hepatocellular carcinoma"关键词搜索来缩小范围。因为数据量不多,本着”宁可多搜不放过一个”的原则,尽量放宽搜索条件。
2.限定类型:这里选择Series,表示按数据集显示。
3.物种选择:这里选Homo sapiens,表示选人,当然根据自己的实验设计可以选其他物种。
4.检测类型选择: 这里选Expression profilingby array,表示选基因芯片表达数据,当然根据自己的实验设计可以选其他检测分子芯片。例如甲基化,测序,SNP等。
5.记录信息:进入到项目中具体查看实验设计的内容,记录基本信息,例如样本数,设计等和一些特殊的信息。例如下表:
6不断选择关键词反复验证:为了搜全,也可不断放松关键词例如以cholangiocarcinoma搜索。总之,不断查漏补缺,记录好信息。
这期就先到这里,下期将继续生物医学大数据解读和分析——找差异分子案例实践——数据库(三),解决如何看懂别人上传的数据集。
本期也有几个思考问题:
1.为什么别人要上传自己的实验芯片数据?
2.为什么有些上传的数据集未见其对应的发表文章?
3.不怕自己的实验数据外泄吗?
大数据挖掘交流群
加小秘书后拉进去哦