不做肿瘤研究,数据挖掘怎么发文章?
往期讲了蛮多肿瘤类的生信数据挖掘模式,非肿瘤类方向的童鞋强烈要求师兄雨!露!均!沾!
数据挖掘讲究从病例样本和正常样本的芯片、测序数据中,通过算法筛选隐藏于其中的差异基因、分子修饰、分子互作等生物学信息,为进一步的科学实验证明提供可靠的思路。
肿瘤样本容易做数据挖掘主要在于①病人太多太多②病例样本和癌旁样本对比性强③细胞容易培养,功能验证较容易。非肿瘤方向的童鞋表示亚历山大,病例样本和对照组的收集本身更麻烦一点,有时候还得动物造模,不过数据挖掘的数据组呢,都是现成的,信手拈来。
师兄就介绍几篇非肿瘤类的生信数据挖掘出发的文章类型,来自于GEO数据库。
1)EXPERIMENTAL AND THERAPEUTIC MEDICINE,IF=1.3分
文章名称:Identification of key genes and pathways associated with obesity in children
疾病:儿童肥胖症
单位:济南儿童医院儿科,上海交通大学儿童医学中心
期刊介绍:审稿时间1个月,命中率70%
文章思路:GEO中基因表达芯片数据组(7个肥胖儿童,8个较瘦儿童)→limma package→肥胖差异基因筛选(79↑,120↓)→生信工具DAVID对基因GO注释和功能富集→PPI网络绘制(STRING构建,Cytoscape美化可视化)→IRegulon软件确认肥胖相关基因(MMP9、ACACB)
趁手小工具iRegulon
2)Gene,IF=2.4分
文章名称:CDKN2B-AS may indirectly regulate coronary artery disease associated genes via targeting miR-92a targeting
疾病:冠状动脉疾病(CAD)
单位:哈尔滨医科大学附属第二医院心脏外科
期刊介绍:审稿时间2月,命中率55%
文章思路:GEO中基因表达芯片数据组(GSE20680,87个CAD样本和52个正常样)(GSE20681 ,99 CAD样本和99正常样本)→CAD差异基因1208条→miR2Disease和miRTarBase预测CAD相关miRNA 5条→lncRNA Disease database预测了和CAD有关的lncRNA→预测CDKN2B-AS可能以ceRNA机制靶向GATA2, MAP1B和ARG1基因的表达→样本验证mRNA表达情况
3)Acta Diabetol,IF=3.3分
文章名称:Genome-wide gene expression profiling reveals that CD274
is up-regulated new-onset type1 diabetes mellitus
疾病:1型糖尿病
单位:苏州大学附属第二医院眼科学
期刊介绍:审稿时间2月,命中率50%
文章思路:GEO中基因表达芯片数据组(正常样本是取自病症出现前1年前)→R语言分析差异表达基因→基因CD274(编码PD-L1)持续高表达→病例相关性分析显著→第二个数据组中进行验证PD-L1表达情况
订购生信基金合辑,节后发货,添加微信:541363341
关注后获取《科研修炼手册》1、2、3、4、5,基金篇精华合集