生信人绝不能“饭来张口”的理由!警惕这些“有毒”数据集
欢迎来到锦鲤许愿池~
做生信分析,离不开与数据集打交道。数据集的质量好坏,直接影响着分析结果的优劣。如果被海量信息冲昏头脑,让不可用的数据集混入其中,简直是费时费力又费神。
于是,锦鲤为大家特地带来数据集黑名单!(GEO)那些因为各种原因彻底不可用,没有解决方法的数据集可以一键拉黑了!清洗数据,就从源头走起吧~
本期为大家带来的拉黑原因包括:样本过少、数据集基因过少、缺少疾病组&对照组、表达量大量一致和表达谱数据大量缺失。注意看好了喔!
GSE136270
GPL平台:GPL9115
疾病类型:胆道闭锁 Biliary Atresia(BA)
问题原因:样本过少
研究者仅从6例BA患者和6例正常移植前肝脏异体移植物的肝脏组织样本中制备集合RNA文库。
GSE196707
GPL平台:GPL11154
疾病类型:少突胶质细胞瘤Oligodendrogliomas
问题原因:样本过少
研究者仅对2例少突胶质细胞瘤患者原发和复发肿瘤的基因表达进行研究。
GSE75644
GPL平台:GPL6244
疾病类型:牙髓干细胞 Tooth Pulp(TP)
问题原因:样本过少
研究者仅从因牙齿矫正而拔除的健康恒前磨牙(25个,6男6女,年龄11-25岁)中采集人类恒压牙髓组织。
GSE34289
GPL平台:GPL5175
疾病类型:甲状腺结节 Thyroid Nodules(TN)
问题原因:数据集基因过少
该研究结果占用了两个芯片平台,在GPL5175平台中只有175个基因,不可使用;另一平台可以正常使用。
GSE73025
GPL平台:GPL20917
疾病类型:复发性流产Recurrent Spontaneous Abortion(RSA)
问题原因:数据集基因过少
空值过多,导致可用基因过少。
GSE16658
GPL平台:GPL7722
疾病类型:帕金森病 Parkinson's Disease(PD)
问题原因:数据集基因过少
空值过多,导致可用基因过少。
GSE68475
GPL平台:GPL15018
疾病类型:心房颤动 Atrial Fibrillation (AF)
问题原因:数据集基因过少
空值过多,导致可用基因过少。
GSE70947
GPL平台:GPL13607
疾病类型:乳腺癌 Breast Cancer
问题原因:表达谱数据大量缺失
在数据集尾部出现超过1300条呈如下大量缺失情况的表达谱。
GSE37031
GPL平台:GPL14877
疾病类型:非酒精性脂肪肝Non-alcoholic Steatothepatitis
问题原因:表达量大量一致
完整的数据库包括肝脏样品组18185个基因的表达测量,但基因表达量大量一致。
类似上图的结果在该数据集中还有很多
GSE75097
GPL平台:GPL10904
疾病类型:睡眠呼吸暂停Obstructive Sleep Apnea(OSA)
问题原因:缺少疾病组/对照组
研究者分析的全基因组基因表达谱分为四组:原发性打鼾 (PS) 、中重度OSA (MSO) 、极重度OSA (VSO) 、和极重度OSA患者长期持续气道正压通气 (CPAP) ,缺少对照组分析。
想要高效发文的朋友们快来投奔挑圈联靠的站姐——雪球老师吧!跟着大部队走,这是生信发高分的最快途径了~
如果你想做课题设计优秀的生信,想获得拆解的原文献,或者想收看最新的直播课程,就扫描下方二维码添加雪球老师微信获得更多资讯吧!
都看到这里了,点个星标再走吧!