查看原文
其他

生信人绝不能“饭来张口”的理由!警惕这些“有毒”数据集

锦鲤 挑圈联靠
2024-08-23

欢迎来到锦鲤许愿池~


做生信分析,离不开与数据集打交道。数据集的质量好坏,直接影响着分析结果的优劣。如果被海量信息冲昏头脑,让不可用的数据集混入其中,简直是费时费力又费神。


于是,锦鲤为大家特地带来数据集黑名单!(GEO)那些因为各种原因彻底不可用,没有解决方法的数据集可以一键拉黑了!清洗数据,就从源头走起吧~


本期为大家带来的拉黑原因包括:样本过少、数据集基因过少、缺少疾病组&对照组、表达量大量一致和表达谱数据大量缺失。注意看好了喔!






GSE136270

GPL平台:GPL9115

疾病类型:胆道闭锁 Biliary Atresia(BA)

问题原因:样本过少


研究者仅从6例BA患者和6例正常移植前肝脏异体移植物的肝脏组织样本中制备集合RNA文库。

GSE196707

GPL平台:GPL11154

疾病类型:少突胶质细胞瘤Oligodendrogliomas

问题原因:样本过少


研究者仅对2例少突胶质细胞瘤患者原发和复发肿瘤的基因表达进行研究。

GSE75644

GPL平台:GPL6244

疾病类型:牙髓干细胞 Tooth Pulp(TP)

问题原因:样本过少


研究者仅从因牙齿矫正而拔除的健康恒前磨牙(25个,6男6女,年龄11-25岁)中采集人类恒压牙髓组织。

GSE34289

GPL平台:GPL5175

疾病类型:甲状腺结节 Thyroid Nodules(TN)

问题原因:数据集基因过少


该研究结果占用了两个芯片平台,在GPL5175平台中只有175个基因,不可使用;另一平台可以正常使用。

GSE73025

GPL平台:GPL20917

疾病类型:复发性流产Recurrent Spontaneous Abortion(RSA)

问题原因:数据集基因过少


空值过多,导致可用基因过少。

GSE16658

GPL平台:GPL7722

疾病类型:帕金森病 Parkinson's Disease(PD)

问题原因:数据集基因过少


空值过多,导致可用基因过少。

GSE68475

GPL平台:GPL15018

疾病类型:心房颤动 Atrial Fibrillation (AF)

问题原因:数据集基因过少


空值过多,导致可用基因过少。

GSE70947

GPL平台:GPL13607

疾病类型:乳腺癌 Breast Cancer

问题原因:表达谱数据大量缺失


在数据集尾部出现超过1300条呈如下大量缺失情况的表达谱。

GSE37031

GPL平台:GPL14877

疾病类型:非酒精性脂肪肝Non-alcoholic Steatothepatitis

问题原因:表达量大量一致


完整的数据库包括肝脏样品组18185个基因的表达测量,但基因表达量大量一致。

类似上图的结果在该数据集中还有很多

GSE75097

GPL平台:GPL10904

疾病类型:睡眠呼吸暂停Obstructive Sleep Apnea(OSA)

问题原因:缺少疾病组/对照组


研究者分析的全基因组基因表达谱分为四组:原发性打鼾 (PS) 、中重度OSA (MSO) 、极重度OSA (VSO) 、和极重度OSA患者长期持续气道正压通气 (CPAP) ,缺少对照组分析。





想要高效发文的朋友们快来投奔挑圈联靠的站姐——雪球老师吧!跟着大部队走,这是生信发高分的最快途径了~


如果你想做课题设计优秀的生信,想获得拆解的原文献,或者想收看最新的直播课程,就扫描下方二维码添加雪球老师微信获得更多资讯吧!


都看到这里了,点个星标再走吧!

继续滑动看下一个
挑圈联靠
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存