查看原文
其他

全套录音:(genespring免编程大数据演示&数据集变图表详解)+MetaDE、检索词、期刊选择、循统答疑 沙龙第四期

2017-09-04 freescience联盟 Freescience联盟
插播:点这里看陈同老师对科研狗人群目前学习状态的数据分析……模型应用和总结都很中肯……至于样本量小的问题,大家踊跃参与互动学习,下次调查分析争取有大样本量……论文合作什么的,希望也有条件开展了……


陈老师严谨惯了,不善于写吸引人的标题,生信宝典公众号的内容属于生信学习者必看,大家看到对自己有帮助的内容,多转发分享,就是对陈老师原创写作的最大支持啦~


小伙伴们,免编程找差异的genespring软件好用吗?赵老师写了一整个系列,用还原文献的方式介绍了genespring的使用(发送大数据到后台,领说明书+查看整个系列)。

 

上周六,赵老师为大家在线讲解了免编程学生信-genespring挖掘数据实操,并现场解答群友提出的相关提问(qq群463367325)。赵老师会陆续将genespring推文系列在直播中给大家演示操作,并现场解答各种相关问题。

 

现场有一些操作演示,录音+课件图文只能还原一部分,本周六继续沙龙,大家尽可能安排时间现场收听哦~

 

孙老师也在现场回答了上一周群友提出的meta循证统计相关问题。

(上周提过问题但错过现场答疑的同志,仔细看推送中有没有自己的提问,领到录音好好学习……要是有追问,提前组织语言在群里追问,周六统一解答。提问前请仔细阅读这篇求助得回应秘诀

 

发送沙龙到后台,复习前几期的沙龙内容。

 

个别小伙伴在直播现场反映声音卡顿,画面不清晰,或者没有直播画面入口的问题,在这里特别提醒,需注意以下两点才能保证收看效果:

1. 提前安排稳定的网络环境;

2. 使用windows系统的PC观看直播。

 

发送SL003到后台,马上得全套现场课程录音,跟随两位老师的逻辑,开始小白的历练之路吧~


猴哥meta沙龙提问版

问:是不是非OA期刊就不要版面费?请问下各位老师,谢谢!

答(猴哥):现场录音解答 

答(猴哥的部分文字回答): nature和spring的大多数不要,其他的四大水库是要的,plos one ,oncotarget,medicine, science report et al.

附不要版面费的部分杂志的现场截图示意。


问:在用MetaDE时,这个包对数据处理时,输入数据是表达矩阵吗?
是自己从原始数据处理开始吗?

答(猴哥):现场录音解答 

答(猴哥的部分文字回答):  yes, you need matrix data.

问:如何找到上调下调基因?这个包没有具体说明呀,只能根据p值筛选出差异基因呀,我看猴哥这么写的,我截了图

答(猴哥):现场录音解答 

答(猴哥的部分文字回答):差异基因的筛选这个包里面是有的,在合并 ES,这个包有差异基因的差值,根据差值和p值,共同确定差异基因和方向。

问:我们在用MetaDE做芯片Meta分析时,要不要做芯片的同质性检查,我看了好几篇文献以及猴哥的文献,都没有提到这一点,直接用MetaDE做了分析,是不是可以直接这样用?

答(猴哥):现场录音解答 

答(猴哥的部分文字回答):  没有办法做,蛮多审稿人问道这个问题。用其他的包,比如 metaGEM是可以做。差异种族和年龄。

 

问:请教个问题。在CBM中查找中文主题词,结果提示找不到查询相符的资源。是查询错误还是就是没有相关的主题词和自由词?

答(猴哥):现场录音解答 

答(猴哥的部分文字回答):可以在pubmed 先找英文,然后找中文。


问:亲们,revman 软件 add study后排序不是按照我输入的顺序,怎么回事啊?

答(猴哥):现场录音解答 

答(猴哥的部分文字回答):根据 我们的 author 的首字母排列。

 

问:各位大咖,咨询一下,做meta分析在 cochrane library 数据库主题词搜索没有文献 只用的自由词,最后and到一起没有查到文献,把主题词当成自由词后,连同自由词一起 最后查到了文献,这样可以吗?

答(猴哥):现场录音解答 (类似问答点这里

答(猴哥的部分文字回答):先按主题词词+ 下位词+ 自由词查词。先找到主题词,在pubmed找,以pubmed为先导。

1

Colorectal Neoplasms

Tumors or cancer of theCOLON or the RECTUM or both. Risk factors for colorectal cancer includechronic ULCERATIVE COLITIS; FAMILIAL POLYPOSIS COLI; exposure to ASBESTOS; andirradiation of the CERVIX UTERI.

Year introduced: 1989

Select item 680031232.

Colorectal Neoplasms, Hereditary Nonpolyposis

 

下位词

Entry Terms:

  • Neoplasms, Colorectal

  • Colorectal Neoplasm

  • Neoplasm, Colorectal

  • Colorectal Tumors

  • Colorectal Tumor

  • Tumor, Colorectal

  • Tumors, Colorectal

  • Colorectal Carcinoma

  • Carcinoma, Colorectal

  • Carcinomas, Colorectal

  • Colorectal Carcinomas

  • Colorectal Cancer

  • Cancer, Colorectal

  • Cancers, Colorectal

  • Colorectal Cancers

 

自由词 :colorectal cancer


genespring数据挖掘系列文章推出一年多,我们总结了读者朋友的相关常见疑问:


使用genespring时数据导入成功的关键是什么?

 

认真阅读说明书重要吗?

 

GEO数据库写文章够用吗?

 

数据集注释看不懂。

芯片信息、表达值都是什么鬼?

探针对应基因和转录本分类又是什么……?

 

数据集选择障碍。

纠结用原始数据还是矩阵格式?

平台、原始、矩阵、混合包怎么选?

宝宝的论文到底需要哪部分数据?

 

上传的实验设计一团糟,怎么办?

样本信息都是什么意思?



仔细听赵老师的本次录音,就会有你需要的答案。

 

赵老师现场详细介绍了各种临床研究常见数据库的应用背景,演示了怎样检索、筛选GEO中的数据集,解决了怎么处理才能把数据集直接应用到文章中的问题。

 

现场导入数据处理中……




现场操作演示生成的图,很漂亮有木有,非常简单哦~





之前的课程中,我们通过数据库拿到了免费的数据,今天我们就开始分析它们了,这个过程就叫做“数据挖掘”。


首先介绍下基因芯片软件和工具。基因芯片分析一般对硬件要求不高,普通的PC机就能运行,但如果处理较多的数据量时,建议提高内存,如果拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。


GeneSpring 

优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。

缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础的鞋同。

.BRB-Array 

 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。

缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定基础且对英文说明书研究要透彻。

R—Bioconductor

优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有和最新的分析算法和工具包,任你免费调用。

缺点:对于拥有安装某个R包就研究几天经历的鞋童们就不用多说了吧!

那么便于零基础的鞋童这里采用GeneSpring进行分析。我们以上次讲到的GSE15765为例90个样本,从cel文件开始分析。

GeneSpring界面


新建项目,命名。


新建实验,命名。


选择芯片平台,即哪家公司的哪类产品。


选择高级分析,点击ok。


选择文件,导入cel文件。


输入arr文件,不用输入跳过这步点next。


选择算法,从还原文献中得知采用RMA。一般选择中位数作为基线。


点击完成后,运行。最终生成了一个22277个探针*90个样本的矩阵格式形式了。


接下来就是导入平台注释文件,告诉你这些探针号代表的基因是什么。


导入对应的上期所讲的平台注释txt文件。


记得打开它,把多余的标题删除,保持也是矩阵形式。


选择你要匹配的id和注释的信息。根据文献,我们就选择ID,Gene Symbol,ENTREZ_GENE_ID和Gene Title。当然也可以选择更多信息来注释你的探针。


这样就完成注释了。


最后就是要输入样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。


添加一个分组变量,命名type,非数值型。


根据实验分组信息,对具体样本编号进行hcc,hcc-icc,icc分组。


然后点击create interpretation来进一步描述统计目的。


选择不连续变量。


选择包含三个分组,取均值。


产生了三组的图谱。可以指针悬停看什么基因。


接下来是统计,可以进行三组检验的各种统计分析。


如果只想进行两组(例如hcc和icc)的检验。那么重新create interpretation,只选择hcc和icc。这里举例hcc和icc,用非配对的t检验。


根据你不同的目的选择不同的统计方法。


设定p值的阈值。


筛选出14633个探针,p<0.05。


接下来再根据差异倍数进一步筛选。


选择HCC v ICC。


选择2倍差异阈值。


总共4151个探针,至少两倍差异,p<0.05被筛选出来了。


右击鼠标导出数据。


打开txt,就得到最终的详细列表。



最后可以通过txt导入excel,进一步整理成发表论文的表格,这样就大功告成了。


这期就到这里了,下期将进一步实现如何把不同类型的芯片数据集整合在一起,即还原文献中以下这段过程。



关于GeneSpring的安装下载,可从官网机构邮箱注册获得,可以免费试用7天


本期也有几提问:
  1. 如果数据集没有cel格式的原始数据,只有矩阵文本是否能用GeneSpring来统计分析差异?怎么操作?
  2. GeneSpring还能做哪些分析?怎么操作?


赵老师的生信沙龙提问版

问:文章PMID是多少啊?

答(赵忻艺):PMID: 25712376

 

问:如果做心血管方面研究,怎么做

答(赵忻艺):现场录音已解答


问:赵老师挑选这个芯片有心得吗?比如看一下芯片的文章分数?

答(赵忻艺):现场录音已解答

 

问:为什么直接搜索GSE…的系列集呢? 这个系列集怎么确定?为什么不直接搜胆管癌?请教怎么确定GSE 系列集?谢谢!

答(赵忻艺):现场录音已解答

 

问:矩阵数据我怎么知道用什么标准化的

答(赵忻艺):现场录音已解答
问:如果一个GSE文件里面样本上不够,可以一个GSEXXXX里面选几个样本,然后另外一个GSEXXX选几个样本,凑在一起分析吗 

答(赵忻艺):现场录音已解答

问:从GEO下载的affymetrix公司的芯片原始数据文件,CEL结尾的,要不要先质量控制(查看芯片灰度、画箱线图、画降解曲线等)剔除一些样本,,还是可以直接使用预处理的一体化算法比如MAS5、RMA等来标准化,然后就直接可以用R语言limma包差异分析了?

答(赵忻艺):现场录音已解答

 

问:已经标准化后的矩阵用R语言什么包合适呢?谢谢

答(赵忻艺):现场录音已解答

答(赵老师的部分文字回答):问题太模糊,无法回答

提问前请仔细阅读这篇求助得回应秘诀


问:能否演示这几个数据集的数据具体是如何合并的?

答(赵忻艺):现场录音已解答

答(赵老师的部分文字回答):本次还没有讲到这里,照顾零基础的听众,从基础开始说。注意每周的直播预告,会讲到这部分的。

 
问:

1.对于芯片的纳入,如国内的博奥和博芯公司的芯片探针数才8000-10000左右,而国外的几万探针,这种情况国内的芯片是否可以纳入一起研究?

2.用R语言进行差异分析时,要进行归一化,较正处理,像昂飞公司的芯片有相应的affy.R包,博芯和博奥公司官网是否也有相应的R包下载?

答(赵忻艺):现场录音已解答

 
问:GeneSpring有破解版吗?

答(赵忻艺):现场录音已解答

答(赵老师的部分文字回答):有,某宝有售


问:在geo里有些芯片数据没有发文章,这些芯片数据的价值大吗?如果大为什么作者不发呢?

答(赵忻艺):现场录音已解答


问:纳入的文章,所有的REM必须一致?

答(赵忻艺):现场录音已解答


问:怎么安装genespring 现在已经下好了破解版 ,在破解那一步卡住了 .

答(赵忻艺):现场录音已解答


问:一个基因对应多个探针,以哪个探针为准

答(赵忻艺):现场录音已解答

 

问:
二代测序的数据怎么下载呢?

答(赵忻艺):现场录音已解答



热心群友的珍藏版genespring相关学习材料

热心群友--(这里不能透露姓名但进群就能认识的)--提供了私家珍藏版的genespring相关学习材料,有需要的读者发送GX0002到后台直接领~ 


群友tips:最后用程序性兼容的XP打开哦,用win7打不开:)


发送SL0000到后台,参加每周的免费线上沙龙,和赵老师现场讨论大数据挖掘问题。


注意:
1. 是发送后台,而非留言区或其它地方。
2. 请务必发对关键词,否则是收不到的。


生信大数据版主介绍:赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存