生信阿拉丁

其他

三代STR检测软件tandem-genotype实操

背景在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元长度分为STR、微卫星、转座元件等。目前已知有30多种疾病跟STR有关。这里介绍的软件tandem-genotypes,主要针对STRs。软件操作软件tandem-genotypes的主要操作步骤包括:基因组数据库构建数据比对检测重复序列多样本合并结果展示及可视化1.数据库构建在检测TRs分析中,推荐使用GRCh38,该版本的基因组注释更全,得到的STRs相对更准确。该步骤,所有项目都是一样的,其实就是检索参考基因组中的重复序列,包括4步。windowmasker
2021年9月28日
其他

全基因组测序的前世今生

基因组代表了遗传研究的起点。自从发现DNA结构以来,科学家们一直致力于以精确的方式确定碱基的排列顺序。从1965年开始第一个酵母的片段测序到现在,测序的读长依然不足以覆盖大多数物种整个基因组的大小,因此基因组组装技术也一直是不断研发改进的关键技术。本文系统的回顾了整个基因组测序相关的重要技术、主要里程碑以及当前三代测序技术的优势和挑战。基因组测序回顾下图展示了基因组组装的各个重要的里程碑。不同的颜色背景分别展示了从最早基于核苷酸的早期测序到基于Sanger的鸟枪法测序,到大规模的二代NGS测序,再到现在的三代TGS测序的主要组装成就。历时13年(1990-2003)耗资30亿美元的人类基因组计划(HGP)毫无疑问加速了基因组组装的进程,NGS衍生了一系列新颖的应用,包括全外显子组测序、RNA-seq、ChIp-seq、WGBS-seq等等,极大的促进了基因组测序的应用。2010年之后,全新的技术开启了第三代测序TGS—长读长测序的时代,长读长测序极大的增加了基因组组装的优势,基因组组装的连续性大大提高。基因组组装里程牌三代测序技术及组装PART.1三代测序技术及优势TGS的定义可能会有所不同,通常是指无需扩增直接对单个DNA分子进行测序的技术。这些技术产生比NGS更长的reads,每个reads可以跨越几到几百kbps的长度。10X
2021年9月22日
其他

估计基因组大小, Kmer survey还是Flow Cytometry?

甘油溶液硅胶其中硅胶最适合样本保存。不同地点收集的南非红茶植物二氧化硅干燥叶样本的流式细胞术基因组大小估计。来自大田植物干叶样本在基因组大小估计方面表现出最高的变异性,范围从
2021年9月16日
其他

当红辣子鸡-空间转录组与单细胞转录组的整合分析(下篇)

的目标是提供一种工具,能够对包含细胞混合物的每个捕获位置中存在的细胞类型和细胞类型比例进行解卷积,最初是为
2021年9月8日
其他

利用Biopython来进行序列比对

利用Biopython来进行序列比对前言序列比对在生物信息中很常见,通过比较序列的相似度来推测其相关的功能。序列比对一般针对的是两条或者多条序列,可以是DNA、RNA或者蛋白序列,来推测序列间的区域的相似度。识别相似区域使我们能够推断出许多信息,比如物种之间保存了哪些特征,不同物种在遗传上有多接近,物种是如何进化的等等。Biopython为序列比对提供了广泛的支持。我们今天从最简单的两条序列比对开始,使用Biopython里面的pairwise2。两两序列的比对顾名思义,pairwise2针对两条序列进行比对,来推测序列的相似度。Biopython进行两两比对的模块是Bio.pairwise2。下面我们看几个例子。from
2021年9月1日
其他

当红辣子鸡-空间转录组与单细胞转录组的整合分析(上篇)

空间转录组技术发展史如果说最近什么最红火,那一定是奥运会,今年的奥运会从开始到现在就一直吸引着国人的注意,奥运会的精彩让我差点忘记了地球外太空还有我们的国宝-“三位航天员”;在科研界,当红辣子鸡是谁呢?那肯定属于空间转录组,空间转录组被Nature
2021年8月24日
其他

使用python批量设计引物

还有网页版(http://primer3plus.com/cgi-bin/dev/primer3plus.cgi)和命令行版本,引用次数非常高。安装软件安装很简单,使用conda或者pippip
2021年8月18日
其他

MAGMA软件实现gene-based & gene-set-based关联分析

随着全基因组关联分析使用样本数量的增加,人们也逐渐认识到很多感兴趣的性状在本质上是由微效多基因控制。单个SNP的关联分析难以捕获显著性的结果,这种以基因为单位、以功能通路为单位或者以其他具有生物学意义的SNP聚集的方式的关联分析应运而生,这也是对仅以SNP-based关联分析的一种很好的补充。随着接触复杂疾病相关研究,经常会查询相关文献,而MAGMA(Multi-marker
2021年8月10日
其他

使用barcode对高通量转录组进行药物筛选

使用barcode对高通量转录组进行药物筛选RNA-seq是一个用来调查药物在转录组上发生改变的有效的工具,然而单个文库的成本依然很高。使用DRUG-seq这个方法,对细胞加上相应的barcode后,再进行测序,可以显著的降低成本,最低低至1/100。DRUG-seq的方法稳定性好,可以区分出不同刺激下的实验组,同时利用这个技术也可以分析药物对转录组的扰动。目前其他筛选平台1L1000:使用的是Luminex平台,针对固定的1000个的gene,进行筛选。然而位点受限,对于以外的基因需要imputation,这样效果会差;2PLATE-seq:可以同时对96孔板进行检测,每个成本可以降低到15美金,然而需要RNA纯化步骤,使用特殊的oligodT。DRUG-seq怎么做?首先在培养板上进行细胞的培养,然后每个孔进行不同的实验。之后,对每个孔进行细胞裂解,针对每个孔,加入不同barcode的polydT作为cDNA一链的反转录引物,反应一轮后,混合到一起,进行二链合成,进行普通的建库测序分析,最后得到不同barcode下的基因表达结果。总体流程如下图。具体的实验流程示意图如下,在反转录组的时候,加上barcode,这样就可以对每个样品进行了标记。之后使用公用的模板链进行二链合成。最后进行扩增。性能展示人鼠混合样品的结果使用人鼠混合样品,比对结果如下图,单个孔的纯度可以在96%以上,表明该方法可以很好的将样品区分开。数据量与基因检测情况的比较对于表达量低的基因(0-1),还是普通的RNA-seq能检测到更多基因,但是对于表达量大于1的,都差不多。对不同的分子刺激后的转录组测序后,进行PCA聚类对433个分子进行大规模筛选,每个分子用不同的剂量,混合后,进行批量的测序,对结果进行tsne的聚类,结果如下。可以看到药物被聚到5类,同时根据不同的基因,可以在细胞周期上进行标识。表明这个方法还是很有效的。总结该方法可以大批量的低成本对批量处理的细胞进行转录组分析,每个成本低至1美元。参考文献Ye,
2021年8月5日
其他

认识单细胞分析中的各种数据结构

认识单细胞分析中的各种数据结构单细胞分析世界里数据结构多种多样,主流的四种数据结构分别是Bioconductor主导的SingleCellExperiment,Seurat中的SeuratObject格式,scanpy中的AnnData格式,以及大型数据存储的loom格式。通常一种数据结构对应的内容可以包含所有的分析,例如seurat就可以一用到底,那么我们只要掌握好其中一种数据结构就基本够用,但也许这样就可能会错过其他比较好用的函数。为了更深入的了解更多好用的函数,就可以来看看各种数据结构的转换。01各种数据结构的介绍单细胞数据中每一个基因可以看做是单细胞的一个特征,因此单细胞数据中每一个细胞就有n个特征,在空间上可以看做是细胞具有的n个特征维度。1、SingleCellExperiment单细胞分析中的非常常用的S4对象,里面包罗万象,那么它是如何组织的?存储了什么内容?以下这张图片中就已经整体进行了展示说明。图中最核心的部分,是蓝色的data部分;另外还有绿色的基因注释信息feature
2021年8月4日
其他

人类早期胚胎发育DNA甲基化图景

人类早期胚胎发育DNA甲基化图景表观遗传学—胚胎发育系列第1篇DNA甲基化是一种基础且重要的表观修饰,本文系统的报道了人类早期胚胎发育的表观图景,为深入研究人类胚胎发育的表观遗传机制奠定了基础。DNA甲基化是一种重要的表观遗传修饰在基因转录表达、基因印记的维持、X染色体失活和转座子元件的表达等一系列生物学过程中扮演重要的角色。哺乳动物中最具有戏剧性的表观组变化发生在原始生殖细胞和胚胎植入前的发育过程。为了获取人类早期胚胎的DNA甲基化图谱,作者使用全基因组简化甲基化测序(RRBS)和全基因组甲基化测序(WGBS)技术对人类配子和植入前后的
2021年7月29日
其他

眼到手到-IGV的高级实操

在使用高通量数据进行变异分析时,经常使用IGV对变异进行可视化展示,可常常是眼到手不到,明明文章中有类似结果,自己却做不出来,这里为大家整理一些IGV的高级操作,供大家参考。IGV
2021年7月27日
其他

TRUST4免疫组库分析

Genomics平台都是兼容的。2.运行原理TRUST首先将所测reads比对到参考基因组上,将比对上的reads组装成contigs,然后根据IMGT(International
2021年7月22日
自由知乎 自由微博
其他

浅谈全基因组复制

2018)。多倍化后的物种需要在原植物多倍化的研究对于生物进化、物种保护及遗传育种等方面都具有重要的理论指导意义及实践应用价值。图1
2021年7月20日
其他

全长转录本结构分析(下)

全长转录本结构分析(下)前面我们介绍了PacBio三代全长转录组测序相关的全长转录本鉴定、全长转录本比对、全长转录本结构分析上篇。今天我们继续介绍包括新转录本鉴定、可变剪切以及可变多聚腺苷酸化APA等全长转录本结构分析。新转录本鉴定通过将去除冗余后的unique转录本与参考基因组进行比较,可以对转录本进行结构注释,从而可以发现新的未知的转录本。MatchAnnot软件是一款可以将比对结果跟注释文件或者注释文件和注释文件进行比较的Python软件,可以鉴定已知和新的全长转录本,同时基于其输出结果还可以进行基因的可视化。下面我们看看具体怎么使用。1.
2021年7月15日
其他

配对差异分析与非配对差异分析的区别

配对差异分析经常应用在肿瘤配对样本的差异分析中。在肿瘤研究中,通常需要进行肿瘤组织与相邻正常组织之间的差异分析,以便研究肿瘤组织的特异性。那么在差异分析时,配对和非配对的差异分析有何区别,该如何选择?经查阅文献,一篇名为Differential
2021年7月13日
其他

Pacbio文库如何加上barcode

Barcodes文库结构如下,两端的barcode是一样的序列最多384个barcode对于插入片段长度限制更灵活PCR
2021年7月8日
其他

如何NCBI上传Genbank数据

如何NCBI上传Genbank数据01登录NCBI与前面是相同的步骤,此处就不再重复了,登录完成后同样点击首页的submit进入即可,进入后往下翻页,看到Genbank提交数据,选择对应的选项即可,根据提交的数据不同,进行选择即可,后续的步骤都是类似的,此处以提交叶绿体基因组为示例。02填写信息提交叶绿体基因组用的BankIt这个工具,其他不同类型的基因组选择不同的选项即可,前面的步骤都是一样的,填写对应的信息,同样需要填写Bioproject号和Biosample号,如果没有,就填写no,网页会自动进行跳转至Bioproject号申请和Biosample号申请的界面,填写对应信息即可。03上传数据叶绿体基因组除了上传基因组的fasta数据之外,还需要上传注释的tbl文件,此文件可以通过多种注释软件获得,或者自己造一个也是可以的,但是必须满足NCBI所要求的五列格式,格式如下:其中第一列为起始位置;第二列为终止位置,其中表示正反向;第三列为特征名,例如:CDS,mRNA,rRNA,gene或exon;第四列为限定词的类型,例如:product,number,gene或note;第五列为限定词的相关描述。上传完成后,最后一步同样为再次检查信息,检查完成后,同样会发送邮件给对应的邮箱,如果后续需要修改信息,同样可以发送邮件给NCBI的工作人员。作者:llama审稿:童蒙编辑:amethyst往期回顾单体型组装入门介绍如何NCBI上传SRA数据Bismark软件使用入门人类胎盘发育过程转座子分类软件deepTE简介
2021年7月6日
其他

单体型组装入门介绍

,然后再利用分型软件如Whatshap或者HapCut2等,对SNPs进行分型,基于分型的数据将原始的长reads测序数据分开两堆,再分别进行组装,从而得到两套独立的单体型基因组。结
2021年7月1日
其他

如何NCBI上传SRA数据

submission填写相关信息即可,有关信息的注意已标注在图中,查看后面的图片即可。03上传数据上传对应样本的数据,其中每个文件必须是在前面填写的SRA
2021年6月29日
其他

Bismark软件使用入门

Bismark软件使用入门01甲基化文库建库原理借助重亚硫酸盐(Bisulfite)转换的方法被认为是金标准,该化学试剂会将未甲基化的C进行转化,胞嘧啶(C)转换为尿嘧啶(U),后续的PCR扩增过程U会被胸腺嘧啶(T)替代,而,甲基化的C则不受影响。在了解如何使用Bismark之前,需要先了解DNA甲基化文库的结构。通常,甲基化文库构建方法有两种:一种是先片段化,然后末修,加上特殊处理的接头(甲基化的)后,进行CT转化,之后进行扩增,如下图:该文库为链特异性文库,使用bismark默认参数比对即可。另一种是先CT转换,然后扩增加接头,如下图。该文库为非链特异性文库,需要使用PBAT文库参数。通常而言,甲基化建库均为链特异性方式构建:测序read1都是来自于原始的基因组,经历了C->T转化,来自于正链的叫OT,负链叫OB;测序read2都是来自于原始基因组的互补链,经历了G->A转换,称之为CTOT或者CTOB。02bismark比对分析bismark的分析分为三步:1基因组索引构建:需要将基因组进行相应的转换,模拟bisulfite处理后基因组,这样才能用于比对。在每个新物种比对之前,都需要进行该处理。bismark内部默认调用bowite软件进行比对。2序列比对:输入为下机序列、基因组和比对参数,bismark会输出比对结果和甲基化检测的结果,默认格式为BAM,同时还会有一个统计报告。3甲基化位点提取:这一步是可选的,会利用bismark的比对结果来获得甲基化信息。这一步会把甲基化分为不同的类别(CG,CHG和CHH),获得链特异性信息,并且提供过滤参数;也可以对甲基化信息进行调整,或者进行更多的深入分析。01基因组索引
2021年6月24日
其他

人类胎盘发育过程

胎盘(placenta)是胎儿与母体之间物质交换的重要器官,是人类妊娠期间由胚胎胚膜和母体子宫内膜联合长成的母子间组织结合器官。胎儿在子宫中发育,依靠胎盘从母体取得营养,而双方保持相当的独立性。胎盘还合成多种激素、酶和细胞因子等,以维持正常妊娠。胎盘还是一味中药,称之为紫河车(https://baike.baidu.com/item/紫河车/667350),又叫人胎衣、胞衣、衣胞、胎衣、胎膜。每当胎儿降生的时候,母体内就会有一个胎盘脱落,并离开子宫。胎盘一端连接着母亲的子宫壁,另一端连接着胎儿的血液系统。胎盘一方面将二者血液系统分开,避免母体的免疫细胞进入胎儿体内,另一方面又能将母亲体内的养分、氧气和抗体传递给胎儿,功能及其重要。下面我们来看看胎盘的发育过程。胚胎的发育时期可以分为以下三个:胚卵期:受精到第一周末,卵细胞分裂和分化胚胎期:第二周至第八周末,早期胚胎发育,器官原基形成,初具人形胎儿期:第九周至第38周,器官发育完善,胎儿生长在胚卵期,大概有以下几个阶段:合子期:
2021年6月22日
其他

转座子分类软件deepTE简介

前言基因组转座子(TE)注释过程中,对于RepeatModeler这种denovo注释的得到的转座子往往不能进行分类,因此对TE的统计经常存在unknow重复序列过多的情况,之前已经发表了TEclass,REPCLASS和PASTEC等,TEclass基于支持向量机(SVM)分类TE,REPCLASS基于TE结构及同源的特征分类TE,PASTEC基于隐马尔科夫模型(HMM)来分类TE。2020年在Bioinformatics上发表了一款新的软件,基于卷积神经网络(CNN)的重复序列分类软件DeepTE[1],这里我们对其使用方法及效果进行了一系列测评。软件安装软件地址https://github.com/LiLabAtVT/DeepTE,推荐使用conda安装,安装过程如下conda
2021年6月17日
其他

单细胞ATAC高级分析

单细胞ATAC高级分析前两篇分享(单细胞ATAC概述和单细胞ATAC亚群分析),我们分别给大家介绍了单细胞ATAC的基础知识点和亚群分析,这篇分享就是专门给大家带来一些高级分析的内容了。主要包括以下四个方面:motifdeviation的计算、单细胞ATAC拟时间分析、单细胞RNA与ATAC的整合分析以及peak
2021年6月15日
其他

单细胞ATAC亚群分析

低质量细胞的过滤前面提到的样本相关性和fragments的长度分布主要是从整体水平上检查我们的单个样本数据的可靠性。而要去掉不符合质控的细胞,我们主要从fragments
2021年6月10日
其他

Motif可视化——从PFM矩阵到sequence logo

example中第一个的Motif结果举个栗子~根据包含该Motif的各序列中,统计每个位点四种核苷酸出现的次数,并计算频数即得到Position
2021年6月8日
其他

单细胞ATAC概述

单细胞ATAC概述近几年来,单细胞测序技术一直是讨论热度极其高的话题,除了单细胞转录组,单细胞ATAC也逐渐引起科研人员的兴趣。那么,它与我们熟知的单细胞转录组又有什么相同和不同之处呢?单细胞ATAC基础分析软件、亚群分析、motif&拟时间等高级分析与单细胞转录组又有哪些异同点?在这里,今天这篇分享主要是给大家介绍下单细胞ATAC的基本知识点,后续也会给大家带来更多关于单细胞ATAC生信分析的内容,尽请期待。什么是单细胞ATAC?第一个单细胞ATAC数据是2015年由Greenleaf(Buenrostro,
2021年6月3日
其他

meme suite —— Motif分析百宝箱(二)

logo,点击可展开cluster内序列结果,首行为主要motif,其余为相似的Motif,cluster以及排序均参照E-value来进行,具体的原理可以点击“?”上查看;点击“CentriMo
2021年6月1日
其他

一文看懂如何用QUAST评估组装的基因组

QUAST评估组装的基因组二代测序和三代测序技术给基因组研究带来了巨大的变革,然而二代技术的读长短、不能很好地处理重复区域;而三代技术读长长、但是准确率低;同时不同的组装软件也有各种不同的算法。为了更好地评测不同的软件、不同的数据在基因组组装方面的优势,作者升级了QUAST为QUAST-LG,增加了对三代测序和大基因组的评测。一、依赖软件1.
2021年5月27日
其他

Motif分析百宝箱(一)

example为例:第一部分是输出的Motif结果,包含Logo,E-value、Sites、Width、More和Submit/Download六列。Sequence
2021年5月25日
其他

全转录组关联分析TWAS的原理与方法

方法,对TWAS分析做了两个优化:第一,JTI方法可以提高表达量预测模型的精度,从而增加关联分析的检验效能;第二,MR方法可以解决基因多效性
2021年5月20日
其他

Sam/Bam文件格式详解

随着生物信息数据的爆发式增长,存储生物信息的文件格式也多样化起来,不同的文件格式往往有不同的目的:为了软件之间的兼容性;人类可读的用于数据加工、解析和处理的格式,比如.tsv,.csv等;为了提高计算机计算效率的数据格式,一般可读性不强的二进制文件,比如今天要讲解到的bam文件。介绍bam文件是sam文件的二进制格式,sam
2021年5月18日
其他

pycharm使用入门

pycharm使用入门前言PyCharm是一款使用广泛、功能齐全的python编辑器,使用好的编辑器能对我们程序员的工作起到事半功倍的效果。下面我们介绍一下这个编辑器该怎么用吧。安装从官网下载软件,地址如下。直接下载后,一路下一步就好了。https://www.jetbrains.com/pycharm/download/#section=windows如何使用conda1.
2021年5月13日
其他

一文看懂10X VDJ

互补决定区:变化相对较大,有3个,分为CDR1,CDR2、CDR3,其中CDR3的变化最大。决定恒定区的基因为C基因,而可变区的基因为V基因、D基因和J基因,如下图:2.
2021年5月11日
其他

一款快速构建de bruijin图的软件

toy_color产生两个文件toy_color.bfg_colors和toy_color.gfa。kmer的查询,准备一个tt.fa1~/.conda/envs/py37/bin/Bifrost
2021年5月6日
其他

一种不需制备植物原生质体的单细胞测序技术

Genomics和Nanopore平台实现了在单细胞水平上检测细胞核中全长转录本的突破。01背景简介近年来,动物和人类中高通量的单细胞转录组的研究如火如荼。然而,只有少量的研究使用10x
2021年5月4日
其他

CopyKat——基于高通量单细胞测序方法鉴定肿瘤细胞拷贝数变异和亚克隆结构

景单细胞转录组技术在多种肿瘤研究中的应用,使其日趋成为解析肿瘤微环境中肿瘤细胞亚群与正常细胞亚群基因表达模式强有力的技术。多种高通量测序技术(microdroplet
2021年4月29日
其他

用sklearn进行降维的七种方法

引言在实际的应用中,有时候我们会遇到数据的维度太少,我们需要新生成新的维度,可以用我们之前的分享(如何自动化进行特征工程);有时候维度太多,这时候我们就需要降维了。降维的方法有许多,我们这里介绍了sklearn中介绍的7种,供大家学习和收藏。01PCA01普通PCA主成分分析(PCA)用于将多维的数据集分解为一组具有最大方差的连续正交分量。在sklearn这个包中,PCA是一个transformer对象,使用fit方法可以选择前n个主成分,并且用于投射到新的数据中。PCA有两种实现方式,一种是特征值分解去实现,一种是奇异值分解去实现。特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的,如果不使用SVD,PCA只会寻找每个特征的中心,但并不会对数据进行缩放(scaled)。使用参数whiten=True
2021年4月27日
其他

一文看懂三代组装软件——Flye

介绍Flye是用于单分子组装数据的denovo基因组装的软件。这个软件可以用于各种数据集,从小的细菌到大的哺乳动物。输入是原始的PacBio或者ONT的序列文件,输出是polished的contig。Flye同时也有针对微生物组装的模式。安装和使用安装非常简单~conda
2021年4月22日
其他

介绍一款单细胞细胞类型注释软件-scibet

引言随着技术的进步,测序成本的降低,单细胞转录组的数据呈指数级的爆发。许多组织都发布了关于详细的单细胞图谱计划,例如小鼠单细胞开源数据库Tabula
2021年4月20日
其他

PacBio平台解析全基因组CpG甲基化

PacBio平台解析全基因组CpG甲基化自三代神灯宝典(神灯宝典之PB三代重测序分析实录(一)和神灯宝典之三代重测序分析实录(二))以来,由于种种原因,云歌很久未和各位小伙伴见面了~今天掐(Bei)指(Bi)一(Wu)算(Nai),也是该发篇稿子了,那就和小伙伴们简单聊聊三代测序的应用和PB测序平台5mC检测方向,作为回归的热身~三代测序平台应用概览近几年,以PacBio和ONT为主的三代测序平台,以其独有的超级长读长(与二代和一代测序平台比较),在很多应用领域里都有较好的表现。ONT平台在读长和测序成本上有明显优势,而PacBio平台推出的CCS测序模式,使得其在一定程度上,既兼顾了读长,又有良好的测序精准度,当然价格上也有些小贵。一、二、三代测序粗略对比如下表所示:Adam,
2021年4月15日
其他

一文看懂植物单细胞测序怎么做?

随着单细胞测序技术的突破,单细胞测序的时代已然到来。2018年单细胞基因组学被science评为年度突破技术,2020年单细胞多组学技术被Nature
2021年4月13日
其他

三代SV检测软件之cuteSV

三代SV检测软件之cuteSV三代测序在检测基因组结构变异方面有着很大的优势,但是由于数据分析算法、软件还处于不断开发更新中,当前还没有公认推荐的软件。这里为大家推荐一款国人开发的,可以同时兼顾PacBio和ONT平台数据的SV检测软件cuteSV。背景基因组结构变异(Structure
2021年4月8日
其他

如何处理不平衡数据集(附代码)

上一篇中,我们给大家介绍了featuretools这个工具,可以很快速的根据数据的特征来生成各种新的数据组合,之后进行机器学习或者深度学习。这次我们给大家介绍在特征工程中,经常遇到的另一个问题的解决方法。这个问题就是不平衡数据集。数据不平衡通常反映了数据集中类别的不均匀分布。比如在一个疾病的预测模型中,对照组可能有两百个,而疾病组只有二十个,数据不平衡比例达到10:1。如果不对数据集进行平衡,那么在后续的MLP抽样中,就会导致算法达不到收敛。因此,我们需要对不平衡数据集进行处理,下面我们来介绍三种方法,两个包,来解决这个办法。欠采样欠采样就是一个随机删除一部分多数类(数量多的类型)数据的过程,这样可以使多数类数据数量可以和少数类(数量少的类型)相匹配。首先我们来生成一套数据1from
2021年4月6日
其他

如何自动化进行特征工程

如何自动化进行特征工程工业界流传者这么一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程就是将原始的数据处理成合格的数据输入的一个过程,但是这个过程是很耗时、很繁琐、很无聊,但是又很重要的一个过程。使用Featuretools这个工具,可以很自动化地进行特征工程的操作。它擅长将时间和关系的数据集转换成机器学习的特征矩阵。下面我们来看看吧。安
2021年4月1日
其他

一个跨物种研究关联基因表达模式的好方法

在许多WGCNA中,需要对网络中各个模块的特性,以及随着不同情况下的变化,模块的变化情况进行研究。比如,可以研究不同组织或不同物种之间的模块保存程度(module
2021年3月30日
其他

如何用R语言进行Pvalue显著性标记?

箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值,且添加显著性标记。通常情况根据显著性p值的数值大小,分为四类:
2021年3月25日
其他

如何科学选择单细胞分析软件呢?

引言对不同技术和实验平台产生的各种各样的单细胞测序数据进行深入的比较,在目前看来,仍然存在着一定的难度。这篇文章主要利用不同平台获取的数据,通过选择和比较不同的分析方法,最终为得到准确生物学解释算法提供指导。使用两种背景明确的细胞样本(乳腺癌细胞和B细胞),采取单独捕获以及群体捕获的方法,在多个中心使用不同的单细胞平台获取的单细胞样本数据,最终一共获取24个数据集。之后,对多种不同的预处理方法、标准化方法,批次效应矫正方法分别进行评估,来看各种方法对数据集的处理效果。研究背景研究对象选择来自同一个人的不同细胞类型:B细胞和乳腺癌细胞,使用不同的平台进行单独捕获和混细胞捕获。使用多种单细胞平台和多个测序中心四种单细胞平台:10XFluidigm
2021年3月23日
其他

浅谈生存分析

hazard,即风险值,例如在观测死亡事件时,指的是研究对象从试验开始到某个特定时间t之前存活,但在t时间点发生死亡的概率。h0(t)是基准风险函数,也就是说在其他协变量x1,
2021年3月18日
其他

matplotlib绘图保姆级教程:看过的人都说好!

如今科研绘图的软件很多,但是如果是需要在脚本中就出图的话,其实python本身自带的matplotlib就非常好用,操作也很简单,跟着小编来看看如何实现吧保证看完就会!但是在学习之前,有一点非常重要,这也是我在学习的时候碰到的问题——在matplotlib中绘制出同样的图有很多种方法,而在这所有的方法中间,有两个领头大佬:plt和ax,常常会让人混淆。所以在正式的绘图前,我们先用几分钟弄清这两者的区别以及matplotlib是如何利用这两者进行工作的,弄清楚之后你就不再是离开谷歌就没法画图的脚本搬运工啦!plt和ax区别首先,当我们说到plt时,应当知道这个是大多数人导入matplotlib包时的别名。1import
2021年3月16日