聊生信

其他

中华人民共和国人类遗传资源管理条例 (转发)

国家人类遗传资源保藏基础平台和数据库应当依照国家有关规定向有关科研机构、高等学校、医疗机构、企业开放。为公众健康、国家安全和社会公共利益需要,国家可以依法使用保藏单位保藏的人类遗传资源。第三章
2021年11月15日
其他

变异注释工具SnpEff详解

http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdfSnpEff注释结果中,可能对蛋白有害的术语包括:missense,
2021年10月21日
其他

Trim Galore软件详解

Data的FastQC质控结果可以很容易辨别出来是否选错。因为Qphred一般在40~0之间,选错后在FastQC质控结果中可以看出来最终的质量值明显脱离了这个区间,甚至Reads全部被删掉。(1)
2021年10月13日
其他

BAM文件格式解读

GGCAGTAACGGCAGACTTCTCCACAGGAGTCAGGTGCACCATGGTGTCTGTTTGAGGTTGCTAGTGAACACAGTTG
2021年10月11日
其他

Linux操作系统结构及常用命令

Linux系统是一种能运行于多种平台、源代码公开、免费、功能强大、遵守POSIX标准、与Unix兼容的操作系统。Linux一般由内核、Shell、文件系统、应用程序四部分组成。1、内核:内核是系统的心脏,是运行程序和管理像磁盘、打印机等硬件设备的核心程序。系统从用户那里接受命令并把命令送给内核去执行。2、Shell:Shell是系统的用户界面,提供了用户和内核进行交互操作的一种接口。它接收用户输入的命令并把它送入内核去执行,是一个命令解释器。Shell不仅是命令解释器,还是高级编程语言。3、文件系统文件系统是文件存放在磁盘等存储设备上的组织方法,不同于Windows的并列文件结构,Linux文件系统是采用树型结构,可以设置目录和文件权限,设置文件共享程度。4、应用程序标准的Linux操作系统都有一套应用程序,如X-Window。Linux
2021年9月24日
其他

外显子组分析(操作系统及Windows软件)

撰写:宋红卫校对:叶明皓扫码添加好友备注“姓名-研究方向”拉您进入同行交流群
2021年9月23日
其他

外显子和基因组基本概念(二)

Disequilibrium):相邻位点之间的非随机关联,当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设,则这两个位点之间存在连锁不平衡。连锁平衡(Linkage
2021年9月23日
其他

外显子和基因组基本概念(一)

基因组(Genome):分子生物学和遗传学领域中指生物体所有遗传物质的总和,包括DNA或RNA(病毒)。具体包含编码DNA、非编码DNA、线粒体DNA和叶绿体DNA。研究基因组的科学称为基因组学。同源染色体(Homologous
2021年9月23日
其他

外显子组分析(Linux软件安装)

撰写:宋红卫校对:叶明皓扫码添加好友备注“姓名-研究方向”拉您进入同行交流群
2021年9月23日
其他

外显子测序技术简介(一)

PGM1%Nanopore10%?PacBio12%454大于6碱基的homopolyer读不准Sanger0.001%(前提是突变丰度在30%以上)
2021年9月18日
其他

国际千人基因组计划数据库(二)

GRCh37https://grch37.ensembl.org/info/docs/tools/index.html(有很多其它生信工具)严格按照提示输入染色体区域(GRCh37):发现“Data
2021年9月7日
其他

国际千人基因组计划数据库(一)

list下载得到样本名称:需要根据这些样本列表从1000G数据库下载感兴趣的各类变异文件,我们后续的推文再介绍。撰写:宋红卫校对:宋红卫更多人类遗传学知识、文献和分析技术请关注和星标聊生信
2021年9月6日
其他

蛋白质二级结构、结构域及蛋白修饰预测

一般情况,蛋白质结构分为4个层次:1、一级结构(蛋白质序列水平,跨膜结构等);2、二级结构(α螺旋、β折叠等);3、三级结构(多态链的空间结构);4、四级结构(多个亚基形成的空间结构)。蛋白质结构预测是指基于蛋白质的氨基酸序列预测出其二级和三级结构,有助于理解蛋白质结构和功能的关系,并在此基础上进行蛋白质突变体设计和药物开发等具有重要意义。二级结构预测常称为三态预测,可归结为螺旋(helix,H)、拉长的折叠股(extended
2021年8月31日
自由知乎 自由微博
其他

gnomAD数据库简介(二)

在gnomAD数据库简介(一)中,我们简单介绍了基因组学遗传分析中人群变异频率的重要性,以及gnomAD数据库的一些背景。本篇主要侧重gnomAD的后台数据下载和简单评估。gnomAD后台数据下载gnomAD数据下载的几个方式:测试一下gsutil命令:pip
2021年8月30日
其他

gnomAD数据库简介(一)

v2.1.1http://www.gnomad-sg.org/variant/11-5248232-T-A?dataset=gnomad_r2_1有关最新版本的详细信息,可参阅gnomAD
2021年8月29日
其他

从孟德尔的豌豆到人类的遗传病

从孟德尔的豌豆到人类的遗传病前天下班路上跟小叶聊了几句有关基础研究的话题。我们提到了一个孟德尔研究豌豆的例子。这个豌豆的研究肯定是很基础的,最终总结出了几条规律,几十年后由摩尔根补充,最终形成“遗传学三大基本定律”。https://studylib.net/doc/5784157/mendel-and-his-pea-plants所谓“定律”,或可简单类比为“普适性”原则或原理,均主要得益于基础研究,是我们解锁宇宙奥秘的钥匙。普适性(Universality):指某一事物(特别是观念、制度和规律等)比较普遍地适用于同类对象或事物的性质。事物普适性源于事物的共性和规律。特异性(Specificity)与普适性相对应,但也有重要价值。“Mendelian
2021年8月28日
其他

蛋白结构预测工具SWISS-MODEL和Phyre2

Local表示对于模型的每个氨基酸残基(x轴),与本地结构(y轴)的相似性,得分低于0.6的残基被认为是低质量的。D、QMEAN
2021年8月27日
其他

ClinVar数据库详解

https://ftp.ncbi.nlm.nih.gov/pub/clinvar/tab_delimited/variant_summary.txt.gzwget
2021年8月26日
其他

AlphaFold数据库简介

AlphaFold是由DeepMind开发的最先进的人工智能系统,能够精确快速的计算预测蛋白质结构。DeepMind与EMBL-EBI(欧洲生物信息研究所)合作,正在向全球科学界免费开放。数据库官网
2021年8月23日
其他

在线人类孟德尔遗传(OMIM)数据库简介

Anemia,SCA)为例。之前一篇推文介绍过SCA的致病机制、突变蛋白三维结构,见:正常与突变蛋白三维结构模型的绘制与分析。SCA的致病基因为HBB(Hemoglobin
2021年8月22日
其他

蛋白质生物学推介(五)

此篇为完结篇,往期链接:蛋白质生物学推介(一)蛋白质生物学推介(二)蛋白质生物学推介(三)蛋白质生物学推介(四)调节蛋白通过决定GTP或GDP是否结合来控制GTP结合蛋白的活性GTP结合蛋白由决定GTP或GDP是否结合的调节蛋白控制,就像磷酸化蛋白由蛋白激酶和蛋白磷酸酶打开和关闭一样。聊生信:RAS蛋白家族的突变在不同的癌症类型中经常被观察到。KRAS蛋白的突变与恶性肿瘤的起源密切相关,占这些突变绝大多数的氨基酸位置是G12、G13和Q61,其预后影响因癌症类型而异,但已被证明与结直肠癌、非小细胞肺癌和其他癌症的不良预后相关。虽然在癌症中高度复发,但用抑制剂靶向这些RAS突变体的尝试尚未成功,且被认为具有“不可成药”性(尽管最近的一款靶向药被FDA加速批准上市),但相关的抑制剂尚未成为临床上的常见疗法。Ras可被GTP酶激活蛋白(GTPase-activating
2021年8月19日
其他

蛋白质生物学推介(四)

往期链接:蛋白质生物学推介(一)蛋白质生物学推介(二)蛋白质生物学推介(三)Cdk和Src蛋白激酶的调节显示了蛋白质如何作为微芯片发挥作用聊生信:此处的微芯片(Microchip)不是指将蛋白质用于生物芯片,而是比喻某些激酶可以像计算机(微)芯片一样,具备一定的逻辑相应能力(即:汇集和计算复杂信号或情形,并做出逻辑判断和相应)。真核细胞中数百种不同的蛋白激酶形成复杂的信号通路网络,这些网络有助于协调细胞的活动、驱动细胞周期并将信号从细胞(外)环境传递到细胞中。许多涉及的细胞外信号需要被细胞整合和放大。单个蛋白激酶(和其他信号蛋白)在整合过程中充当输入-输出(input–output)装置或“微芯片”(microchips)。
2021年8月18日
其他

蛋白质生物学推介(三)

往期精彩:蛋白质生物学推介(一)蛋白质生物学推介(二)补充一些有关酶的基础内容:(聊生信:关于酶的内容太多了,还好大都比较有趣)酶和底物之间的匹配需要非常精确。(利用)基因工程在酶的活性部位引入的一个小变化可以产生显著的影响。例如,用一种酶中的天冬氨酸代替谷氨酸,催化羧酸离子的位置只会移动1Å(大约一个氢原子的半径)。然而,这足以将酶的活性降低一千倍。Å:埃米(Ångstrom或ANG)是晶体学、原子物理、超显微结构等常用的长度单位,音译为"埃",符号为Å,1Å等于1纳米的十分之一。酶的作用原理:1)增加催化部位底物分子的局部浓度;2)一些与底物的结合能直接有助于催化作用。底物分子在形成最终反应产物之前,必须经过一系列几何结构和电子分布发生改变的中间状态。聊生信:分子自身时刻处于多种构象的高速动态变化之中,偶尔会出现偏离了其正常的、最稳定的构象,这种过渡态、特殊或中间构象会被酶巧妙地捕捉、稳定或利用。酶发挥催化功能的一般策略。在涉及两种或两种以上反应物的反应中,活性部位也起到模板或模子的作用,使底物基质(substrates)以适当的方向聚集在一起,以便在它们之间发生反应(下图A)。又如:溶菌酶中酶的活性部位包含精确定位的原子,这些原子通过使用带电基团改变底物中的电子分布来加速反应(下图B)。与酶的结合也会改变底物形状,弯曲其(化学)键,从而将底物“陷于”特定的过渡状态(下图C)。酶催化的一般策略可大致分为三类:(A)将基底(substrates)精确对齐固定在一起;(B)反应中间体的电荷稳定;(C)改变基底中的键角以增加特定反应的速率。最后,像溶菌酶一样,许多酶通过在底物和酶的侧链之间短暂形成共价键而密切参与反应。反应的后续步骤将侧链恢复到其原始状态,以便酶在反应后保持不变。因此,酶的功能的发挥严重依赖于部分精确的蛋白结构和表面电荷分布。多酶复合物有助于提高细胞代谢率酶加速化学反应的效率对维持生命至关重要。实际上,细胞必须与不可避免的衰变过程相抗争,如果不加以注意,衰变过程会导致大分子朝着越来越大的无序方向下滑。如果理想反应的速率不大于竞争性副反应的速率,细胞很快就会死亡。通过测量ATP利用率,可以了解细胞代谢进行的速度。典型的哺乳动物细胞每1或2分钟“翻转”(“turns
2021年8月17日
其他

蛋白质生物学推介(二)

transfers许多维生素为人体细胞提供关键的辅酶此系列还有更多精彩内容,资料来源也会更丰富,敬请期待!撰写:宋红卫更多人类遗传学知识、文献和分析技术请关注和星标聊生信
2021年8月16日
其他

蛋白质生物学推介(一)

我把科学的广阔园地,看作是一个广大的原野,其中散布着一些黑暗的地方和一些光明的地方。我们的工作的目的,应该是或者扩大光明地方的界限,或者在原野中增加光亮的中心。——狄德罗笔者:我在过去多年的学习和实践中,曾做过DNA、RNA、代谢物等组学的数据分析,发现不像DNA和RNA,蛋白的结构和功能更加多样化,很难系统地掌握,但这个领域确实非常迷人。生物分子的强、弱相互作用及种类从生物分子内到分子间、从强到弱的作用力依次为:离子键(ion-ion)、共价键(covalent
2021年8月14日
其他

正常与突变蛋白三维结构模型的绘制与分析

利用全外显子或全基因组测序进行遗传变异分析时,可发现大量的突变位点。这些突变位点在使用SIFT、PolyPhen-2或CADD批量地预测对蛋白的有害性后,一般需要进行下游更高级的分析,例如突变蛋白的具体功能影响、结构的预测和比较。变异的有害性、致病性和ACMG分类有几点容易混淆的地方,在此明确一下:(1)变异的有害性。SIFT、PolyPhen-2和CADD等软件或算法属于生物信息学计算预测程序或硅基分析工具(Silico
2021年8月13日
其他

外显子和基因组基本概念(二)

Disequilibrium):相邻位点之间的非随机关联,当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设,则这两个位点之间存在连锁不平衡。连锁平衡(Linkage
2021年8月9日
其他

基因突变与脑瘫发生风险(文献解读,Nature Genetic,2020)

对于从事生信技术的研究与开发(R&D)人员来说,对特定领域内的具有代表性的文献的阅读和解析非常重要。科学文献:通常在科学基金(多数来源于纳税人)的资助下,由几位或几十位以上的科研人员,经历数月或数年,由国际杂志社精心审阅和编排,进行的知识和技术分享。科学论文当下仍是科学研究、解决疾病和贫困问题的主要途径之一。每篇文献(尤其是原创性的、高影响力的),无论是作者还是读者都值得认真对待。文献解读的意义:对外文、专业性强、具有代表性的论文的翻译,可以帮助我们快速了解相关领域的:研究内容、目的意义、技术手段、论述方式、数据统计和可视化方法等。值得通过大量时间反复研究。时间:2020刊物:Nature
2021年8月7日
其他

采用circlize包绘制Circos图

本文采用circlize包自带的示例数据绘制Circos图,简要描述了circlize包的用法,以及几个常用参数的作用。Circos图(圈图)功能可展示的数据:基因密度、基因功能注释、CG含量、突变频谱、CNV分布、组蛋白修饰、甲基化密度、转座子与顺式调控元件分布等等;组学可涉及:基因组、外显子组、甲基化组、ATAC-Seq和ChiP-Seq等组学等等;复杂度可包括:多个样本、多个组织,多个时期的组学数据;图的类型可涵盖:(复杂)热图、散点图、密度图、折线图、(堆积)柱状图、弦图等等,同时展现多种图形及其变化关系。#
2021年7月12日
其他

外显子和基因组基本概念(一)

聊生信团队近期梳理了一些外显子和基因组相关的基本概念,便于理解后续的相关生信分析。基因组(Genome):分子生物学和遗传学领域中指生物体所有遗传物质的总和,包括DNA或RNA(病毒)。具体包含编码DNA、非编码DNA、线粒体DNA和叶绿体DNA。研究基因组的科学称为基因组学。同源染色体(Homologous
2021年7月5日
其他

一览生信分析的各种工作环境——Linux子系统、双系统、虚拟机和Docker

两个系统的软件可以共享!例如Win10的VSCode软件可被Linux子系统访问。在安装子系统的同时,如果你装了VSCode文本编辑器,那么VSCode会提示我们安装一个名叫"Remote
2021年5月30日
其他

生命科学研究的"上帝视角"——组学(Omics)

在线数据库并不是预测生物分子互作的主要方法,实际研究中经常使用特定的软件、算法从头分析(例如PRIdictor、DeepBind、分子对接等计算机辅助药物设计方法),以及特定的湿实验技术。
2021年5月24日
其他

R语言简介、安装、R包的安装问题、R的绘图函数概览、par()函数及plot()函数详解

设定绘图区域,留空白,一般涉及如下参数:par(omi,mai,mar,xpd),xpd=FALSE/TRUE/NA分别表示将绘图区设定为:绘图区域、图形区域及设备区域。以上三个区域是由内到外的:
2020年12月12日