查看原文
其他

AlphaFold数据库简介

叶明皓,宋红卫 聊生信 2022-05-14

AlphaFold是由DeepMind开发的最先进的人工智能系统,能够精确快速的计算预测蛋白质结构。DeepMind与EMBL-EBI(欧洲生物信息研究所)合作,正在向全球科学界免费开放。数据库官网 :https://www.alphafold.ebi.ac.uk


DeepMind位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯·哈萨比斯(Demis Hassabis)等人联合创立,是将机器学习和系统神经科学结合起来、先进人工智能企业,2014年被谷歌收购。

Demis Hassabis。哈萨比斯的父亲有希腊和塞浦路斯血统,母亲是华裔新加坡人,哈萨比斯是家中长子,他有个弟弟和妹妹。

DeepMind的人工智能AlphaGo曾在国际象棋、围棋等项目中取得了超越人类的表现,其研究不仅震惊世界。如今,该公司已将人工智能技术应用到最具挑战性的科学研究问题中,其刚刚推出的AlphaFold可以仅根据基因序列预测生成蛋白质的三维结构。

德米斯·哈萨比斯(Demis Hassabis)说:“这是迄今为止 AI 在推动科学上作出的最大贡献,我觉得这一点不夸张。”AI 在下棋上超过人类,没有解决任何应用问题,AlphaFold2能够准确预测“蛋白质折叠”,则是把生物学的进程向前推动了一步。


如何使用数据库?

在页面顶部的搜索栏可以输入蛋白质名称(如Hemoglobin subunit beta)、基因名称(如HBB)、UniProt标识符(如P68871)或生物体名称(如Homo sapiens)查询。目前不支持BLAST或基于序列的搜索。


输入基因名后,可在左边选择所对应的物种。


进入检索结果,页面如下图:

红框:文件下载。可下载PDB或mmCIF格式文件。这些文件可以使用PyMOL和Chimera等软件打开。
蓝框:3D模型的置信度。这种置信度测量被称为pLDDT,它与模型在lDDT-Cα度量上的预测分数相对应。一个氨基酸一个得分。
在pLDDT>90的区域,适用于任何需要利用超高精度的应用场景(例如:刻画分子结合位点)(These should be suitable for any application that benefits from high accuracy, e.g. characterising binding sites)

在pLDDT在70-90之间的区域,通常也是很好的预测;

在pLDDT在50-70之间的区域信任度较低,应谨慎对待;  

在pLDDT<50的区域表明这样一个区域要么在生理条件下是无结构的,要么只是作为一个复杂结构的一部分。

黄框:该基因的氨基酸序列和三维结构。

1-6分别表示: 

1. 蛋白质名称

2. 基因名称

3. 物种
4. UniProt数据库
5. 实验结构
6. 生物学功能
可点击氨基酸(如下图箭头所示)查看氨基酸残基和具体信息。红框表示AlphaFold对氨基酸的命名;蓝框AlphaFold中写法一致,可能为固定写法;绿框表示氨基酸的三字母符号



AlphaFold的ID转换问题

批量下载UniProtKB基因名的转换表格,操作如下图所示:




下载后的结果如图所示:

注意:

第一列为UniProtKB(下载的数据包含该ID);
倒数第三列Gene names中有时会存在多个名字,其中Entry  name和Gene names的数据也不完全一致,数据处理时需注意。

撰写:叶明皓

校对:宋红卫

更多人类遗传学知识、文献和分析技术
请关注和星标聊生信


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存