查看原文
其他

第一作者 | 专访 VarCards人类基因变异整合数据库搭建者之一李津臣博士

第一作者 生信者言 2022-03-29


上周,生信者言首先报道了人类基因变异与临床信息整合数据库VarCards发布的相关信息。


VarCards整合60余个常用的遗传和临床相关数据库或工具,把基因变异、遗传与疾病、临床表型、人群突变频率乃至药物信息全部整合起来,为临床医师和科研工作者提供了极大便利。


相关论文11月3日发表于Nucleic Acids Research 【PMID:29112736


VarCards数据库优势究竟在哪里?目前的用户数和使用情况如何?下一步的升级规划如何?


带着这些问题,我们采访了本文的第一作者李津臣博士。





VarCards

临床变异解读

关键词

全文约2000字,阅读用时5分钟


中科院北京生命科学学院孙中生教授课题组合影

(受访者供图)




Part1:关于VarCards数据库的构建背景


岗位职责


生信者言:请简要介绍您与您实验室的研究工作


李津臣博士:大家好,我是孙中生教授课题组的李津臣博士。本课题组目前的主要研究方向包括: 1.疾病及生命现象的基因组及表观基因组研究,长期目标是利用基因组学手段揭示控制生物学表型的遗传及表观遗传代码; 2.疾病及生命现象的生物钟调控机制研究,在基因组、细胞及行为学水平上分析生物钟与免疫、心血管疾病、药物成瘾,疼痛与时间生物学的关系,了解生物钟调控机制;3.表观基因组分析算法及工具的开发,在前期已成功开发甲基化可视化软件iMethy的基础上,进一步开发重复序列区DNA甲基化的分析算法和工具,提高甲基化修饰碱基的辨识率,为肿瘤基因组稳定性研究提供技术支撑。

岗位职责


生信者言:您和团队什么时候开始开发VarCards数据库?初衷是什么?


李津臣博士:最早有这个想法是在2014年,全外显子测序逐步在遗传疾病中得到了广泛应用。当时,我们与临床遗传学方面的专家合作课题,通过全外显子测序检测疾病的致病基因。我们首先会通过生物信息学等方法缩小致病突变的范围,但是仍然会剩余几个到几十个候选变异。为了进一步评估这些候选变异同疾病的关系,我们需要分析这些变异的各方面信息,例如:在特定人群是否属于罕见变异,变异的致病性,对应基因有何种功能等。为此,我们往往需要查询几十个数据库,不同数据库界面与风格也各不相同,过程还是比较费时费力的。特别是对没有生物信息学背景的临床遗传学工作者,很难在短时间内获得足够的信息来初步判断某种变异与疾病的关系。


查询基因变异的遗传与临床信息如此重要,却要通过多个数据库或者软件获得相关信息,我们为什么不针对此问题开发一个专门的整合网站呢?将编码区域的所有可能变异同常用数据库的信息关联起来,通过一个网站就能快速查询到想要的所有信息。为此,本团队2015年开始着手整理各方面的数据,2016年开发数据库界面。主要目的是希望简化科研工作者查询基因变异相关信息的工作量,加速本领域的发展、致病突变的鉴定。

岗位职责


生信者言:这篇文章有 3 个合作单位,在VarCards开发过程中,大家的分工与主要职责是什么?


李津臣博士:对于该项目,由我提出整个项目的构思并得到孙中生教授的确认;数据集的选择以及变异的详细注释主要由我完成;网站前端和后台的开发主要由温州医科大学硕士研究生史雷胜完成;文章的写作由我和史雷胜共同完成,并最终由中科院生命科学研究院孙中生研究员把关文章的科学性。课题组的其他成员对本项目也作出了重要贡献。




Part2:VarCards 数据库的技术细节


岗位职责


生信者言:国际上是否有已经开放的其他整合数据库?与这些数据库相比 VarCards 的优势是什么?


李津臣博士:目前,类似的数据库或工具有dbNSFP、wANNOVAR、WGSA、MyVariant.info、VEPtool、wInterVar。使用这些数据,往往需要一定的生物信息学基础,甚至需要将数据下载到本地服务器才能使用。与这些数据库或工具相比较,VarCards 信息收录更全面,用户界面更友好,使用起来更容易和方便,无需生物信息学基础也能轻松获得相关的突变信息。

岗位职责


生信者言:VarCards 数据库的架构是什么样的?整合数据库时信息的采集原则是什么?


李津臣博士:前端采用bootstrap + JQuery + DataTables进行开发, 后端采用基于MVC的CodeIgniter进行开发。不同数据库之间的信息很少会不一致或矛盾,VarCards本身也不会检查数据库之间的信息是否不一致,而是忠实的提取用户想获取的信息,具体采用哪一个数据源由用户自行决定。

岗位职责


生信者言:VarCards 数据库除了在线检索之外,是否支持本地化?数据库大约多大?目前的使用情况如何?大家在使用和安装中有哪些要注意的地方?


李津臣博士:数据库的部分数据对科研用户是免费下载的。网站采用MySql做数据库管理系统,所需存储空间超过200G。 目前每天的浏览量在500左右,独立IP在200左右。无需安装,打开浏览器,输入网址即可访问和使用。推荐使用火狐浏览器或谷歌浏览器进行访问和使用。

岗位职责


生信者言:能否跟大家分享一个VarCards 的使用案例? 


李津臣博士:我们发表的文章中,我们将VarCards应用到孤独症新生突变的解读中,得到了良好的结果。其他方面的案例仍在进一步分析中。

岗位职责


生信者言:VarCards下一步的开发、迭代计划是什么? 是否有商业化应用的考虑?


李津臣博士:下一阶段,我们计划添加非编码变异及关联信息到数据库中,以达到快速解读非编码变异致病性的目的,同时根据实际需求添加一些用户感兴趣的数据集。目前发表版本的数据对科研用户是完全免费的,是否开发商业化版本需要根据实际需求确定。


《第一作者》是生信者言新设的一个科学采访栏目。第一时间、第一视角、第一深度,聚焦国内外生命科学领域最新研究成果。


好的研究成果需要被知道,欢迎大家推荐和自荐。

扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存