查看原文
其他

数据如何共享和质控?王乐珩、郝向稳、谷为岳、余乐

顾卫红 顾大夫工作室 2022-04-23

顾大夫沙龙第一期内容梳理:数据如何共享和质控?

讲者:王乐珩  GeneDockCTO

题目:面向临床的基因型和表型数据如何管理

嘉宾发言:

郝向稳  基云惠康创始人&CEO

谷为岳  北京智因东方转化医学研究中心创始人&CEO

余  乐  神州医疗科技股份有限公司精准医疗部总经理


王乐珩



郝向稳

我说一下我的理解,我觉得大家今天下午坐到这儿讲基因的解读,提到数据共享和质控,我想说的有三个。

第一个,其实大家各自有不同角色的定位,我们每个人在讲数据共享的时候,往往是从我们自身出发的,但实际上患者的需求是什么?医生的需求是什么?基因公司的需求是什么?这些需求之间有时候不是完全匹配的。所以,当大家遇到别人不愿意共享数据的时候,因为做任何一件事情都需要支出,都需要劳动。如果这个支出和劳动没有收获的话,那么这么一件事情,我觉得就很难进行下去。

    第二个,就是说共享,我觉得所谓的共享其实就是一种生产关系。今天来的路上,我一直在学习区块链,听一个课程。刚才说到,如果我们大家在整个基因解读、基因检测,整个的生产关系当中,如果这个链条不能够很好地建立起来,我觉得这种共享也仅仅限于我们大家抱怨一下、吐槽一下,没有办法把这个关系理顺。其实,我们今天讲这些数据属于企业、属于患者或者属于某一个研究人员,如果都在自己的电脑里,它的价值肯定是发挥不出来的。而且如果再畅想一下这个区块链真的能用到基因这个行业的话,那么理论上这些数据都会回归到个人,每个人都有权利把自己的数据进行价值化,然后让这些数据去发挥价值。

    第三个,不算广告,我们跟顾老师合作做门诊的表型采集。顾老师可以非常便捷地把患者的表型数据采集下来,同时这些表型的数据能够共享给患者,同时还可以把这些表型的数据共享给基因公司,基因公司也可以把他的诊断结果再回馈给顾老师。基因解读,我相信最终要有一个出口,一定是专业的大夫、临床医生。

    谢谢大家!


谷为岳

   感谢能有这样的机会!很高兴今天学习了很多。关于数据质控,作为一个基因检测的机构,良好的数据质控是一个基础。数据质控应该说包括几个方面,其实一个是基础的测序数据,那么实际上就是关于测序的质量以及初步的数据分析,包括一些基本的数据该怎么样去过滤等等这些。

    那么基因检测公司应该首先要声明检测的范围,包括技术的局限性,刚才有老师也说到了,我觉得应该特别强调,比如我们的捕获芯片到底能够做到什么样的覆盖程度,最好能够注明,在哪些基因上能够达到一个什么样的范围。这样的话,如果医生强烈怀疑是一种病,这个病表型非常地接近,但是没有检测出来什么变异,但是他如果知道你这个panel已经声明了可能某些基因的覆盖不是特别好,高质量的数据20X以上数据可能覆盖不是特别好,那么这样的情况,医生可能会想别的办法,这样至少能够让医生知情。我觉得这个可能是我们未来需要努力的方向。

    另外,关于数据分析,实际上也是涉及到质控的问题,这也都属于质量控制。我在这儿可能说一个相对外行一点的,我关注到现在很多检测机构都把ACMG作为一个变异评级,甚至把它作为一个报告,认为是阳性的或者不是阳性的标准。我看到不仅是中国,甚至是世界上很多实验室都在用ACMG的标准作为遗传病的致病性的分析。其实ACMG是变异致病性评级指南,并不是一个遗传病诊断指南,这个还是有微妙的区别,也非常重要的区别,这其实就是区分了实验室和临床医生的需求的差别。这里,我举一个很简单的例子,我甚至注意到比如有的报告里,提到这个变异是pathogenic,因为ACMG的指南是pathogenic,那么它得到了杂合的变异,但是在一个隐性遗传病的基因上,因为它的评级是pathogenic,所以就把它定义为这个变异是致病的,而且是解释了患者的表型,这应该说是曲解了ACMG的原则,ACMG只是一个变异致病性指南。对一个数据库,比如ClinVar,会把所有的变异进行注释,每一个变异到底是pathogenic,还是不是pathogenic,用在所有的患者上,同一个变异都应该是,如果是pathogenic,所有的患者都是pathogenic。不管是哪个报告用到这个变异,都是pathogenic的级别,应该有这样的一个概念,而不是说对于一个case来说,用这个来作为一个诊断的标准。所以有可能有曲解在这里,其实这个也算质控的一部分。

    我就说这些,谢谢!


余 乐

大家好!我是神州数码的余乐,感谢顾老师、黄老师提供的机会。那么接着刚才向稳和谷总的介绍,对于数据共享这方面,我想从它的必要因素上做一个补充。

对于数据共享,就像刚才王乐珩王总介绍的,首要的两个因素是临床和组学数据。临床数据的维度很大,组学数据的单个样本的数据量大。那么对于临床数据来说,我们要做到共享,首先的因素是要把数据进行整合起来,以目前的这种不同的科室的形式是很难的。现在国际上有一个思路,是以患者为中心把数据关联起来。

那么做完这个工作之后,下一步是最核心的部分,也就是要以一定标准的数据库模型来进行整合。在国际上,尤其是从主流的国际标准的数据库,比如说OHDSI,这是在临床上面的数据标准的数据模型。

做完这个工作之后,下一步很重要的事情,就是把临床的数据进行自然语言的处理,从中提取出相应的临床信息、诊疗信息、治疗用药信息等等相关的信息。这一步是非常重要的。举一个简单的例子,在罕见病解读方面,我们不仅需要基因的信息、组学的信息,我们还需要临床的数据。如何能够把临床的数据不是手动地,而是自动化地变成系统式的,能够自动地把所要的关键的表型信息和字段提取出来,跟整个的组学相关联,并且以已有的知识库进行support,这是一个要点。
     下面第四点就是术语,刚才顾老师做了CHPO的介绍。术语这方面,它是一个核心,如果我们要做到数据共享的话,所有的数据需要一些标准。在国际上除了HPO,还有Snomed CT,检验类的 如LOINC,MESH,ICD 等,这些标准是我们要在底层上进行数据标准化的基础要素。

最后是数据安全,数据安全也非常重要。在美国有一个统计,大概有63-84%的患者即使隐去了患者的姓名以及学历的信息,也可以通过数据的关联,找到病人的unique的关系,这是很危险的。举一个例子,不进行处理的时候,目前在中国某些大型综合性医院中,大概有30%的病人即使隐去身份证号,入院的病例号,还是能够找到unique的信息,但是通过一些满足HIPAA法案的数据隐私的算法能够把这个几率减少很多,减少最多的情况是能够有20%的用户达到经过脱敏后,有800种的组合性找不到数据。

从整个架构体系上,最上层的是临床数据、组学数据、影像数据、健康数据,下面是整个数据平台的建设标准,这方面有数据接口,包括基因组的数据接口、临床的数据接口。

还有再下面也是像刚才咱们几位老师介绍的知识治理体系。首先是知识库,知识库有专家发现和机器发现两个入口;再下面是术语级的表述;再下面是知识的管理体系。然后,数据出来之后跟表型数据、跟基因数据进行结合,最后再构建数据库,构建推理及人机交互接口,最后再成为应用层面。

       我对于王乐珩王总的介绍十分认可,基于医院临床的这一套跑通的话是一个必要的过程。这一块数据共享目前在医院里,主要是大型课题的形式,比如说国家罕见病注册系统以及各大医院的大型队列研究,以这种方式来进行各大医院之间、PI之间的数据共享。

     时间的关系,质控方面我不多说了。宏观方面就像刚才王总介绍的,实验室的管控、数据的管理,这些都是质控。对于整个组学方面的质控,也是尤为重要的。组学分析质控主要分成四步:第一步是FASTQ的质控,第二步是alignment的质控,第三步就是过滤这方面的质控,最后一方面是数据的annotation的质控。综合来说,做这个事情是一个庞大复杂的过程,需要IT人员、生物信息和医学信息专家以及专业医生进行紧密的结合来完成。

      感谢大家!

   

感谢黄尚志老师、承办方赛福基因、协办方人人实验和测序中国对本次沙龙的大力支持!

嘉宾发言整理:测序中国、顾大夫

测序中国探基平台已将直播视频整理分段,链接方式将在沙龙内容梳理完成后发布,敬请关注!

谢谢支持!一起推动行业发展!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存