数据如何共享和质控？王乐珩、郝向稳、谷为岳、余乐

Original 顾卫红顾大夫工作室 2022-04-23

顾大夫沙龙第一期内容梳理：数据如何共享和质控？

讲者：王乐珩 GeneDockCTO

题目：面向临床的基因型和表型数据如何管理

嘉宾发言：

郝向稳基云惠康创始人&CEO

谷为岳北京智因东方转化医学研究中心创始人&CEO

余乐神州医疗科技股份有限公司精准医疗部总经理

王乐珩

郝向稳

我说一下我的理解，我觉得大家今天下午坐到这儿讲基因的解读，提到数据共享和质控，我想说的有三个。

第一个，其实大家各自有不同角色的定位，我们每个人在讲数据共享的时候，往往是从我们自身出发的，但实际上患者的需求是什么？医生的需求是什么？基因公司的需求是什么？这些需求之间有时候不是完全匹配的。所以，当大家遇到别人不愿意共享数据的时候，因为做任何一件事情都需要支出，都需要劳动。如果这个支出和劳动没有收获的话，那么这么一件事情，我觉得就很难进行下去。

第二个，就是说共享，我觉得所谓的共享其实就是一种生产关系。今天来的路上，我一直在学习区块链，听一个课程。刚才说到，如果我们大家在整个基因解读、基因检测，整个的生产关系当中，如果这个链条不能够很好地建立起来，我觉得这种共享也仅仅限于我们大家抱怨一下、吐槽一下，没有办法把这个关系理顺。其实，我们今天讲这些数据属于企业、属于患者或者属于某一个研究人员，如果都在自己的电脑里，它的价值肯定是发挥不出来的。而且如果再畅想一下这个区块链真的能用到基因这个行业的话，那么理论上这些数据都会回归到个人，每个人都有权利把自己的数据进行价值化，然后让这些数据去发挥价值。

第三个，不算广告，我们跟顾老师合作做门诊的表型采集。顾老师可以非常便捷地把患者的表型数据采集下来，同时这些表型的数据能够共享给患者，同时还可以把这些表型的数据共享给基因公司，基因公司也可以把他的诊断结果再回馈给顾老师。基因解读，我相信最终要有一个出口，一定是专业的大夫、临床医生。

谢谢大家！

谷为岳

感谢能有这样的机会！很高兴今天学习了很多。关于数据质控，作为一个基因检测的机构，良好的数据质控是一个基础。数据质控应该说包括几个方面，其实一个是基础的测序数据，那么实际上就是关于测序的质量以及初步的数据分析，包括一些基本的数据该怎么样去过滤等等这些。

那么基因检测公司应该首先要声明检测的范围，包括技术的局限性，刚才有老师也说到了，我觉得应该特别强调，比如我们的捕获芯片到底能够做到什么样的覆盖程度，最好能够注明，在哪些基因上能够达到一个什么样的范围。这样的话，如果医生强烈怀疑是一种病，这个病表型非常地接近，但是没有检测出来什么变异，但是他如果知道你这个panel已经声明了可能某些基因的覆盖不是特别好，高质量的数据20X以上数据可能覆盖不是特别好，那么这样的情况，医生可能会想别的办法，这样至少能够让医生知情。我觉得这个可能是我们未来需要努力的方向。

另外，关于数据分析，实际上也是涉及到质控的问题，这也都属于质量控制。我在这儿可能说一个相对外行一点的，我关注到现在很多检测机构都把ACMG作为一个变异评级，甚至把它作为一个报告，认为是阳性的或者不是阳性的标准。我看到不仅是中国，甚至是世界上很多实验室都在用ACMG的标准作为遗传病的致病性的分析。其实ACMG是变异致病性评级指南，并不是一个遗传病诊断指南，这个还是有微妙的区别，也非常重要的区别，这其实就是区分了实验室和临床医生的需求的差别。这里，我举一个很简单的例子，我甚至注意到比如有的报告里，提到这个变异是pathogenic，因为ACMG的指南是pathogenic，那么它得到了杂合的变异，但是在一个隐性遗传病的基因上，因为它的评级是pathogenic，所以就把它定义为这个变异是致病的，而且是解释了患者的表型，这应该说是曲解了ACMG的原则，ACMG只是一个变异致病性指南。对一个数据库，比如ClinVar，会把所有的变异进行注释，每一个变异到底是pathogenic，还是不是pathogenic，用在所有的患者上，同一个变异都应该是，如果是pathogenic，所有的患者都是pathogenic。不管是哪个报告用到这个变异，都是pathogenic的级别，应该有这样的一个概念，而不是说对于一个case来说，用这个来作为一个诊断的标准。所以有可能有曲解在这里，其实这个也算质控的一部分。

我就说这些，谢谢！

余乐

大家好！我是神州数码的余乐，感谢顾老师、黄老师提供的机会。那么接着刚才向稳和谷总的介绍，对于数据共享这方面，我想从它的必要因素上做一个补充。

对于数据共享，就像刚才王乐珩王总介绍的，首要的两个因素是临床和组学数据。临床数据的维度很大，组学数据的单个样本的数据量大。那么对于临床数据来说，我们要做到共享，首先的因素是要把数据进行整合起来，以目前的这种不同的科室的形式是很难的。现在国际上有一个思路，是以患者为中心把数据关联起来。

那么做完这个工作之后，下一步是最核心的部分，也就是要以一定标准的数据库模型来进行整合。在国际上，尤其是从主流的国际标准的数据库，比如说OHDSI，这是在临床上面的数据标准的数据模型。

做完这个工作之后，下一步很重要的事情，就是把临床的数据进行自然语言的处理，从中提取出相应的临床信息、诊疗信息、治疗用药信息等等相关的信息。这一步是非常重要的。举一个简单的例子，在罕见病解读方面，我们不仅需要基因的信息、组学的信息，我们还需要临床的数据。如何能够把临床的数据不是手动地，而是自动化地变成系统式的，能够自动地把所要的关键的表型信息和字段提取出来，跟整个的组学相关联，并且以已有的知识库进行support，这是一个要点。
下面第四点就是术语，刚才顾老师做了CHPO的介绍。术语这方面，它是一个核心，如果我们要做到数据共享的话，所有的数据需要一些标准。在国际上除了HPO，还有Snomed CT，检验类的如LOINC，MESH，ICD 等，这些标准是我们要在底层上进行数据标准化的基础要素。

最后是数据安全，数据安全也非常重要。在美国有一个统计，大概有63-84%的患者即使隐去了患者的姓名以及学历的信息，也可以通过数据的关联，找到病人的unique的关系，这是很危险的。举一个例子，不进行处理的时候，目前在中国某些大型综合性医院中，大概有30%的病人即使隐去身份证号，入院的病例号，还是能够找到unique的信息，但是通过一些满足HIPAA法案的数据隐私的算法能够把这个几率减少很多，减少最多的情况是能够有20%的用户达到经过脱敏后，有800种的组合性找不到数据。

从整个架构体系上，最上层的是临床数据、组学数据、影像数据、健康数据，下面是整个数据平台的建设标准，这方面有数据接口，包括基因组的数据接口、临床的数据接口。

还有再下面也是像刚才咱们几位老师介绍的知识治理体系。首先是知识库，知识库有专家发现和机器发现两个入口；再下面是术语级的表述；再下面是知识的管理体系。然后，数据出来之后跟表型数据、跟基因数据进行结合，最后再构建数据库，构建推理及人机交互接口，最后再成为应用层面。

我对于王乐珩王总的介绍十分认可，基于医院临床的这一套跑通的话是一个必要的过程。这一块数据共享目前在医院里，主要是大型课题的形式，比如说国家罕见病注册系统以及各大医院的大型队列研究，以这种方式来进行各大医院之间、PI之间的数据共享。

时间的关系，质控方面我不多说了。宏观方面就像刚才王总介绍的，实验室的管控、数据的管理，这些都是质控。对于整个组学方面的质控，也是尤为重要的。组学分析质控主要分成四步：第一步是FASTQ的质控，第二步是alignment的质控，第三步就是过滤这方面的质控，最后一方面是数据的annotation的质控。综合来说，做这个事情是一个庞大复杂的过程，需要IT人员、生物信息和医学信息专家以及专业医生进行紧密的结合来完成。

感谢大家！

感谢黄尚志老师、承办方赛福基因、协办方人人实验和测序中国对本次沙龙的大力支持！

嘉宾发言整理：测序中国、顾大夫

测序中国探基平台已将直播视频整理分段，链接方式将在沙龙内容梳理完成后发布，敬请关注！

谢谢支持！一起推动行业发展！

没想到！只卖真货的山姆超市会有这个结果

王立军涉嫌严重违纪违法，已被纪委带走！

噩耗传来！她的遗体被找到

王冕和崔阿扎睡过？天佑当面质问崔！阿哲带货推迟，阿哲解释推迟原因。

先让她怀孕她家就没办法了？女儿痛经难受，北大教授研发新药……

数据如何共享和质控？王乐珩、郝向稳、谷为岳、余乐

您可能也对以下帖子感兴趣

没想到！只卖真货的山姆超市会有这个结果

王立军涉嫌严重违纪违法，已被纪委带走！

噩耗传来！她的遗体被找到

王冕和崔阿扎睡过？天佑当面质问崔！阿哲带货推迟，阿哲解释推迟原因。

先让她怀孕她家就没办法了？女儿痛经难受，北大教授研发新药……

生成图片，分享到微信朋友圈

数据如何共享和质控？王乐珩、郝向稳、谷为岳、余乐

您可能也对以下帖子感兴趣