国际罕见病大会:罕见病的开源数据 | 大咖论道
大会嘉宾合影
嘉宾介绍
法国国立卫生与医学研究所(INSERM)Orphanet US14副主任兼CTO
— Marc Hanauer先生
Marc HANAUER先生是法国国立卫生与医学研究所OrphanetUS14的副主任兼首席技术师,他拥有信息和通信科学学术背景,对罕见病的数据管理有自己独到的见解。
罕见病领域的数据现状
Marc HANAUER先生指出,现有的罕见病数据库就像一个个孤立的岛屿。
我们现已知道大约7000多种罕见病,其中5856中已在Orpahnet(全球最大的罕见病数据库)上注册。这些数据来源各异,种类各异(包括罕见病的临床特征、自然病程、生物研究、注册中心、生物银行、临床试验、基因型/表型、患者信息等),且在信息技术(IT)水平 45 32674 45 14939 0 0 3553 0 0:00:09 0:00:04 0:00:05 3554上,数据也千差万别,比如不同的信息系统、不同的数据形式和模型、数据间缺乏互操作性、可及性和持续性。对于每一种罕见病来说,患者都是非常罕见的,但是需求却是巨大的。
因此,目前其面临的困境是如何这些数据孤岛连接起来。
孤立的数据岛屿
连接数据孤岛的桥梁——本体(Ontology)
Marc HANAUER先生指出,建立桥梁的第一步就是去了解不同孤岛上的信息。但是存在的问题是,对于同一个概念,我们常使用不同的名称,即使是同一种名称,在不同国家也存在语言障碍。因此我们需要统一的术语,但是不同地区和国家有不同的术语系统,导致其互操作性很差。因此我们亟需将这些信息整合成标准化的IT格式。
为了实现这一目标,Marc HANAUER先生引入了本体(Ontology)的概念。本体是指已在语义上定义且相关的词汇,是一种逻辑关系,常用于注释数据集,能够让我们进行计算并且推断知识,而且是一个统一的资源标识码。
本体使数据数据具有更好的互操作性,因为它使用的是ID而不是术语,并且它使用通用的“计算机”标准化语言RDF/OWL。现已有一些本体在使用了,比如基因本体(Gene Ontology)、Orphanet罕见病本体(Orphanet Rare Disease Ontology, ORDO)、人类表型本体(Human Phenotype Ontology)等。
接着,Marc HANAUER 先生详细介绍了Orpahnet的术语系统。每一种疾病都被赋予了特定的ORPHA编号(Orphacode)。每种疾病都有优先术语(preferred term)和尽可能多的同义词。这些术语与ICD 10OMIM, UMLS, ICD11, MedDRA, MeSH等使用的术语一致。但是仅仅使用标准术语还不够,还要兼顾数据的易得性和可用性。
Marc HANAUER先生介绍Orpahnet的术语系统
数据的易得性和可用性
为了使数据的易得性和使用性更佳,Marc HANAUER先生指出在数据注册时,要遵循FIRE原则,这四个字母分别代表可寻找性(Findable)、可获得性(Accessible)、互操作性(Interoperable)和可重复使用(Resuable)。
可寻找性是指这些数据是描述性的元数据,具有持续性的标识符;可访问性指元数据总是可以被访问的,即使数据不可以被访问,但是元数据还是可以被访问的;互操作性要求元数据或数据基于同一个标准;可重复使用要求元数据要包括一些许可和数据使用信息及数据出处。
FIRE原则很简单,但是这个原则的恰当应用还存在一些问题,比如缺乏控制元数据的政策手段以及如何申请认证,另外还有数据质量的控制。罕见病统计数据源一定要应用FAIR的原则,这样才能形成各种各样的桥,把各种各样的数据孤岛联系在一起,同时确保数据的开放性和可再利用性。
最后,Marc HANAUER先生强调开放并不意味着一切都是免费的,也不意味着我们不能控制自己的数据,我们一定要知道谁在访问自己的数据,数据是怎样管理的。同时,信息开放不意味着可以把病人的所有数据都公之于众。
文章整理/北大医学部/林萍萍。
欢迎投稿 邮箱:info@cord.org.cn
1.APEC-亚太地区罕见病药品审批与准入的创新合作项目启动会圆满成功
2. CFDA药审中心公布第二十四批优先审评药品注册申请名单,5个是罕见病用药
资讯 | 数据 | 孤儿药 | 会议 | 政策 | 患者组织
——罕见病行业门户信息平台——
www.raredisease.cn
----------------------------