杨虎山教授谈癌症早筛和cfDNA大数据分析 |《大咖论健》第24期

查看原文

其他

杨虎山教授谈癌症早筛和cfDNA大数据分析 |《大咖论健》第24期

原创 2017-03-20 基因慧 基因慧Pro

《大咖论健》总第24期

杨虎山教授

关键词：癌症早筛建模 cfDNA

大数据智能分析 miRNA生物标记

建议用时：7分钟

精准医学，是科学技术化、技术产业化的领域。它围绕基因技术、微生物组、免疫治疗、大数据、人工智能等辅助医学信息化，为海量人群提供个性化预防和诊疗，是继转化医学后的升级。国家战略、科研发展、产业兴起把精准医学推向浪尖，同时在规范标准、政策引导、科学普及、资源整合上仍存在大量信息不对称。

“使连接产生价值，让知识获得尊重”作为精准医学行业变革的连接器，基因慧主办《大咖论健》，为行业代表提供专业发声平台。本期邀请Sidney Kimmel 癌症中心医学肿瘤学系杨虎山教授和大家分享基于癌症早筛建模。感谢NGS创新开发者协会对本期活动的支持。

欢迎科研/临床/产业代表参与《大咖论健》。

欢迎分享转发。转载请联系授权。

往期精华内容

《大咖论健》24期cfDNA大数据和癌症早筛

作者：杨虎山教授

编者：基因慧

一、从贝勒医学院到Sidney Kimmel癌症中心

基因慧：杨教授，您好！感谢您接受基因慧的专访。从贝勒医学院、安德森癌症中心到托马斯杰斐逊大学癌症研究中心，您的研究经历非常丰富，请您向基因慧读者介绍下自己和研究领域？

杨教授：很感谢有这个机会可以通过基因慧和同行以及基因慧的读者进行交流。我毕业于南开大学生物化学系。90年代末来到休斯顿的贝勒医学院攻读分子生物学的博士。读博士的期间，我接触了大量癌症生物学和癌症遗传学的知识，从而决定致力于做癌症的转化和临床医学方面的研究。博士毕业后我加入MD安德森癌症中心做博士后，通过分子流行病和基因组学的手段来寻找生物标志物，进而发展统计模型来进行癌症的风险预测和早期筛查，以及药物反应，复发检测等预后方面的研究。当时我们研究的重点之一便是microRNA的表达和遗传多态性在各种实体瘤中起到的风险预测的作用。在贝勒医学院读书的第一年，我结识了我的好友，也是我最重要的研究伙伴之一，李冰山教授。李教授是统计遗传学和生物信息学的专家，现工作于田纳西的范德堡大学遗传中心。我们在各自建立独立实验室之后便开始了极其广泛的在肿瘤的液体活检方面的合作，并在发展过程中得到了美国国立癌症研究所，国家人类基因组研究所，美国癌症协会等机构的基金支持。我们合作的重点方向之一就是通过cfDNA进行乙肝病人中的肝癌的早期筛查和诊断。这个合作是基于我在我工作的Sidney Kimmel癌症中心所建立的大型前瞻性和纵向性人群队列，包括上万例的乙肝，肝硬化，癌前，和早期肝癌诊断时的血液样本。同时，我们的合作还有相当一部分精力集中于循环肿瘤细胞(CTC)在癌症预后方面的研究。这方面的合作还包括我另外的一个重要合作者，Massimo Cristofanilli教授。Cristofanilli教授于2004年发表在新英格兰医学杂志上的文章直接导致了FDA批准了Janssen Diagnostics的 CellSearch仪器用于CTC的计数用于预测晚期乳腺癌的预后。 Cristofanilli教授在2013年来到Sidney Kimmel癌症中心出任乳腺癌中心的主任。我们合作建立了一个大型的晚期乳腺癌的病人队列来研究液体活检在病人预后方面的作用。近年来，我和李教授，Cristofanilli教授合作开发了一个从CTC收集到单细胞CTC遗传分析的全面的流程，并且在最近的国立癌症研究所的基金申请中取得了极高的分数。我们期望将来可以将ctDNA和CTC的基因组分析结合到一起而发展更为有效的液体活检的技术。

图：液体活检及其应用，图片来源于Marc Beishon What can we learn from liquid biopsies?，原始出处AACR

二、ctDNA技术发展和癌症早筛

基因慧：现在大家提到肿瘤精准医学，言必谈ctDNA和cfDNA，可否请您简单、系统地向临床医生普及下，液体活检，特别是ctDNA和cfDNA目前的技术进展，应用到临床上有着哪些挑战和前景？

杨教授： cfDNA指的是血液里的循环DNA的总和，而ctDNA专指从肿瘤来源的cfDNA，所以是cfDNA的一部分。基于cfDNA的液体活检的研究在近几年来炙手可热，主要是由于cfDNA可以在某些程度上避免组织活检的一些本质上难以解决的缺陷。比如说，肿瘤的异质性，组织活检的侵入性，以及肿瘤基因组在治疗压力下的快速进化而导致的组织活检的非实时性等等。液体活检在不同程度上可以避免这些限制，但是在技术和计算分析上的要求要远远高于组织活检。这主要是因为cfDNA在血液中的总量很低，而ctDNA在cfDNA中的比例更低，很多时候低于当前测序仪可靠性的下限。这就需要我们发展可靠的实验技术和计算方法来增加测序的准确性。cfDNA的作用可以大体分为两个方向：中晚期癌症的用药指导和病程检测，以及早期或超早期癌症的筛选诊断。前一个方向做的比较多，主要是由于ctDNA在中晚期病人中的含量较早期病人要高，所以检测的准确度要高。国内有不少公司都推出了各自的产品，而象凯杰，罗氏等公司也推出了商业化的产品，因而这个方向竞争比较激烈。相比之下，用液体活检做癌症的早期筛选要困难的多，一方面是由于早期癌症中ctDNA含量极低，同时也因为我们整个研究领域对于早期癌症基因组的认识远远不及晚期癌症。最近，在美国和中国都有专注于癌症早筛的初创公司的成立，最有名的就是从Illumina脱离出来的Grail公司，最近融资了9亿美元。他们的目标是通过和美国各大癌症中心合作来进行大规模的临床试验，通过超高通量测序来开发在无症状人群中的泛癌症(pan-cancer)的早筛技术。Grail还未披露具体发展计划，所以我无法进行更具体的评论。但是相对于他们的计划，我更倾向于首先在特定高危人群中发展针对特定癌症的早筛技术。比如在乙肝或者丙肝病人中筛查肝癌，在有家族史或大肠息肉史的病人中筛查肠癌，以及在吸烟人群中筛查肺癌等等。通过发展这些技术取得的数据和经验，可以帮助我们最终推广到无症状人群中的筛查。在这个过程中，重要的一点是，无论技术多么精深，在用于临床前，一定要经过大规模的人群队列验证，尤其是早期癌症甚至临床诊断前的样本的验证。很多肿瘤在其早期和晚期会有非常不同的基因组特征，所以基于晚期肿瘤开发的手段在早期筛查并不一定有效。总起来讲，虽然液体活检在肿瘤早筛这个方向仍有相当大的技术和验证方面的难点需要克服，但是我坚信在未来的几年内这个方向的发展会有突飞猛进的进步，有着巨大的研究，临床，以及商业上的前景。

三、miRNA作为肝细胞癌生物标记

基因慧：去年6月，您和Chun Wang博士一起发表了关于循环miRNA作为乙型肝炎中肝细胞癌预测的生物标记[2]，请您谈谈这一研究的进展和意义，特别的，如果应用临床诊断标记，相对于DNA，miRNA的稳定性较差，小片段较小，这会有什么影响呢？

杨教授： 我的实验室很早就开始了miRNA相关的研究。在我们的研究之前，已经有少数文献报导寻找循环miRNA来作为乙肝人群中肝癌的标志物。但是不少研究包括了不少晚期病人的样本。如我前面所讲，很多在晚期肿瘤中明显的标志物在早期肿瘤中并不明显。更重要的是大多数研究使用的是癌症诊断后获取的血液样本，这样的研究结果会受到流行病学中所谓的反向因果关联(reverse causation)的限制，简单来说就是，我们并不清楚癌症诊断后样本里面标志物的变化到底是癌症的成因还是癌症的后果。针对这些问题，我们做了一个探索性的前瞻性研究，集中分析了以前文献报道中的miRNA在我们收集的部分前瞻性血液样本里面的表达，然后分析了每个miRNA和肝癌发生的关联。我们发现只有一部分miRNA与肝癌发生有关联，而关联的强度也大多弱于文献里的报导。我们基于这些miRNA建立的统计模型的预测能力虽然比临床常用的甲胎蛋白为高，但并不能达到一个令人满意的地步。这个研究进一步验证了使用早期肿瘤样本甚至是临床诊断前样本对于开发癌症早筛技术的重要性。同时也启示我们如果要发展超高准确度的早诊技术，我们很可能需要使用来自不同方面的数据，例如多维组学，来进行整合分析（integrative analysis），因为每一个维度的数据可能会带给我们独立的，互补的信号。多维数据的整合分析有可能会对早筛技术产生叠加和协同的效用而增加技术的灵敏性和特异性。我们预测miRNA很可能会为这种整合分析提供重要的信息。miRNA确实没有DNA稳定，但是由于miRNA片段小，其比mRNA要稳定的多。我们的经验是，正确提取和保存的miRNA可以相对稳定保存较长时间，有相当的研究价值。但是，在实验设计上，需要有所注意来控制批次效应(batch effect)和保存时间等混淆因素(confounding factor)对结果产生的影响。

HCC: hepatocellular carcinoma; AFP: alpha-fetoprotein; CI: confidence interval; C-index: concordance index.

图：miRNA作为生物标记预测HCC五年变化情况源：http://www.impactjournals.com

四、机器学习和精准医疗

基因慧：您谈到：“大样本量数据的长期回顾，机器深度学习将改变传统基因数据分析的套路”。深度学习作为机器学习中的前沿算法，应用到基因数据分析时，取得了很多进展，也有不少临床医生对此不了解，可否请您举出1-2个实例介绍下？同时，机器学习所需要已知数据的训练集，您认为如何收集和构建才能提高最后建模的准确率呢？

杨教授： 近年来我和李冰山教授的合作有很大一部分精力集中于基于大数据的机器学习来发展癌症早筛的模型。李教授在这个过程中起着重要的主导作用。近些年机器学习有飞速的发展，特别是深度学习，已经具有在临床上广泛应用的可能。比如深度学习用在海量的皮肤癌的影像数据训练出来的模型可以具有和临床专家一样的诊断及分型的准确度，这是很了不起的。类似的技术很快会用在临床上来辅助诊断，将大大提高医生的效率和准确度。对于基因组数据的分析，机器学习，特别是深度学习，更多的还处在科研阶段，主要是因为基因组及其复杂，目前我们还没有对基因组的功能有深入的了解。随着基因组学数据不断的产生和积累，深度学习也已经开始显示出它独到的处理海量基因组数据的超强之处。主要的应用之一是来注释我们人类基因组的30亿个碱基对功能的影响，来辅助个人全基因组的解读，包括对疾病的预测，诊断和干预。一个很好的例子就是Deep Genomics公司通过深度学习来预测遗传变异对RNA剪切的影响以及与相关疾病的关系。现在这些应用更多的是从基因组功能的角度出发，而真正的要达到深度学习在临床上的应用我们需要的是基因组和临床紧密结合的大数据。在收集和构建这些数据的策略上，我认为我们应该注重以下几点。第一是数据的相关性。如我之前强调，如果做肿瘤早筛，那么早期肿瘤或临床诊断前的数据要有效于中晚期肿瘤的数据，而早期的纵向性的样本数据更是关键。第二是数据的规范性。基因组机器学习的结果得益于大数据的数量，而很多时候基因组的大数据需要从很多不同来源得到。那么如何规范，协调，和整合这些有着不同来源和不同研究目地的数据来控制其中可能产生的干扰因素对于最终的分析结果有直接影响。第三是数据的维度。对于癌症这样一个成因极其复杂的多因素疾病，单一组学的数据不容易达到极高的预测性能。而将多维度的数据整合到一起可能会对发展临床有效的早筛技术起到重要的影响。我们在自己的机器学习技术发展过程中，同时利用了公共数据库和我们自己产生的很多针对早筛研究的特定的cfDNA相关的测序数据。两者的结合使我们既充分利用到了海量的公共研究成果，又得益于我们特有的样本和数据，对我们提高预测模型的准确率起到了重要的作用。当然在这个过程中需要考虑计算的复杂性和技术的成本。在首先保证准确率的前提下，随着测序技术和分析手段的进一步发展，这些局限都会逐渐被克服。

图来自：http://truthisscary.com/

五、《NGS创新开发者大会》演讲预告

基因慧：欣闻您在3月31日将来杭州《NGS创新开发者大会》上做一场精彩的学术报告，可否给基因慧读者略微透漏下在大会上您演讲内容的概要呢？

杨教授： 演讲的主要内容是我们使用全基因组cfDNA的低频测序做的肝癌早筛方面的数据分析。我非常期望在大会上和同行们一起探讨和合作发展癌症早筛的技术，为帮助控制中美两国的癌症发病和死亡率做出我们的贡献。

参考资料：

1.Cristofanilli, M., Budd, et.al“Circulating Tumor Cells, Disease Progression, and Survival in Metastatic Breast Cancer” N Engl J Med (2004): 351:781-791. DOI: 10.1056/NEJMoa040766.

2. http://www.impactjournals.com/oncotarget/index.php?journal=oncotarget&page=article&op=view&path%5B%5D=9429&path%5B%5D=29220

3. http://www.jefferson.edu/university/jmc/departments/medical_oncology/faculty/yang.html/publications

《第四届NGS创新开发者大会》精彩预告

时间	内容	嘉宾
上午丨 NGS创新开发者大会
08:00-09:00	大会签到
09:00-09:10	主持人开场
09:10-09:15	主办方致辞	主办方
09:15-09:20	领导致辞	政府领导
09:20-09:45	Single Molecule Electronic DNA Sequencing by Synthesis Using Tagged Nucleotides and Nanopore Detection	鞠景月教授 Center for Genome Technology and Biomolecular Engineering, Departments of Chemical Engineering and Pharmacology, Columbia University
09:45-10:10	稳定高效的新型纳米孔测序分子MspA	刘全俊教授东南大学
10:10-10:35	基于高通量测序的系统解决方案	刘健华大智造仪器开发总监
10:35-11:00	智能加样高通量单分子基因组结构变异检测平台Saphyr	曹涵博士 Bionano创始人兼首席科学家
11:00-11:25	体液样本中高通量稀有单细胞自动分离与单细胞测序应用	施奇惠教授上海交通大学
11:25-11:40	启动仪式
11:40-13:00	午餐
下午丨 NGS创新开发者大会
13:00-13:15	主持人开场
13:15-13:40	Universal Haplotype-Based Noninvasive Prenatal Testing for Single Gene Diseases (单基因疾病无创诊断的通用方法)	江培勇教授香港中文大学
13:40-14:05	不依赖高通量测序的无创产前NIPT	刘超博士天昊生物医药（苏州）有限公司首席科学家
14:05-14:30	全基因组cfDNA智能数据分析在癌症早期筛选中的应用	杨虎山博士费城Thomas Jefferson大学Sidney Kimmel癌症中心
14:30-14:45	茶歇
14:45-15:10	基于DNA甲基化的高灵敏度肿瘤液体活检	刘蕊博士上海鹍远基因CTO
15:10-15:35	基于循环肿瘤DNA的肿瘤早期检测	刘朝煜博士深圳因合生物CEO
15:35-16:00	寻找第二代个人基因组产品成功之路	徐兴博士 Genos创世团队成员、生物信息产品总监
16:00-16:25	医疗健康创新与落地---基因与表型的连接	顾卫红博士中日医院运动障碍与神经遗传病研究中心负责人、CHPO总协调人
16:25-16:50	黄金十年——国内外基因企业布局梳理	汪亮基因慧创始人兼CEO
16:50-17:35	圆桌论坛	嘉宾敬请期待
17:35-18:00	大会主议程结束，嘉宾合影
晚上 \| 君联-NGS创新开发者之夜（晚宴）
18:00-18:10	主持人开场
18:10-18:20	主办方致辞	协会代表
18:20-18:40	晚宴祝酒辞	君联资本
18:40-19:00	主题演讲（专业领域）	王学刚贝壳社创始合伙人
19:00-19:20	主题演讲（医疗机构）	郑杰树兰医疗产业基金
19:20-19:25	暖场表演	协会文艺代表
19:25-19:40	颁发NGS创新开发者大奖
19:40-19:50	主题演讲（投资分析）	普华资本
19:50-20:00	主题演讲（行业分析）	东方证券
20:00-20:15	主题演讲（行业报告）	嘉宾敬请期待
20:15-20:30	自由交流

（注：以当天日程为主）

Connection is power使连接产生价值基因慧 GeneClub

每日国内外精准医疗资讯：《GeneMail》
每周深度采访行业大咖：《大咖论健》
每月录制行业三人谈：《基因三人行》
每季度出行业报告：《慧眼研究》

声明

1. 以上内容是基因慧独立策划、编辑成文。版权属于基因慧，在尊重版权情况下，欢迎转发。转载请注明：来源于基因慧。

2. 基因慧是一家第三方独立的行业信息服务和知识服务公司，我们秉持客观、严谨、中立的态度，从多方渠道收集并发布信息，供行业参考。但受收集当时信息公开的时效性，不同渠道存在不同见解，不能完全保证信息的完整性和准确性，如有错漏之处，欢迎指正。

行研、咨询、会议、品宣等服务：

电话：010-56527551 / 400-088-7466地址：北京市海淀区中关村大街1号官网：www.geneclub.net.cn邮箱：info@genonet.cn

基因慧

精准医疗

行业连接器

长按关注

点击“阅读原文”，更多分享。

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！