整天泡实验室已经out了，会写代码才是不被淘汰的关键

查看原文

其他

整天泡实验室已经out了，会写代码才是不被淘汰的关键

科研圈 2019-04-03

下一代基因测序等新的生物医学技术正在制造海量的数据，改变这个科学领域。这一趋势带来了过去无法想象的突破，也让研究人员不得不奋起直追，好赶上先进技术的步伐。

图片来源：Dávid Biró for Mosaic

撰文 Tom Chivers

翻译贾晓璇

审校/编辑戚译引

安妮·柯克兰（Anne Corcoran）说：“这让我感觉自己老了。”她是位于英国剑桥的人类生物学研究中心——巴布拉汉姆研究所（Babraham Institute）的一名科学家。柯克兰带领的团队在研究人类基因组与免疫系统、尤其是抵御感染的抗体之间的关系，

用她自己的话说，她是一个“老派生物学家”，练就了一身使用移液管、培养皿和护目镜的技术，那种坐在板凳上摆弄瓶瓶罐罐的工作被称为“湿实验”。回想自己早年的职业生涯，她说：“我很清楚凝胶上的基因长什么样。”

图片来源：Dávid Biró for Mosaic

现如今仅有这些技能是不够的。柯克兰说：“十五年前我开始招博士的时候，他们全是擅长湿实验室技术的。但现在我们招博士生的时候，首先考虑的是他们能不能处理复杂的生物信息分析。”现在，要想成为一名生物学家，你还得是个统计学家，甚至是程序员。你得会写算法才行。

算法本质上是一组指令，即一组预先定义的步骤。菜谱也可以被视为一种算法，当然更明显的算法是计算机程序。你确定了输入，食材、数字或者随便什么，一步步运行算法（可以像“对每个数字加一”那么简单，也能像谷歌的搜索算法那么复杂），就能得到输出：蛋糕、搜索结果，或者一个 Excel 电子表格。

像柯克兰这样的研究者们需要用到算法，在她担任团队领导者的 17 年中，生物学发生了天翻地覆的变化。引发改变的原因，正是随生物医学技术，尤其是新一代测序技术发展而产生的海量数据。

不久之前，对整个基因组进行测序、确定 DNA 螺旋中所有 30 亿个碱基对的顺序还需要花费数年。人类基因组计划（The Human Genome Project）首次确定了人类全套基因组序列，它从提出到 2003 年结束共耗费了 13 年时间、20 亿英镑（约合人民币 180 亿元）。而现在，新一代测序技术仅需 24 小时就能完成同样的工作，花费不超过 1000 英镑（人民币 9100 元）。

这完全改变了科学家的工作方式。这不仅意味着他们需要干的脏活变少了，需要具备的技能改变了，更意味着科学的整个过程，即从产生想法到完成验证，都已经被颠覆。

许多年长的科学家都得了解之前没有接触过的技术，还得对学生进行指导。那些原本没有教授现代生物学所需技术的学校也在你追我赶，争相开设相关课程。但最重要的是，这些技术的出现为科学发现带来了突破性的进展，这是在 20 年前、甚至 10 年前根本不可能实现的。

全基因组关联研究

从巴布拉汉姆出发，只需十分钟车程，就能到达欣克斯顿村（Hinxton），这里坐落着另一个重要的生命科学中心，维尔康姆基金会桑格研究所（Wellcome Sanger Institute）。它最近满 25 岁了，这里的一砖一瓦都记录了基因组学的飞速发展。

桑格研究所旁边就是欧洲生物信息学研究所（the European Bioinformatics Institute），目前在这里工作的莫里茨·格斯登（Moritz Gerstung）回忆起往事，笑了出来。他说：“我的博士后研究就是在桑格做的。你几乎一眼就能看出这建筑是什么时候设计的，用来做实验的空间特别大，但是可以让科学家们在电脑前坐着分析数据的地方却没有多少。”

牛津大学大数据研究所（Big Data Institute）的统计遗传学教授吉尔·麦克维恩（Gil McVean）表示，这点在哪儿都一样。如今，基因组研究的大部分工作都是在电脑上完成的，很少会用到实验台。他说：“那些成立十五年以上的研究所里，90% 都是湿实验室，但如果你进去看看，就会发现几乎让人人都坐在电脑前。现在建立的生物医学研究中心里，仅有 10% 的湿实验室，其他 90% 都是电脑计算实验室。”

这并不是唯一的变化。麦克维恩认为：“科学界一个重大的变化，是人们渐渐抛弃之前那种专一、有针对性、假设引导的模式，即那种‘产生想法、设计实验、进行实验、验证结果’的模式。”

图片来源：Dávid Biró for Mosaic

在过去，你必须事先对某个基因可能起到的作用作出基本可靠的设想，也就是说，要对其生化作用通路展开合理的想象，判断这个基因与某一疾病或特征的关联。耗时的基因测序以及有限的电脑计算能力意味着，为了节约时间和金钱，在实验之前你就要明确自己要找的是什么。

但现在，你只需要收集大量的数据，让数据决定假设是什么，麦克维恩说道。如果你有 10000 个某种疾病患者的基因组和 10000 个健康人的基因组数据，那么你就不再需要提前甄别出可能有关的基因，只要写一个算法来比较这些数据，分析两组的差异，然后找出与疾病有关的基因就行了。

这就是全基因组关联研究（genome-wide association study），数据驱动时代一种常见的分析形式。理念很简单，就是从一大群人中获取基因组信息，进行测序，然后用算法来比较所有的 DNA。要比较的信息不仅包含大约 2.4 万个编码 DNA（即基因，只占基因组中的 1-2%），还包括那些目前仍然保持神秘的未编码 DNA。算法也很简单：例如，比较特定 DNA 突变在具有某种特征和不具有这种特征的人群中出现的频率。如果这个突变在具有某种特征的人群中出现的频率显著高于预期，算法就会将其标记出来。

这种做法的难点在于，疾病大都很复杂，涉及成百上千个基因或未编码 DNA 片段。因此，复杂的多维分析很快应运而生。虽然不会用到新的数学知识，但在如此庞大的任务中，算法必不可少。应用算法，通常能一次比较几十个到数百个参数。

这和谷歌的搜索算法有点相似。对网页进行排序的过程并不复杂——比如检测你的搜索关键词在页面上出现的频率、位置，以及到该页面的链接数量等。但算法能够结合数百种方法，同时完成数十亿网页的检测，这是人力不所能及的。

癌症基因组

算法的应用给人来带来了巨大的便捷。格斯登的研究领域——癌症基因组学可能是受益最大的领域之一，比如在白血病方面。

在某些情况下，这种给人致命打击的疾病可以通过骨髓移植完全治愈。不过骨髓移植是一场大手术，它带来的并发症也可能导致病人死亡。只有在无计可施的时候，医生才会对白血病患者进行骨髓移植。

然而，预测哪种白血病最为致命十分困难。白血病的症状非常复杂，医生不一定能够据此推断出准确的预后。

因此，格斯登团队的研究对 1500 名癌症患者的基因组进行测序，找出相关的 DNA 突变，然后判断这些突变分别对应哪些症状。他们共找到了 5000 种不同的突变和约 1000 种不同的组合，然后将这些组合按死亡风险的高低分为 11 类。格斯登表示：“这能让临床医生做出更准确的决定。”

数据驱动带来的影响还要比这大得多。南安普敦大学（University of Southampton）癌症免疫学教授埃德·詹姆斯（Edd James）认为，对肿瘤基因组进行测序已经在癌症治疗方法中引发了“思维转变”，“癌症不只是一大堆复制的细胞，如今我们对这一事实感到更加庆幸”。

图片来源：Pixabay

一种癌症可能会包含数十种不同类型的细胞，每种细胞又有不同的 DNA 突变组合，需要使用不同的药物进行治疗。所以基因测序让临床医生能够对他们的病人（和肿瘤）选择更有针对性的药物。詹姆斯说：“以前，治疗都是针对人群的，‘X% 的病人在接受这种治疗后会有好转’，但有了基因测序的信息之后，你能判断每个个体是否适合这种治疗。”

除了发现差异，基因测序也能反映不同癌症之间的共性。詹姆斯说，历史上，癌症根据解剖部位来定义：如肺癌、肝癌、头颈癌等，“但应用新一代测序技术，你会发现有些不同部位癌症之间的共同点比同一部位之间的还要多。这让我们意识到，某些癌症（如乳腺癌）的特效药也许能治疗其他部位的癌症。”

格斯登支持这个观点：“从遗传学角度看，不同解剖部位的癌症存在大量重叠。甚至有人在某些前列腺癌中发现了 BRCA1（一种与乳腺癌密切相关的基因）。”

这种相似性也变得愈发重要。美国食品药品监督管理局（Food and Drug Administration）最近批准一种抗癌药物——派姆单抗（pembrolizumab）——用于治疗任何出现错配修复缺陷（一种 DNA 修复错误）迹象的癌症，这标志着按基因而不是发病部位治疗癌症的药物开始获批。

这一切都归功于不断涌现的数据流。

从生物到编程

桑格研究所研究致病菌基因组的数据科学家妮可·惠勒（Nicole Wheeler）表示：“我们很善于生成数据，结果得到了过多的数据。”麦克维恩也表示赞同：“根据摩尔定律，计算能力每 18 个月能翻一番。通过基因组测序和医学成像、数字病理学采集到的生物医学数据增长速率比这还要快。生物医学数据遵循的是‘超级摩尔定律’。”

在本世纪初，生物学家自己检查数据还是一件完全不可能的事。这也就意味着生物学家要么聘用专人，要么自己成为数据科学家。

安妮·柯克兰说：“几年前我们遇到了瓶颈。我们有许多数据，却不知该如何处理。由此算法应运而生，处理数据，使其发挥最大价值。如果研究一个或几个基因，还可以手动计算；但如果你要研究两万个基因表达，手动统计根本不现实。”

许多生物学家都像柯克兰一样，在实验台和玻璃器皿之间成长起来，而不是电脑和办公桌旁——他们不得不学着使用这些算法。柯克兰说：“我觉得年长的科学家常常被算法吓倒，他们比对年轻的同事可能会过于依赖，或者更愿意承认这点。”

柯克兰发展出了关于算法原理的 “实用知识”，但她也承认，“这是一个有些脆弱的时期，团队领导看不懂下属们做的工作。”

柯克兰在巴布拉汉姆研究所的同事沃尔夫·瑞克（Wolf Reik）对此表示同意。瑞克领导着一个表观遗传学研究团队，他说，老一辈科学家的思考方式完全不同，“这点很有趣——开组会的时候，我的员工会把基因组当做一个整体来思考问题；而我会分析单个基因，然后进行归纳，因为这就是我受到的思维训练。”

他认为，对处在他这个位置的人来说，理解新一辈科学家的工作很关键，“最关键的是要对如何使用算法工具形成直觉理解……毕竟工作中最后会有我的署名。”

图片来源：Pixabay

另一方面，年轻科学家在数据环境下长大，而且其中一些人之前就接触过相关知识。格斯登本科学的是物理，不过有些团队负责人也是如此，如麦克维恩。但一些原本学习生物的人现在却学起了编程。在桑格研究所研究基因型与人类不同表现型关系的博士后蔡娜（音，Na Cai）说：“我本科学的是生物，那才是我的专业领域。”

“而现在我每天做的是统计分析。这就像学习一种或几种新的语言一样，我得把之前大脑中生化路径和流程图的思维方式，转化成一种更结构化的编程思维。”

与她共事的那些年长科学家都“挺跟得上发展潮流”，她说道，“他们可能自己不会写代码，但是能看懂写好的代码能做什么分析。”

蔡娜的同事惠勒也是生物学出身，后来学起了编程。惠勒说：“我没有传统的软件工程背景，我是边读博士边学了编程。（我编的程序）不是最高效的，也不是最迷人的，但编程的目的是明确你要进行怎样的计算，然后实现它。”

为了满足这些需求，这几年本科学位发生了很大变化。比如，纽卡斯尔大学（Newcastle University）在生物系本科课程中增设了生物信息学。雷丁大学（Reading University）的毕业设计课题中也包含了计算生物学，不过学生们很少在前几年选修计算课程，所以他们会在最后一年“临时抱佛脚”。伦敦帝国理工学院（Imperial College London）已经开设了生物信息学课程，正计划给大一大二学生增设编程课。惠勒说：“我觉得人们已经认识到，生物学涉及的数据比过去要多得多，因此人们需要具备处理这些数据的技能。”

但是，改变过程很慢，而且有时候会受到学生们的抵触，毕竟有些人选择生物可不是为了学编程。柯克兰表示：“我只能说本科课程正在追赶这一趋势，但总体而言还没赶上，从计算机相关硕士课程的激增就能看出这点。”

当然，改变还是必要的。即使是那些最需要做湿实验工作的科学家，在接受采访时也表示他们做实验的时间比以往减少了 50%；更有一些人表示，这一比例已经降到了 10%，例如蔡娜的例子，自从专门研究生物信息学以来就根本就没做过湿实验。

惠勒说，向数据驱动的转变，可以看做是科学从假设-检验到假设-生成的转变。一位不愿透露姓名的科学家担心这会降低科学的创造力，但惠勒认为事实并非如此，她说：“这只是转移了创造力。在某些方面，发挥创造力的空间反而更大了。你能够用相对较低的成本尝试一些疯狂的想法。”

好处还不止这些。位于英国诺福克的计算生物学研究中心——厄勒姆研究所（Earlham Institute）的生物信息学家马特·鲍恩（Matt Bawn）说：“你的思路可能会被假说限制。最好是做一个没有先入之见的公正观察者，等待画面从空白的画布中浮现出来。”

但最大的好处是，数据驱动的研究总能在之前无法探究的复杂领域，提出迷人的新发现。

算法与DNA

斯蒂芬·肖恩菲尔德（Stefan Schoenfelder）也是巴布拉汉姆研究所的研究员，研究染色体的 3D 形状及其对基因表达的影响。人类基因组工程完成之时，发现的基因数量远比预想的少——只有 2.4 万个，大约是科学家估计的最小数量的四分之一。其余的 DNA 根本不编码蛋白质。

后来人们意识到，非编码区域的作用之一是调节基因表达：在一些细胞中开启表达，在另一些中关闭表达。它们实现这种功能的方式之一，就是在不同细胞中折叠成不同形状。

人们通常将染色体描绘为“X”形，但它们只有在细胞分裂时才是这种形态。在其他时间里，几乎在所有细胞中，两米长的 DNA 都会蜷曲成复杂的一团。所以，即使某段 DNA 与染色体上的基因相距很远，它仍能有可能对其起调节作用，因为在实际情况下，两者有密切的物理接触，肖恩菲尔德讲道。“所以研究 3D 状态下的染色体很重要：如果你只观察序列，假设相邻的基因才会受到调节，常常会得出错误的结论。”

最重要的是，染色体折叠的方式很不一样，肖恩菲尔德说。“相同的基因组，在T细胞中与在肝细胞和脑细胞中的构象都不一样，因此它们表达的基因不同，细胞的功能也不同。”

研究各个情况下染色体的 3D 形状是很困难的，这涉及细胞类型的测序，和发现其与其他细胞类型的差异、分析是哪段 DNA 产生了相互作用。但首先，需要用一种被称为交联和连接的复杂技术处理 DNA，进行测序，从而判断哪些 DNA 片段是相近的。如果两段原本相距很远的 DNA 在细胞核中紧密相邻，那有可能这种折叠方式就是为了方便其中一个基因调控另一个。但在更普遍的情况下，这只是 DNA 随机缠结的结果。

图片来源：Dávid Biró for Mosaic

要从噪声中分辨出真正起作用的关联段，需要对数十亿数据进行分析，找出那些出现频率较高的基因连接片段。这就需要算法发挥作用了。一旦找到染色体中哪几对片段有相互接触，你就可以在此基础上用其他算法进行 3D 建模了。

肖恩菲尔德说：“这整个领域只有 15 年的历史。”他还说，在这之前，“我从来没考虑过基因组的形状，我认为它就像一团塞入细胞核的意大利面。而它到底怎样塞入直径大约 5 微米的细胞核中，我觉得这只是怎么安排的问题。”

“让我震惊的是结构微调，即使在这种极度压缩的条件下，结构微调依然存在。”染色体的 3D 形状，以及这种形状的染色体中哪些基因会对另一些起调控作用，将告诉我们人类体内的 200 多种细胞是如何产生的。

与此同时，麦克维恩指出，基因组研究迫使临床医生对多发性硬化（multiple sclerosis）这种疾病完全重新分类。他说：“我们发现了 250 多个增加患病风险的基因片段，由此可以对个人的患病风险作出较准确的判断。这些基因还使我们发现了它与类风湿性关节炎等疾病的重合之处：某些增加多发性硬化患病风险的基因，也会降低类风湿性关节炎的风险。”

麦克维恩接着说：“因此我们发现，尽管多发性硬化表现出神经退行性疾病的症状，它其实是一种自身免疫性疾病。目前已有四五家公司基于这一判断推出了新的治疗方案。”

巴布拉姆研究所的伍尔夫·瑞克还有个令人激动、甚至有点科幻的故事要讲。他研究表观遗传学，观察细胞的化学环境如何影响基因表达。他的研究也要对 RNA（一种可以读取 DNA 并制造蛋白质的信使分子）进行测序，了解它在不同细胞中的差异。他们的团队对衰老尤其感兴趣。

五年前，科学家们发现（瑞克的工作也证实了这点），人体所有细胞中都有一个控制衰老的时钟，即 DNA 甲基化（DNA methylation）。DNA 共有四种碱基：C（胞嘧啶）、A（腺嘌呤）、G（鸟嘌呤）和T（胸腺嘧啶）。随着年龄的增长，我们的 DNA 中越来越多的 C 会被打上一个小小的化学标记，叫做甲基。要看懂这个时钟十分简单，数一下甲基数就行了。但这又一次涉及到了庞大的返回数据，只能用算法计算。

里克说：“通过读取这个时钟，我们可以预测你我的年龄，误差不超过 3 年。它的准确度出奇的高，这是我们拥有的关于衰老最准确的生物标记。”

当然，“无论是对老化过程的解读，还是用程序预测寿命”，都非常有意思。但里克认为，这项研究的意义还在于我们可以打断衰老时钟：“我相信未来一定会发展出能够减慢衰老时钟的药物和小分子。”

非凡的革命

通过大数据来获得永生可能有点不切实际，但每一位接受采访的科学家都同意，算法主导、数据密集型基因组研究的兴起已经改变了生命科学。它令老一辈科学家有时会看不懂新一辈同事的工作，也令现代研究中心的实验室变得富余，而能够使用用电脑的办公室变得紧缺。肖恩菲尔德认为，变化的步伐可能会“让人迷失方向”。

他说：“现代生活太复杂了，13 年前我读博士时掌握的技能已经完全跟不上现代科学发展的脚步。”但这些变化给基因组研究带来的影响是正面的。人类基因组工程快要告一段落的时候，大家都特别兴奋，相信解开了基因的谜题后，很多疾病很快就能被攻克。但这些疾病大多涉及多个基因，很是复杂，仅靠研究单个基因是不可能实现的。现在，借助新一代基因测序和筛选数据的工具，攻克这些疾病成为了可能。

肖恩菲尔德说：“现在我每做一个实验，都能得到一两亿个数据点。我之前还以为这辈子也不会出现这样的事，但短短几年就实现了。我们能够解决十年前想都不敢想的问题，这真是一场非凡的革命。”

本文来自微信公众号“科研圈”。如需转载，请在“科研圈”后台回复“转载”，或通过公众号菜单与我们取得联系。原始文章请点击“阅读原文”。

科研圈

ID: keyanquan

点击关注，获取最新动态

你觉得会编程对研究生物学重要吗？

除了编程，想要在生物领域更好地发展还需要哪些技能？

欢迎去我们的官方微博 @领研网 讨论：

关注我们 & 转发置顶微博并说出你的看法，“领研网”会随机抽取 5 名粉丝赠送最新出炉的《环球科学》大脑专刊（这可能是官方微博中奖率最高的活动！趁知道我们的人还不多，快来参加抽奖吧 :P）

▽ 精彩回顾 ▽

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖