正在被AI深刻改变着的科研:从寻找Higgs到治愈疾病
来源 Science News Staff
翻译 雪婷 雷鸣
审校 阿金 谭坤
AI早期试验:搜寻新粒子
早在二十世纪80年代“神经网络”引发公众想象之初,粒子物理学家就盯上了人工智能(AI)。他们的研究领域适用于 AI 和机器学习算法:几乎每个实验都专注于从复杂粒子探测器无数相似的数据输出中找到其微妙的空间模式,这恰恰是 AI 所擅长的。“我们用很多年的时间来让人们相信这不仅仅是魔法、戏法或黑盒子那类的东西,”伊利诺斯州巴达维亚的费米国家加速器实验室(Fermilab)成员 Boaz Klima 说,他也是首批拥护该技术的物理学家之一。如今,AI 技术已然跻身于物理学家的标准工具。
粒子物理学家尝试通过以巨大的能量撞击亚原子粒子得到独特的新物质,以理解宇宙内部的运作机制。例如,2012年科学家使用位于瑞士的世界最大大型强子对撞机(LHC)发现了预言已久的希格斯玻色子(Higgs boson),这个转瞬即逝的粒子正是物理学家解释其他所有基本粒子获得自身质量的关键。
神经网络搜索LHC碰撞碎片中的新粒子特征
图片来源:©2012 CERN, FOR THE BENEFIT OF THE ALICE COLLABORATION
然而,上述独特的新粒子出现时并非自带标签。在 LHC 中,约十亿次的质子对撞才会出现一个希格斯玻色子,并且它在十亿分之一皮秒内就衰变为其他粒子,如两个光子或四个 μ 介子。为了重建 Higgs 粒子的轨迹,物理学家必须检查其他更为常见的粒子,看看重建结果是否与衰变方式一致。——一次典型撞击后的一大群没有关联的粒子使得这项工作变得更加艰难。
费米实验室的物理学家 Pushpalatha Bhat 认为,像神经网络的这类算法很擅长从背景中筛选信号。粒子探测器通常是一个由不同传感器组成的大型桶状装置,光子在其中一个被称为电磁量能器的子系统中往往会产生一簇粒子流或粒子“簇射”(shower)。尽管我们也称电子和粒子为强子,但是它们的簇射与光子的簇射存在着细微差别。机器学习算法通过发现多个描述粒子簇射变量间的关联可以找出其中的不同点。比如,这种算法也可以帮助区分任意一对由希格斯玻色子衰变而来的光子对。“这就像人们通常说的大海捞针,”Bhat说,“所以从数据中提取最有用的信息很重要。”
机器学习并没有接管该领域。物理学家仍主要依靠自身基本的物理认知来判断如何搜索新粒子和新现象出现的数据。但是 AI 很可能变得越来越重要,加利福尼亚州劳伦斯伯克利国家实验室的计算机科学家 Paolo Calafiura 说道。2024年,研究人员计划升级 LHC,将其对撞率增加10倍。到那时,机器学习对赶上大数据的洪流至关重要。—Adrian Cho
算法如何分析大众情绪?
依靠数十亿的社交媒体用户和每年数千亿的推送和转发,社交媒体为社会科学带来了大数据。同时心理学家 Martin Seligman 承认,它也开创了使用 AI 从人类交流中收集信息的先河。在宾夕法尼亚大学积极心理学中心,他和20多名心理学家、物理学家及计算机学家在世界幸福工程(World Well-Being Project)项目上使用机器算法和自然语言处理筛选大数据,评估公众的心理及生理健康情况。
传统的方法是通过调查。但是社交媒体数据“无干扰性,成本低,得到的数量级更大,” Seligman 说。同时,它也很混乱,但是 AI 为揭示数据模式提供了强有力的方式。
在最近的一项研究中,Seligman 及其同事考察了 Facebook 上29000名做过抑郁自测用户的更新信息。利用28000名用户的数据,机器学习算法找到了他们更新信息中的词语和抑郁等级间的联系。之后就可以仅仅依据用户的更新,就可以成功地评估出他们抑郁等级。
而在另一项研究中,团队通过分析1.48亿条推特预测出县级地区的心脏病死亡率;与生气和消极人际关系相关的词语被证明是高危因素。和基于吸烟、糖尿病等10项高危因素的预测相比,从社交媒体得出的预测更接近真实死亡率。研究人员同样使用社交媒体预测性格、收入和政治思想,研究住院治疗、神秘经历和定型倾向。该团队甚至依据推特的数据,按照幸福感、抑郁度、信任感和五大性格特质等制作了一张美国各县的彩色地图。
“分析语言与心理的关系已经成为一场势在必行的革命。”奥斯丁市德克萨斯大学的社会心理学家 James Pennebaker 说道。他关注的不是内容,而是风格,比如他发现大学入学申请论文中功能性词语的使用能够预示成绩。冠词和介词暗示了分析性思维,预示着更好的成绩。代词和副词暗示叙事性思维,预示着较低的成绩。他还找到了支持1728年出版的戏剧《双重背叛》(Double Falsehood)大部分是由莎士比亚撰写这一说法的证据:机器学习算法依据认知复杂性和罕见词汇,将该剧本与莎士比亚其他的剧本进行比对并发现它们是吻合的。“现在我们可以分析你曾经转发、推送的一切,逐渐知道你和 Alexa 是如何谈话的,” Pennebaker 说。最后得到的是:“关于人类真实面目越来越丰富的图像。”—Matthew Hutson
从基因上寻找孤独症的根源
对遗传学家来说,孤独症是一个烦扰的挑战。遗传模式显示基因组对孤独症影响巨大。但是很多对孤独症起作用的变异基因只能解释其中20%的案例。找到其他的变异型基因或许能为从25000种其他人类基因和相关 DNA 数据中寻找线索提供条件——这是一项人类势在必行的调查任务。所以普林斯顿大学计算生物学家 Olga Troyanskaya 和纽约西蒙斯基金会支持使用 AI 工具。
“我们能做的也只能跟生物学家一样多,努力展示孤独症等疾病背后的根源。”项目合作者、纽约基因中心创始人、纽约洛克菲勒大学医师 Robert Darnell 解释说,“科学家只能问十个问题的地方,机器可以问一万亿个问题,这就颠覆了我们的游戏规则。”
人工智能工具正在帮助我们揭示成千上万可能与孤独症有关的基因
图片来源:BSIP SA/ALAMY STOCK PHOTO
Troyanskaya 把数百组数据集整合起来,这些数据包括:在特定人类细胞内基因的活跃表现、蛋白质互作关系、转录因子的结合位点及其它关键基因组特征的定位。她的团队运用机器学习建立基因互作图谱,并把少数已经确认的孤独症基因与其它成千上万未知的基因相比较,从中寻找相似点。他们标记了出另外2500个很可能与孤独症有关的基因,去年在 Nature Neuroscience 报道了这项成果。
然而遗传学家近期发现,基因并不是单个起作用,它们的行为受到附近数百万非编码碱基的约束,这些碱基同时与 DNA 结合蛋白及其它因子相互作用。识别哪些非编码基因变体可能影响附近的孤独症基因,是一项比发现第一顺位基因更加棘手的问题。普林斯顿 Troyanskaya 实验室的研究生 Jian Zhou 正在运用 AI 解决这一难题。
Zhou 利用“ DNA 元件百科全书”和“表观基因组路标”所收集的数据训练他的深度学习系统,这些数据描述了数万个非编码 DNA 位点如何影响邻近基因。事实上,该系统已经学会寻找相关特性,用以评估非编码 DNA 未知的潜在活动。
2015年10月 Zhou 和 Troyanskaya 在 Nature Methods 描述了这套称为“DeepSEA”的深度学习系统。加州大学尔湾分校计算机专家 XiaohuiXie 称赞它为“深度学习应用于基因组学的一个里程碑”。目前普林斯顿研究组正在运用 DeepSEA 研究孤独症患者的基因,希望对非编码碱基产生的影响效果进行排序。
Xie也在运用 AI 研究基因组,但所关注的范围并不限于孤独症。他希望把各种基因变异分门别类,以有害几率作为分类标准。不过他提醒我们,在基因组学领域,深度学习系统只能做到跟训练它的数据一样好的程度。“我想目前人们还在怀疑”这样的系统能否可靠地解析基因组,他说。“但我认为今后会有更多人愿意展开双臂接纳深度学习。” —Elizabeth Pennisi
机器成就天空之眼
今年四月,天体物理学家 Kevin Schawinski 在推特上贴了四张朦胧的星系图片,顺带一个请求:天文学同行们可否帮他把这些图像分类?他的同事回复说,这些图像看上去好像我们熟知的椭圆星系和螺旋星系。
有些天文学家怀疑这是擅长计算机的 Schawinski 设下的圈套,所以直截了当地问他,这是真实的星系,还是计算机模拟出来的相关物理模型?其实两个都不是,他回答说。在瑞典的苏黎世理工学院,Schawinski 与计算机专家 Ce Zhang 以及其他合作伙伴运用神经网络构造星系。神经网络对物理一无所知,只是好像对星系的性状有深刻的了解。
Schawinski 只想通过推特确认神经网络的造物如何令人信服。不过他有更远大的目标。如同电影里那种能锐化模糊的监控图像的魔幻技术,他想开发一套神经网络系统,使得模糊的星系图像看上去比实际更清晰,好像是性能更好的望远镜拍摄出来的那样。这能方便天文学家从实际观测图像中找到更细微的细节。“数亿甚至数十亿美金已经砸到太空观测上面” Schawinski说,“运用这项技术我们能够提取更多信息。”
Schawinski 贴在推特上的赝品由生成对抗网络所造。生成对抗网络是一种深度机器学习模型,内含两组彼此对抗的神经网络,一组生成星云图像,另一组是鉴别器,全力寻找图像中所有可能的缺陷,让生成器不断修改操作,以此达到自我优化。Schawinski 的团队找了数千幅真实的星系图像,人为降低它们的权重系数,然后训练生成器重新美化这些图像,使其绕过鉴别器的审查。结果在锐化模糊星系图片方面神经网络超越了
47 32213 47 15287 0 0 1885 0 0:00:17 0:00:08 0:00:09 3310它的同类技术。
“熟知”星系性状的AI把模糊的星系图像(左)转变为清晰的图像(右)
图片来源:KIYOSHI TAKAHASE SEGUNDO/ALAMY STOCK PHOTO
伊利诺斯州巴达维亚费米国家加速器实验室天体物理学家 Brian Nord 说,Schawinski 的方法是机器学习用于天文学的先锋典范,但并不是唯一。在美国天文学会一月份的会议上,Nord 提交了一份机器学习捕捉强引力透镜效应的研究战略:遥远星系图像穿越弯曲的时空到达地球的途中,会在天空形成罕见的光弧。引力透镜效应可用于测量宇宙间的距离,以及发现不可见的暗物质。
人类可以轻松分辨与众不同的强引力透镜效应,但对于传统计算机却十分艰难,因为我们很难用简单的数学法则来描述。Nord 等人发现,神经网络经过数以千计训练之后可以获得与人类相似的直觉。接下来一个月,“用某种机器学习手段探索强引力透镜效应的论文实际上已有一打之多。如同龙卷风。” Nord说。
人工智能为 PB 级大数据挖掘提供了一种强大的手段,不过相比它在天文学领域日益广泛的应用,这只是冰山一角。“我想我们将在人工智能这条路上展开实实在在的发现之旅,在这样一个时代:‘哦,上帝,我们拥有的数据太多了!’” Schawinski 说。—Joshua Sokol
神经网络学习化学合成的艺术
有机化学家擅长逆向作业。就像大厨首先想象一道制成的菜品,然后研究它的烹制方法;很多化学家从他们需要制作的最终分子结构出发,揣摩如何把它们组装出来。“你需要正确的材料,以及正确的烹饪方法,” 德国明斯特大学研究生 Marwin Segle 说。MarwinSegle 等人正在把人工智能(AI)引进他们的分子厨房。
他们希望 AI 帮助他们应对分子合成的关键难点:从几百种构件单元以及数千种把它们链接起来的化学法则中做出选择。几十年来,化学家煞费苦心地运用已知化学反应编写程序,希望创建一套系统,能够迅速计算最简易的分子合成工艺。然而,Segler 说,化学“极其微妙,我们很难用二进制把化学法则全部记录下来。”
于是 Segler 转向 AI,连同明斯特大学计算机专家 Mike Preuss 及 Segler 的 导师 Mark Waller 一起。他们没有在复杂快速的规则中为化学反应编写程序,而是设计了一套神经网络深度学习系统,让它遍历数百万样本,自己研究化学反应的进程。“提供给它的数据越多,它的学习能力越强。”Segler 说。经过一段时间之后,神经网络学会了为分子合成的预想环节预测最佳反应流程。从零基础开始,最终它找到了自己的分子合成工艺。
对照传统分子设计程序,三人小组通过40种不同靶分子测试神经网络,结果在2小时的计算窗口中,传统程序有效计算时间为22.5%(这段时间成功获得靶分子合成方案),而AI的有效时间达到95%。他们在今年的一次会议上汇报了这一成果。Segler 不久将去伦敦一家制药公司任职,准备运用这项技术改进药物生产。
加州帕洛阿尔托斯坦福大学有机化学家 Paul Wender 说,现在就说 Segler 的方法如何有效还为时过早。不过同样把 AI 用于分子合成的 Wender 认为,AI 的功用并不局限于合成已知分子,在探索未知分子合成方法的研究中它也会“产生深远的影响”。Segler 补充说,AI 不会在短期内替代有机化学家,因为除了预测化学反应将如何进展,化学家还可以做更多。AI 好比是化学的 GPS 导航系统,擅长发现一条路线,但凭它自己的力量,还没有能力设计分子,并完成全套合成工艺。
当然,AI开发者同时也在关注其它课题。—Robert F. Service
阅读更多
▽ 故事
· 诺贝尔生理学或医学奖刚刚出炉!三位美国科学家因“生物钟”研究获奖 | 附长文详解“人体生物钟”
· 6000美元一斤的“人造肉”即将上市:历经60年研究,你敢吃吗?
· 读博第4年换导师、第8年发表第1篇论文:一个中国留学生的曲折科研路
· 大部分药物对男性效果更好,医学研究的性别偏见让女性“无药可用”
▽ 论文推荐
· 狗狗可以“闻”出自己的倒影 ? | Behavioural Processes 论文推荐
· 方言发展和融合的模式,就像肥皂泡泡? | Physical Review X 论文推荐
· 谁是中国内陆沙尘灾害的始作俑者? 兰大黄建平课题组发现我们可能错怪了塔克拉玛干沙漠
▽ 论文导读
内容合作请联系
keyanquan@huanqiukexue.com