查看原文
其他

科技快讯 | 人工智能时代,科研领域都发生了哪些新变化?

2017-09-08 德先生



寻找新粒子


上世纪80年代末,正当“神经网络”这一术语捕获了公众的想象力时,粒子物理学家开始“玩弄”起人工智能。他们的领域很适合应用人工智能和机器学习算法,因为几乎每项试验均聚焦于从复杂粒子探测器获取的不计其数的类似数据中寻找微妙的空间模式,而这正是人工智能擅长的事情。“我们花了好几年时间才说服人们,人工智能并不是一种神秘的把戏。”最早拥抱此项技术的物理学家之一、美国费米国家加速器实验室研究人员Boaz Klima表示。


粒子物理学家力图使带有巨大能量的亚原子粒子相撞以迸发出独特的新物质微粒,从而理解宇宙的内部运作。例如,2012年,利用全球最大质子对撞机——位于瑞士的大型强子对撞机(LHC)开展研究的团队发现了预期已久的希格斯玻色子。这是一种转瞬即逝的粒子,对于物理学家解释所有其他基本粒子如何获得质量至关重要。


不过,此类奇特粒子并非自带标签。在LHC,几乎约10亿次对撞才出现1个希格斯玻色子。与此同时,它会在十亿分之一皮秒内衰变成诸如光子对等其他粒子。为“重现”希格斯玻色子,物理学家必须认出所有那些更加常见的粒子。然而,典型碰撞中产生的成群的不相关粒子使此项工作变得更加艰难。


费米实验室物理学家Pushpalatha Bhat介绍说,诸如神经网络等算法擅长从背景中筛选信号。在粒子探测器(一般是由各种传感器构成的巨型筒状集合体)中,光子通常在被称为电磁量能器的子系统中创建粒子束。电子和强子也是这样产生的,但它们的束流和光子稍微有些不同。机器学习算法通过发现描述束流的多个变量之间的相关性,将它们区别开来。此类算法还能帮助区分希格斯玻色子衰退产生的光子对。“这是一个公认的大海捞针式的问题。”Bhat表示,“这也是为何我们要从数据中提取尽可能多的信息。”

 

LHC利用神经网络技术寻找碰撞碎片中新颗粒痕迹


然而,机器学习并未完全占领这个领域。物理学家仍然主要依靠对基础物理的理解来断定如何搜索数据,以寻找新粒子和现象存在的迹象。不过,劳伦斯伯克利国家实验室计算机专家Paolo Calafiura表示,人工智能可能正变得愈发重要。到2024年,研究人员计划升级LHC,从而使其碰撞率提高10倍。Calafiura介绍说,到那时,机器学习将在应对数据洪流时发挥至关重要的作用。


分析公众情绪


伴随着每年几十亿用户以及数千亿条Twitter和帖子的产生,社交媒体已将大数据带入社会科学。同时,心理学家Martin Seligman表示,它还为利用人工智能收集人类传播产生的意义创造了史无前例的机遇。在宾夕法尼亚大学正向心理学中心,Seligman同来自“全球福祉项目”的20多名心理学家、内科医生和计算机专家,利用机器学习和自然语言处理筛选大量数据,以估量公众的情感和身体健康。


传统上,这是通过调查实现的。不过,Seligman表示,社交媒体数据“比较低调”、花费较少,而且获得的数据要高出好几个数量级。虽然此类数据也很散乱,但人工智能提供了一种强有力的获取模式。


在一项最新研究中,Seligman和同事分析了2.9万名自我评估患有抑郁症的Facebook用户更新的内容。利用来自其中2.8万名用户的数据,机器学习算法发现了更新内容中的词语和抑郁症水平之间的关联。随后,它能仅基于更新的内容,成功估量出其他用户的抑郁症水平。


在另一项研究中,该团队通过分析1.48亿条Twitter,预测了县级心脏病死亡率。事实证明,同愤怒和负面情绪相关的词语是危险因素。和基于诸如吸烟、糖尿病等10项主要危险因素的预测相比,这项来自社交媒体的预测同实际死亡率匹配得更加紧密。与此同时,研究人员利用社交媒体预测了个性、收入和政治意识形态,并且研究了住院治疗、神秘体验和刻板印象。该团队甚至利用从Twitter上推断出的福利、抑郁症、信任和五大人格特征,创建了一幅为美国每个县作出标识的地图。


“在分析语言及其同心理学的联系方面,一场革命正在上演。”得克萨斯大学社会心理学家James Pennebaker表示。Pennebaker关注的并非内容,而是风格。他发现,在申请大学入学短文中虚词的使用能预测成绩。冠词和介词象征着分析性思维并且预示了更好的成绩,代词和副词象征着叙事性思维并且预示了较差的成绩。Pennebaker还发现了证据,表明1728年的剧本《双重背叛》的大部分内容可能由莎士比亚撰写。机器学习算法基于诸如认知复杂性和罕见词等因素,将该剧本同莎士比亚的其他作品进行了匹配。“现在,我们可以分析你贴出甚至撰写的任何内容。”Pennebaker表示,结果是“获得了关于人们是什么样子的愈发丰富的画面”。


探寻自闭症根源


对于遗传学家来说,自闭症是一项棘手的挑战。遗传定律表明,它拥有强大的遗传因素。然而,已知在自闭症中起到一定作用的许多基因的变体只能解释约20%的病例。寻找可能影响自闭症的其他变体,需要从关于2.5万个其他人类基因及其周围DNA的数据中搜寻线索。对于人类研究者来说,这是一项艰巨的任务。为此,普林斯顿大学计算生物学家Olga Troyanskaya和纽约西蒙斯基金会取得了人工智能工具的支持。


Troyanskaya将关于哪些基因在特定人类细胞中活跃、蛋白如何相互作用以及转录因子结合位点和其他关键基因组特征位于哪里的上百个数据集结合在一起。随后,她的团队利用机器学习构建了基因相互作用的地图,并且将已得到确认的较少自闭症危险基因同上百个涉及自闭症的其他未知基因进行了比对,以寻找它们的相似性。此项研究标记了另外2500个可能同自闭症相关的基因。相关成果在去年发表于《自然—神经科学》杂志。


不过,正如遗传学家最近意识到的,基因并不是孤立地发挥作用。它们的行为受到上百万个附近非编码碱基的影响。这些非编码碱基同DNA结合蛋白以及其他因素相互作用。确认哪些非编码变体可能影响附近的自闭症基因是一个更加棘手的问题。Troyanskaya的研究生Jian Zhou正在利用人工智能解决这一难题。

 

人工智能工具正在帮助人们解开可能导致自闭症的基因面纱。


为训练程序(一个深度学习系统),Zhou将其暴露在“DNA元件百科全书”和“表观基因组学路线图”收集的数据中。这两个项目对上万个非编码DNA位点如何影响附近基因进行了梳理。Zhou利用的系统学习了在评估未知非编码DNA的潜在活性时应该寻找哪些特征。


当Zhou和Troyanskaya于2015年10月在《自然—方法学》杂志上描述了这个名为DeepSEA的项目时,加州大学尔湾分校计算机专家Xiaohui Xie将其称为“将深度学习应用于基因组学的里程碑”。目前,该研究团队正通过DeepSEA研究自闭症患者父母的基因组,以期对非编码碱基的影响进行排序。


以上内容部分参考自人民网


能读懂天空的机器学习


今年4月,天体物理学家Kevin Schawinski在Twitter上发布了4个星系的模糊图片,以及一个请求:其他天文学家能帮助他对这些星系进行分类吗?同事们纷纷插话说,这些图像看起来像有点眼熟的椭圆星系和螺旋状星系。


还有一些天文学家,对有计算思维的Schawinski直接提出了质疑:这些是真实的星系吗?还是在拟计算机上的相关物理模型?事实上,两者都不是。在瑞士苏黎世联邦理工学院(ETH Zurich)的Schawinski、计算机科学家Ce Zhang以及其他的一些合作者已经用神经网络把物理学研究透了——虽然它对物理学其实一无所知,但它看起来对星系的深度和外观都了如指掌。


在他的Twitter上,Schawinski只是想看看这个神经网络的创作会“骗”过多少人的眼睛。但他更大的目标是创造出像电影中的技术那样,可以神奇地削弱模糊监视图像的技术:一个网络可以使模糊的星系图像看起来比实际望远镜拍摄的更好。这可以让天文学家从大量的观察中发现更微妙的细节。 “数千万甚至数十亿美元的经费正在用于研究我们的天空,”Schawinski说。“有了这项技术,我们可以快速提取到更多的信息。”


Schawinski发布在Twitter上的“伪造”是生成对抗网络的作品,这是一种机器学习模型。Schawinski的团队拍摄了数千个星系的真实图像,然后将它们降维。接下来,研究人员训练模型的生成器使图像翻转,来通过鉴别器识别。最终,通过大量数据训练,生成对抗式网络可以比其他技术都能更好的讲嘈杂图片更平滑。

 

人工智能可以“知道”一个星系应该是什么样子,将模糊图像(左)转换成一个清晰的图像(右)


位于伊利诺伊州Batavia的费米国立加速器实验室(Fermi National Accelerator Laboratory)的天文物理学家Brian Nord说,Schawinski的方法是机器学习在天文学的应用中特别前卫的一个例子,但它远非唯一一个。在1月份美国天文学会的会议上,Nord提出了一种机器学习策略来捕捉强引力透镜:当遥远的星系的图像在通往地球的过程中经历扭曲的时空时,形成了天空中罕见的光线。这些镜头可用于测量宇宙中的距离,并发现不可见的质量浓度。


强引力透镜在视觉上是独特的,但很难用简单的数学规则来描述,传统的计算机很难识别出来,但对人来说其实很容易。 Nord等人意识到,经过数千个镜头训练的神经网络可以获得和人类似的直觉。在接下来的几个月中,“实际上,已经有十几篇论文都在使用机器学习技术来发现强引力透镜。这已经是一股风潮。”Nord说。


而这只是应用在天文领域的一部分,人工智能策略提供了一种强大的方法从PB级数据中查找和分类有趣的对象。在这个感慨“OMG,我们有太多数据了“的时代,一个能从中真的能发现有用信息的方式就是AI。


神经网络学习化学合成的艺术


有机化学家是研究逆向工作的专家。就像那些从已经成品的菜肴开始,然后研究如何制作的大师级厨师一样,许多化学家从他们想要制造的分子的最终结构开始,然后思考如何组装它。“你需要合适的配料和配方来搭配它们,”德国明斯特大学的研究生Marwin Segler说。他和其他人正在把人工智能(AI)引入他们的分子厨房。


他们希望AI能够帮助他们应对分子制造的关键挑战:从数百个可能的构建块(building blocks)中选择,以及从成千上万的化学规则中选择如何来连接它们。几十年来,一些化学家煞费苦心地用已知的反应来编写计算机程序,希望创建一个能够快速计算出最简单的分子配方的系统。然而,Segler表示,化学是非常微妙的。用二进制的方式写出所有的规则是很困难的。


因此,Segler、计算机科学家Mike Preuss还有Segler的顾问Mark Waller,一起转向了AI。他们设计了一个深层的神经网络程序,从数百万个例子中学习反应如何进行,而不是在化学反应的硬性规则中进行编程。“你提供的数据越多,得到的结果就越好,”Segler表示。随着时间的推移,神经网络学会了预测合成中想要的步骤的最佳反应。最终,它想出了自己的方法来从头开始制造分子。


这三人测试了40个不同的分子,并将其与传统的分子设计方案进行了比较。他们在今年的一次会议上表示,用传统的程序,在一个2小时时间成只合成了22.5%的目标分子,而采用AI的方法能在相同的时间内合成95%。Segler不久将搬到伦敦去一家制药公司工作,他希望用这种方法来改进药品的生产。


斯坦福大学的有机化学家Paul Wender表示,现在还不知道Segler的方法会起什么作用。但是Wender也将人工智能应用到合成中,他认为AI“可能产生深远的影响”,不仅仅是在已知的分子上,而是在寻找新的方法。Segler补充道,AI不会很快取代有机化学家,因为他们能做的远不止预测反应如何进行。就像GPS导航系统一样,AI也许能找到一条路,但它不能自行设计和实现完整的同步。


来源:Science


📚往期文章推荐

🔗【平行讲坛】平行学习—机器学习的一个新型理论框架

🔗国家突然宣布:举全国之力,抢占全球人工智能制高点

🔗CAA | 第2期智能自动化学科前沿讲习班开讲啦!(内含福利)

🔗王田苗:从社会发展痛点看智能机器人发展 (附完整ppt)

🔗CAAI讲习班 | AI大牛带你飞!《智能感知与交互》开讲啦!

🔗李德毅院士:设置“智能科学与技术”学科正当时(附专家建议原文)

🔗人工智能名人堂第43期 | 中科院院士张钹:杏坛半世纪

🔗MIT开学第一课 | 校长和教授强调:想法得够疯

🔗他拿着菜刀走进教室,把400个混混送进了耶鲁哈佛

🔗重磅:2017年自然指数正式出炉!


识别二维码,进入德先生旗下求知书店,选购更多德先生推荐书籍


德先生精彩文章回顾

在公众号会话位置回复以下关键词,查看德先生往期文章!


人工智能|类脑研究|人机大战|机器人

虚拟现实|无人驾驶|智能制造|无人机

科研创新|网络安全|数据时代|区块链

……


更多精彩文章正在赶来,敬请期待!


点击“阅读原文”,移步求知书店,可查阅选购德先生推荐书籍。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存