谷歌AI发布新型机器学习算法：揭示蛋白质结构中的奥秘！

From 药明康德AI 药明康德AI 2019-04-29

药明康德AI/报道

近日，谷歌大脑（Google Brain）和杜克大学（Duke University）的研究人员开展了合作，使用先进的机器学习算法和计算机视觉技术来发现蛋白质晶体，其准确率达到了94%。这一研究可以让科学家们更容易绘制蛋白质结构，从而加速药物发现。

本文来源：药明康德AI

蛋白质结晶是生物医学研究的关键步骤，尤其是在发现复杂生物分子结构方面。该结构决定了分子的功能，因此它有助于科学家设计专门靶向该分子功能的新药。然而，与组成盐和糖等普通晶体的简单原子和分子不同，每一个庞大的蛋白质分子结构可能包含了数以万计的原子，因此很难排列成构成晶体基础的有序结构。

即使经过几十年的实践，目前研究人员仍然需要反复试验，才能获得蛋白质晶体。每分离出一种蛋白质后，研究人员会将其与数百种不同类型的溶液混合，并在显微镜下用肉眼观察每种混合溶液的液滴，希望从中发现任何结晶的迹象。然而，由于观察过程主要依靠肉眼进行，因此容易出现错误和遗漏，这有可能会导致错过一些重要的医学发现。因此，研究人员开始将目光投向机器学习技术。

▲机器学习算法识别液滴图像示意图。从左到右分别为：蛋白质晶体图像（左）、非晶体固体图像（中）、无固体图像（右）（图片来源：arXiv.org）

谷歌大脑和杜克大学的研究人员利用一个由50万张蛋白质结晶试验图像构成的数据库，来进行机器学习算法的训练。研究人员使用其中一部分图像作为数据，来训练算法识别图像中的蛋白质晶体。机器学习算法可以通过搜索某一点或者某一条边缘的方式，来识别液滴图像中存在的晶体，同时它还可以区分非晶体的固体及没有晶体的图像。在完成对算法的训练后，研究人员使用这个算法对图像数据库进行识别，并与人类科学家的识别结果进行比较。结果显示，人类科学家发现晶体的正确率为85%，而AI算法能够正确识别出94%的晶体。

▲该研究的负责人之一，杜克大学化学系副教授Patrick Charbonneau博士（图片来源：杜克大学官网）

“大多数AI算法使用计算机成像技术来识别猫或狗的图像，而这些图像并不一定具备与晶体边缘类似的几何特征，所以，计算机成像技术在这项研究中的表现让我们非常惊讶，”该研究的负责人之一，杜克大学化学系副教授Patrick Charbonneau博士表示：“未来我们将会利用这些数据，来更深入地了解蛋白质自我组装背后的化学原理。”

我们期待，这项研究的广泛应用，可以加速药物发现过程，为我们带来更多有效的治疗方案。

参考资料：

[1] Teaching a Machine to Spot a Crystal

[2] Automating Drug Discoveries Using Computer Vision

[3] Google introduces AI for drug discovery protein recognition

[4] Classification of crystallization outcomes using deep convolutional neural networks

本文来自药明康德微信团队，欢迎转发到朋友圈，谢绝转载到其它平台。如有开设白名单需求，请在文章底部留言；如有其它合作需求，请联系wuxi_media@wuxiapptec.com

更多精彩文章：

重磅！谷歌新AI算法可重现大脑结构，自动追踪绘制神经元（动图）

华人学者开发新算法，可准确预测精神疾病治疗结果！

AI系统能够识别大脑“指纹”，有望带来神经疾病新药物！

斯坦福大学AI系统，可预测药物组合副作用！