鹰谷信息:药物研发领域的阿尔法狗 | 江湖
撰文 | 徐唯佳
Sissi.Xu@PharmaDJ.com
一个六十多人的团队,大部分由互联网软件和数据库开发人员组成,却在做一件革新药物研发的事业——试图以研发大数据和人工智能技术,“训练”出发现新药的阿尔法狗。这个团队,就是上海鹰谷信息科技有限公司和他们的因特狗(Integle)。
从实验室出走,跨界到大数据和互联网,又回归到科研数据采集和信息管理,以研发大数据和人工智能帮助新药研发——绕了一大圈,鹰谷创始人邓光辉博士说,他始终在做同一件事。
https://v.qq.com/txp/iframe/player.html?vid=t053270ifa5&width=500&height=375&auto=0
从大数据到人工智能做药
不得不承认,一个药物从化学结构设计到最终上市,像穿越无数生死线之后留下的幸存者。即便是那些身披铠甲的跨国药企,成功率也常常只有5%,是典型的小概率事件。在GSK工作了六年的邓光辉,不仅看到了药物研发的风险,同时还意识到,在中国并不缺少做具体科研的科学家,而是缺乏为科学家所创造的有效工具、帮助科学家创新创造的人才。
拓展阅读:神机妙算 系列综述
邓光辉博士创办鹰谷的初心,就是从科学家的角度去帮助科学家。鹰谷的科学信息管理系统(SIMS, Scientific Information Management System),是一款数据采集和管理的工具,帮助科学家提高工作效率的同时,为科学家积累大数据,为人工智能从事药物研发打好大数据基础。没有大数据支持,药物研发的人工智能是没法完成的。
年研发投入在20亿美元以上的大药企(Big Pharma),如何能站在巨人肩膀上,持续不断研发新产品?除了人才优势、资本优势、专业服务平台之外,大药企还有一套完整的数据信息管理体系。也正是由于这个体系将所有人才、资本和专业平台整合起来,所有科研数据都被记录下来,才使得任何人的离职几乎不会对企业造成根本上的影响。
邓博士回忆起在大药企GSK工作的时候,通过电子实验记录本、化合物管理系统,采集和管理了GSK数十年的科研数据,这些数据支持搜索,减少药物研发的弯路,大大缩短了药物研发的时间;同时,促进与合作单位的高效协作,如对CRO企业,可确保CRO合作企业的数据的准确、完整、可追溯性以及符合国际相关的药物研发数据管理规范。
在邓博士看来,正是因为积累了数十年药物研发的大数据,大药企通过人工智能算法,最有机会研发出药物研发领域的阿尔法狗。也许,未来哪家制药企业的数据越多,越有机会总结药物结构与药效和安全的关系,优化人工智能算法,越有机会快速低成本做出新药来。
目前,中国重大新药创制科技重大专项非常重视人工智能在药物研发领域中的应用前景,鹰谷在其中一项课题《基于大数据的精准药物设计技术发展和应用研究》中,承担了其中一部分工作,从事数据采集和管理任务,为专项课题提供大数据基础。
电子实验记录本的创新
GSK采用的电子实验记录本E-Notebook,是基于客户端的CS架构,购买价格昂贵,仅账号授权费用就达每年数千万美元,而且运营维护成本非常高。并且,基于CS架构的电子记录系统,软件使用不方便,其数据流通速度效率有限,不利于与外部合作单位的数据流通。
邓博士发现,国内的数据采集和管理现状是,一方面大多数企业难以负担高昂的软件系统费用,另一方面,没有一家公司能专心研发更专业更完整的系统。如结构式编辑器,这是一种数据采集的底层关键技术,所有化学和药物研究工作者都要使用的化学结构式输入法,而在中国,只有鹰谷对此进行更深层次研究。
鹰谷技术团队认为,基于客户端的CS架构已经是过去时,基于浏览器的BS架构必然成为主流。“只要有浏览器就可以访问,不需要到CRO那里去实施部署,申请一个账号就可以使用,才能真正降低成本。”
鹰谷团队
任何一项技术的突破都需要过程,“比如要在浏览器上能画出化学结构,对软件技术和专业的理解,要求很高,目前,全球只有几家公司在做,但是在用户体验上也做得不是很好。”
实际上,在过去几十年中,化学结构式编辑器和电子实验记录本都被美国Cambridge Soft公司开发的ChemDraw和E-notebook软件所垄断(已被Perkin Elmer收购)。
基于浏览器(BS)的架构来做药物研发数据的电子记录,首先要解决的就是化学结构式输入和输出的问题。整个药物研发都是围绕化学结构式来做,药物最终的形态就是化学结构或者生物大分子,因此,药物研发电子记录的核心就是画化学结构、反应式等,并能在浏览器上展示出来。
“因此,我们花了三年的时间在开发结构式编辑器,如果没有画化学反应式的技术,很难做出真正好用的电子实验记录本。这是一个挺费时间的软件,需要软件工程师的参与、化学专家的参与。”邓博士介绍说,鹰谷团队的技术开发人员必须要懂得化学知识,同时他本人也将药物研发的经验传授给技术人员。如果说,鹰谷渴望取代ChemDraw在药物研发应用软件技术方面的影响力,这三年是必须要投入的时间成本。毕竟,ChemDraw是一款在上世纪80年代就开始占据市场的产品。
电子实验记录本的意义在哪里?简而言之,可以对药物科研过程的实验数据采集和管理,有了大数据才能具备做人工智能的基础,才有可能实现药物研发阿尔法狗(AlphaGo)。因为电子记录有时间轴和修改痕迹(Audit trail),可以证明什么时候做了修改。通过采购、库存、实验过程数据、实验结果数据、临床药效数据和安全数据,互相验证,让整个药物科研的数据准确、完整、可追溯。事实上,电子实验记录本可以很好地规避研发数据造假这一现象。
而数据只有电子化了,才能更好地流通和利用,能搜索的数据才是有用的数据,最终提高药物研发的效率,为人工智能做药物研发打好基础,提供原材料。
图像识别技术突破口
人类历史上,已经产生了大量的论文、网页的数据,这里的数据如何采集成电子化的数据,如何让计算机能理解这些数据?论文中的化学结构图片,携带了大量药物研究信息,如果能够被识别为计算机能理解的化学结构,就能进一步建立这些化学结构与药效、安全的构效关系,这是实现药物研发阿尔法狗的关键步骤。
另一方面,对于一个药物研发者而言,最先考虑的问题是自己设计的化学结构有没有人做过,是否在一些论文中被报道过。而如何得知,则需要通过数据库来查询。
仅这类化学结构式数据库的搜索,搜索化学结构的已有研究论文信息,就是一个非常大的市场。目前全球只有两家国外企业有可结构式搜索的数据库——SciFinder和Reays。也正是由于这样的数据库,让很多化学类企业发展壮大起来。比如,一些做化学合成的企业,需要通过这个数据库来查询,才能知道别人如何做,按已有的方法去合成,大大降低人力成本——过去博士能做的事,现在一个本科生就可以做到。中国CRO企业正是在这类数据库刚开始投入使用时,逐步抓住机遇,发展壮大起来的。
SciFinder通过海量人工采集化学结构图片的方式,已无法超越,而从图像识别技术着手却可以寻求突破。鹰谷团队正致力于这一技术:将一种类似人脸识别的技术运用到化学结构的图像识别方式。把发表在论文中的化学结构图片识别出来,成为计算机能理解的化学语言,会对整个行业产生新的影响。
这其中包含三个技术:化学结构的呈现、化学结构的搜索、化学结构的数据库建立。这也是鹰谷正在开拓的重要业务方向。
“鹰谷的技术可以把全球论文中所有的化学结构梳理出来,再建成一个可以可结构式搜索的数据库,这个大型的数据库可以降低整个行业的研发成本。”邓博士向研发客介绍道。这项技术的开发从去年10月启动,到现在已小有成果。
科技的不断进步,的确加快了迈向成功的步伐,同时也让成功者的队伍不断壮大。药物研发向来被视为资本产业链的顶端。大多数老百姓都很难有机会接触、搜索到顶尖的科研成果,导致科研常常成为贵族的游戏。
“全球论文数据库梳理一遍需要几个月的时间,通过图像识别引擎过滤之后,建立一个可结构式搜索的学术论文数据,尤其适合于化工和生物医药。这两个领域,都是十万亿量级的大市场。对化工领域而言,要解决化学结构是如何生产出来的问题。对生物医药领域而言,科学家需要快速搜索这些化学结构,在药物领域有哪些研究进展,有什么样的数据产生。如此,可以快速提升药物研发和生产的效率,让更多人参与科研。”邓博士认为,技术的变革正是为了降低研发的门槛,门槛越低,发展越快。
邓博士坦言:“鹰谷的早期,通过软件系统与研发企业形成深度的链接,为企业发展人工智能的算法,目前已经初步具备了人工智能做药的技术,团队成员曾经利用天河二号高性能计算机寻找埃博拉病毒新药,一天之内筛选4000万化学结构,找到苗头化合物数十个。”
技术产生无限可能
可以想象,科研过程中不断地产生数据:锁定一个化学结构后,首先查阅论文、网页。随后,很多企业会考虑购买渠道。因此,鹰谷也上线了化学品的采购管理系统。目前,鹰谷与中科院有机所等合作使用化学品采购管理系统。“传统的购买方式是搜索化学品的CAS编号,这个效率会很低,我们做结构式搜索的技术,只需要画一个化学结构就能够知道哪些供应商能够买到。”邓博士说。
2014年,鹰谷拿下了国家知识产权局知识产权出版社关于全球化学专利结构式搜索数据库的招标。这项技术可以直接搜索到全球最新的专利化学结构,目前该项目(DI Inspiro)已经上线运营,不仅能搜索到化学结构的全球专利信息,还能搜索到化学品的供应信息,同时将采购供应和仓储联系在一起,还能够对危险化学品管理起到较好的监督预警的效果。
数据采集管理也包括对结果数据的管理。邓博士认为目前鹰谷的主要方向还是在临床前:“从调研文献、购买渠道、仓储、做过哪些实验到实验数据结果,这一系列就串联起来,临床前就完成了。”之后,还会延伸到临床数据管理。
而无论是临床前还是临床数据,最终都要提交给政府部门进行申报。国家要求电子申报在今年底要上线eCTD系统,把数据压制成国际认可的ICH-eCTD格式,提交给CFDA,再进行评审。可以预见,随着政策要求的落实,国内对数据电子化的需求会越来越大。
今年6月,邓博士在德国法兰克福与eCTD国际巨头Lorenz达成战略合作。
"在美国,由于eCTD推行, 数据真实、可追溯等法律政策落实,电子记录数据市场超过50亿美元。鹰谷首先是一家互联网软件公司,然后是一家大数据和人工智能公司。通过我们的努力,我们希望化学、新药研发的门槛降低下来,效率提升上来,让更多人有机会从事科研。人类健康的核心,在于如何高效确诊疾病,以及快速发现治愈疾病的药物。这两点都是科学家的核心工作。如何武装科学家,成为科学家的手和眼,提供科学家创新创造的工具,这是我们鹰谷的核心工作。一个药年销售额可以高达160亿美元,相当于一个阿里巴巴还多。我们希望帮助这种药的诞生,为人类健康,提供一种不一样的思路方法。”邓博士如是介绍大数据采集管理和人工智能的未来蓝图。
责编 | 姚嘉
Yao.Jia@PharmaDJ.com
徐唯佳
Sissi.Xu@PharmaDJ.com
研发客 记者
江湖之 启珂系列 精彩回顾
点击“阅读原文”订阅 研发客 期刊