首届全球AI药物研发算法大赛正式开启!飞桨携手清华探索生物计算前沿领域
生物计算,是以蛋白质、DNA、RNA 等生物大分子作为“数据”的计算模式,其方法包括机器学习、模式识别、数据库、并行计算等计算机技术和算法。因其可以进行大量的精准计算,常被用于攻克医疗难题、辅助医疗、助力药物研发。百度在生物计算领域一直不断探索,2020年发布了基于飞桨的生物计算平台螺旋桨(PaddleHelix)。2022年百度联合清华大学药学院,建设“AI+ 药学”产学研融合创新基地,推出 AI+生物计算前沿课程和人才培养计划,助力 AI for Science 领域的人才培养。
今年5月,百度飞桨联合清华大学药学院、百度智能云和临港实验室,共同发起了首届全球 AI 药物研发算法大赛,并得到中国药学会等单位大力支持,同时邀请到多位生物制药领域专家担任专家委员会委员。大赛旨在借助百度飞桨在生物计算方向上的算法优势,通过 AI Studio 平台,探索 AI+药学领域前沿技术,挖掘和培育优秀人才,诚邀全球范围内生物计算、人工智能等相关专业的高校师生、企业、科研机构及开发者参赛。
01
赛题背景
新冠病毒(SARS-CoV-2)自从其首次爆发以来,迅速成为全球关注的焦点。为了抵御新冠病毒的攻击,了解病毒的复制和感染机制至关重要。主蛋白酶(main protease, 简称 M pro)是新冠病毒的关键酶,负责在感染过程中剪切病毒产生的蛋白质前体,促进病毒的复制。 主蛋白酶因其在病毒生命周期中的关键作用,成为潜在的治疗靶点。抑制该酶的活性可以有效干扰病毒的复制过程,从而提供一种潜在的治疗方法。
来源:Drug Discovery Today, 26, 804-816(2021)
其中,基于人工智能的筛选方法,利用机器学习和深度学习技术,分析大量的结构和活性数据,从而预测小分子与主蛋白酶之间的相互作用。
本次比赛旨在鼓励参赛者利用人工智能方法,发掘治疗新冠病毒的潜在药物。
■ 赛题链接
https://aistudio.baidu.com/aistudio/competition/detail/1012/0/introduction
02
任务描述
▎参赛阶段
■ 初赛阶段
时间:即日起至2023年7月20日
参赛要求:
要求参赛选手利用大赛提供小分子对新冠病毒主蛋白酶的抑制活性数据,使用深度学习、分子对接等方法进行建模,预测小分子抑制主蛋白酶活性的概率。即给定分子(SMILES),预测抑制主蛋白酶活性的概率。
初赛结束时,初赛成绩排名前60%的队伍进入复赛。(大赛举办方有权根据报名等情况确定最终晋级队伍数量)。
■ 复赛阶段
时间:8月1日至8月10日
参赛要求:
复赛阶段,大赛会更换数据集,提供小分子在 Caco 细胞上抑制新冠病毒复制的活性数据,参赛选手需要基于 PaddlePaddle 进行模型的设计和训练,预测小分子在 Caco 细胞上抑制新冠病毒复制的概率。即给定分子(SMILES),预测 Caco 细胞上抑制新冠病毒复制的概率。
复赛结束时,组委会将对代码进行检查和复现,复赛成绩排名前15名的队伍将晋级决赛。(大赛举办方有权根据复赛情况等确定最终数量)
■ 决赛阶段
时间:预计8月进行
参赛要求:
进入总决赛的队伍需参与最终现场答辩环节(需准备 PPT,答辩时间15min)。 评委将对初赛阶段成绩、复赛阶段成绩、答辩成绩和代码质量进行综合评估,作为最终的决赛成绩。
▎评估指标
本次比赛选用 AUC( ROC 曲线下面积)和 AP( PR 曲线下面积)的平均值作为评估指标。
03
入门学习资料
▎Baseline 链接
https://aistudio.baidu.com/aistudio/projectdetail/6251614?sUid=83027&shared=1&ts=1685016258784
本次比赛 baseline 基于百度飞桨 PaddlePaddle 进行开发,并且在复赛阶段要求选手使用 PaddlePaddle 进行模型的设计和训练。百度一直在生物计算领域不断探索,并且推出了基于飞桨的生物计算平台螺旋桨(PaddleHelix)。螺旋桨( PaddleHelix )是基于飞桨深度学习框架打造的“ AI+生物”计算平台,提供文心大模型-生物计算大模型能力,已开放多个算法模型,覆盖小分子药物筛选、多肽/蛋白药物设计、mRNA 疫苗/药物设计等技术,面向新药研发、疫苗设计、精准医疗等场景,为生物医药领域的创新药企、医药技术提供商、科研机构、生物科技公司等提供全面的算法工具和技术方案。
■ 扫码进群👇