喜报!我院学生获得全国大学生智能技术应用大赛一等奖!
来自我院2017级智能科学与技术专业的本科生许玉腾、饶俊健和18级智能科学与技术专业的袁伟宁同学,获得了第二届全国大学生智能技术应用大赛一等奖。
他们获奖的项目是:基于机器学习的药物筛选系统-以筛选新冠药物为例。
全国大学生智能技术应用大赛
全国大学生智能技术应用大赛由全国高等院校计算机基础教育研究会、中国医药教育协会、全国人工智能与大数据创新联盟联合举办,旨在加快大数据、机器人、5G应用、区块链等技术与传统行业深度融合应用与发展,提高大学生智能技术开发及应用能力。
下面让我们来听一听他们的比赛心路历程吧~
01
能不能简单介绍一下你们的项目?
原理是什么?
项目旨在应用机器学习算法筛选药物,达到输入疾病靶标的氨基酸序列即可筛选可能用于治疗该疾病药物的目的。我们处理的数据主要是药物小分子和疾病靶标氨基酸序列,小分子用简化分子线性输入规范SMILE表示,将碳氧元素和化学键使用ASCII码按照一定规则排列。药物靶标蛋白用一串大写英文字母字符串表示。我们使用卷积神经网络,图卷积网络和自注意力层处理数据。最关键的是对小分子和氨基酸序列进行编码转化为神经网络可以处理的数据。在卷积神经网络模型中,我们使用了Mol2vec和Prot2vec方法编码小分子和蛋白质。方法受自然语言处理技术中Word2vec模型启发,结合了传统的分子指纹Morgan算法,将源自 Morgan算法的化合物子结构视为“单词”,将完整的分子序列视为“句子”,获得子结构的高维嵌入。在图卷积神经网络模型中,我们将药物小分子SMILE字符串转换为以原子为顶点,化学键为边的图结构数据,每个原子顶点有5个属性:原子符号,芳香性,原子量,成键氢原子数,化学键总数。在自注意力层模型中,我们直接使用Embedding方法,输入两种序列的词向量嵌入和位置嵌入,采用两层的残差连接的自注意力模块作为模型的特征提取器,每个自注意力模块由多头注意力层和前馈神经网络组成。采用结构相同,参数量翻倍的自注意力模块作为关系提取器。把通过特征提取器的两条蛋白质序列拼接起来,送入关系提取器。最后,我们在两条序列之间加入了分隔符,将分隔符的特征通过全连接层后作为模型的二分类输出。然后经过序列比对层和Sigmod函数给出药物评分。我们搭建了网站并使用神经网络模型在后端处理数据,用户在网站前端输入疾病靶标氨基酸序列,系统即可按由高到低的顺序返回筛选出的药物。
02
你们参加这次比赛有什么收获呢,能够取得好成绩的原因有?
对于这种项目展示类的工科竞赛,决定比赛取得好成绩的不只是比赛那段时间,前期的积累非常重要。在参加这个比赛前,我们主要的任务是把大创的事情做好,把项目做出亮点。我们用了近一年的时间完成这个项目,从最初的课题调研和项目申报,到查阅资料探索可用的方法,我们尝试了多种方法,并对旧方法进行改进,期间遇到了许多bug和令人失落的实验结果。比如我们曾经两三个月都找不到合适的方法编码药物小分子和靶标蛋白质,后来我们通过查阅大量文献,不断实现论文的方法并进行比较,才慢慢看到曙光,会发现花样繁多的编码方法里的一些共性,最后总结出一些自己能用的方法,渐渐也能看到旧方法的局限性并进行改进。整个过程是一点一点地看到希望并做下去,像探路一样一点一点地前进,而不是一开始就可以预见最后我们能做出什么样子。
其次,我们认为技术做得最难的不一定能取得好成绩,但技术的深度决定了最终能达到的高度。首先要了解这个比赛本身,从比赛的名称可以看出比赛强调跟人工智能结合并且能够应用,校赛中偏重学术研究的项目和与人工智能结合不紧密的小程序项目都没能取得好成绩,有可演示软硬件系统的项目最受青睐。通过校内初赛和国赛主办方“中国医药教育协会”也可看出这个比赛会更喜欢智能医疗领域的项目。
然后就是展示给评委的项目材料,包括视频、PPT、作品说明书等,每一份呈现给评委的材料都要做到精益求精。比赛规定展示时间是8分钟,经过不断调整语速和视频时长,我们能在7分58秒左右讲完项目。从校赛到国赛,我们的PPT和讲稿修改了十几次;作品说明书也在大创结题材料的基础上进行了多次修改以符合比赛要求、突出项目亮点;我们对视频内容和播放速度进行了多次调整,实现对PPT和作品说明书的有效补充。我们针对不同类型的评委(是否在这个细分领域等)罗列了32个可能提出的问题,确保项目无死角,评委一问我们就能立刻回答。总之一切评委能够看到的都要不断抠细节。
能够实现以上的任务,离不开一个优秀的团队,这是核心的支撑。首先是指导老师为我们掌舵,指出我们方向和技术上可能存在的问题。我们的指导老师陈语谦教授每周会通过组会了解我们项目的进展并适时给出意见,与学生形成了良好的合作与互动。团队中一定要有靠谱的同学,有足够的决心和耐心走到最后,才能把项目做好。靠谱的同学是非常珍贵的,特别在临近比赛时,总能及时出现主动承担高质量完成任务的成员正是团队取得好成绩的一大法宝,打比赛赶任务熬夜是常有的事。
03
如果学弟学妹们想参加这个比赛,你们有什么建议给学弟学妹们吗?
建议在学有余力,课内任务完成得较为优秀之后参与学科竞赛。如果参加竞赛花费大量时间导致课内成绩较差,我们认为是得不偿失的。但也不是要把所有课程都学完之后才能开展项目参与竞赛,项目驱动式的学习可以快速学习新知识,掌握实际所需的技能。
参与大学生创新训练计划项目是迈出第一步的一个不错的选择,通过大学生创新训练计划,可以接触学院正在开展的项目,与老师建立联系,组建起最初的团队,还可以经历从项目立项到最后结项的全过程科研训练,做项目一年积累的成果也可以进一步作为后续参与竞赛或进行深入研究的基础,形成良性循环。
参与学科竞赛是一个综合性的锻炼,考验一个人的综合素质。首先技术要做好,还要把故事讲好让评委欣赏,有时还有与技术无关的事,比如外出比赛时怎么把队友照顾好,怎么与主办方和领队进行沟通明确告知你的需求。通常一个人不能把所有事情做好,每个人有自己的特点和所长,需要我们与导师、队友进行良好的合作。因此团队是核心,选择队友时不能迷信大佬,大佬也是一步一步成长起来的,大佬自己可能还有各种事要忙。最好的队友是靠谱的队友,是愿意陪你走到最后的人。通过不断地学习钻研与磨合,成员可以成为大佬,团队也能成为吸引大佬的优质团队。
注:大创,全称大学生创新创业训练计划项目。其中的创新训练项目是本科生个人或团队,在导师指导下,自主完成创新性研究项目设计、研究条件准备和项目实施、研究报告撰写、成果(学术)交流等工作。
希望他们的经验总结和建议,能够给其他想通过学科竞赛锻炼自己的同学一些启发~
附日常学习生活照
图1:许玉腾同学参与十大提案比赛并获得校总决赛冠军
图2:许玉腾同学在进行图像识别
图3:团队去年在广州北校园参加智能医学创新大赛留影1
图4:团队去年在广州北校园参加智能医学创新大赛留影2
图5:实验室的日常
图6:实验室的日常
图7:实验室的日常学习(许玉腾摄)
编辑 | 钟艺嘉
责编 | 王晓聪
初审 | 余婷
审核 | 黄达峰
审核发布 | 欧阳可全