QB期刊 |美国密苏里大学许东教授评论:ChatGPT为生物信息学打开了一扇新的大门
The following article is from QB期刊 Author QB编辑部
2023年3月29日,Quantitative Biology期刊在线发表了美国西弗吉尼亚大学的胡钢清教授、李秉新教授、李新教授,亚利桑那州州立大学的刘莉教授和德克萨斯大学埃尔帕索分校的冯自峰教授团队联合提出的OPTIMAL学习模型,以期通过ChatGPT来赋能生物信息学初学者(点击这里阅读原文)。QB编辑部特邀美国密苏里大学哥伦比亚分校的许东教授对该模型进行了深入的点评并进一步展望了ChatGPT在生信上的应用(点击文末“阅读原文”下载PDF全文)。
许东 教授
Profile
许东教授,美国密苏里大学哥伦比亚分校电器工程与计算机系教授, Curators' Distinguished Professor, Paul K. and Dianne Shumaker Professor。在过去30年中,他主要从事计算生物学和生物信息学的研究,包括单细胞数据分析、蛋白质结构预测和建模、蛋白质翻译后修饰、蛋白质定位预测、计算系统生物学、生物信息系统以及生物信息学在人类、微生物和植物中的应用。自2012年以来,他的研究重点是生物信息学和深度学习。发表文章共400多篇,引用次数超过23000次,H指数为78。2015年当选为美国科学促进会(AAAS)会士,2020年当选为美国医学与生物工程研究所(AIMBE)会士。
文章概要
ChatGPT是由OpenAI公司于2022年11月推出的一种人工智能(AI)系统,它可从大量语言数据学习后进行复杂的写作和对话,一经推出即火爆全球。
近年来,基于人工智能的人机语言交互一直是人工智能竞争的中心,Google、Meta和OpenAI三家公司一直处于这个竞争的核心位置。Google由于发明了Transformer技术(所有语言模型的基石)从一开始就具有显著优势,但由于它通过资源分散地生成了多个大同小异的语言模型,但未能达到下一个高度。Meta公司虽拥有由许多世界顶尖的人工智能研究人员组成的强大的人工智能团队,但他们在自我监督学习以解决人机交互问题方面并没有取得成功。相反OpenAI的小团队一直专注于单一产品线(GPT,包括最新发布的GPT-4),基于人类反馈强化学习(RLHF)方法,通过人类输入来“比对”语言从而达到人机交互的目的。ChatGPT的成功表明通过监督和强化学习可以使模型与人类标签保持一致,这对人机交互至关重要。然而,聊天机器人在很大程度上依赖于提示。为了正确利用ChatGPT的功能,必须仔细设计聊天机器人的提示,以获得有价值、准确和稳健的响应。
ChatGPT在许多领域,尤其是教育、经济和法律方面,都引发了人们极大的兴趣,但它在生物学和医学领域中的应用还远不及这些领域火热。截至2023年3月4日,ChatGPT在Google Scholar中可被检索到的文章共5380篇,其中提到生物信息的文章只有75篇,并且只有一篇社论文章关注到了ChatGPT在生物信息学中的应用。在生物预印本网站medRxiv和bioRxiv中可检索到的与ChatGPT相关的文章分别只有21篇和8篇。
尽管如此,但ChatGPT在执行复杂的生物医学任务时则表现出了良好的前景。例如,ChatGPT在没有经过人类培训的情况下,以60%的准确率通过了美国医学执照测试。ChatGPT对生物信息学的发展有以下几个优势:(1)鉴于生物信息学的多学科性质,ChatGPT可以帮助生物信息学研究人员了解各种相关研究主题的最新情况。(2)它可以处理涉及大量生物数据的复杂任务,特别是在对时间敏感的生物医学中的处理任务。(3)ChatGPT可以根据其强大的领域适应能力进行定制,以适应不同的生物信息学工作。(4)与ChatGPT类似的模型可以为核苷酸、蛋白质和化合物生成有效的语言描述,以执行下游的生物信息学任务。(5)ChatGPT可用于挖掘生物医学知识图(许东教授的研究团队也证明了ChatGPT可以有效预测基因关系)。
由于其卓越的对话和编程能力,ChatGPT在帮助学生克服编程障碍方面具有巨大的前景。胡钢清教授及其合作团队提出的OPTIMAL模型(通过迭代指导评估和优化提示)就是利用ChatGPT来帮助学生进行生物信息学中的数据重分析。在这种范式学习中,学生可以评估研究问题、计算任务、分析方法并预期产出。OPTIMAL模型为ChatGPT在生物信息学教育中的应用提供了一个很好的例子。该模型除了展示交互式学习、辅导学生和数据分析外,ChatGPT还可用于(1)调查生物信息学主题的最新发展状况。(2)制作循序渐进的教程,并提出适当的学习资源和活动建议。(3)映射生物信息学概念及其相互关系。(4)规划生物信息学课程。
由于ChatGPT数据分析的有效性在很大程度上依赖于提示,因此需要进行额外的研究来建立设计原则,以更好地比对预期结果(关键是比对)。此外,聊天过程需要明确隐含的先决知识条件,才能有合理的概率收敛到令人满意的结果。否则,ChatGPT可能会陷入一个无休止的循环,或者得出错误的结论。由于聊天机器人可从提示中识别学生的知识差距,并引导他们学习相关概念,这对生物信息初学者是非常有益的。此外,需要以实践等方式进行ChatGPT的可用性测试,以充分描述将ChatGPT系统地纳入生物信息学教育学的优点、缺点和需要改进的地方。
总之,OPTIMAL模型通过采用一系列迭代步骤来提高学生的学习成果,开创了聊天机器人辅助生物信息学数据分析和辅导的先河。这样的策略可以帮助学生发展编码和分析能力,以及批判性和创造性思维。这种策略可能会超越课堂,成为终身学习的体验。
QB期刊介绍
Quantitative Biology (QB)期刊是由清华大学、北京大学、高教出版社联合创办的全英文学术期刊。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。
QB期刊目前已被ESCI, Scopus, CSCD等国内外重要数据库收录。Citescore2021=4.6,2023年将获得第一个影响因子(IF)。