论文标题:GeneGPT: Teaching Large Language Models to Use NCBI Web APIs论文地址:https://arxiv.org/abs/2304.09667
NCBI (美国国家生物技术信息中心)维护着世界上最大的生物医学数据库,包括基因序列、蛋白质结构、化合物性质,以及生物医学文本,并通过统一的 Web API 提供数据接口。通过让GPT 获取相关 web 接口,可以提升相关研究者获取信息的效率,让普通人能够通过自然语言获取相关的生物学知识。相比 New bing,ChatGPT 等通用工具,准确性更高。该研究代表了大语言模型的一类应用范式,即通过接入学科数据库和工具接口,提升大模型在具体学科的能力。
图3:GeneGPT 问答示例,能够回答领域相关的问题,例如基因变异与那些疾病有关
4. 从医学文本中递归地提取结构化信息
论文标题:Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning论文地址:https://arxiv.org/abs/2304.02711
论文标题:A GPT-Based Approach for Scientometric Analysis: Exploring the Landscape of Artificial Intelligence Research论文地址:https://arxiv.org/abs/2304.09487
这项研究提出了一个全面的方法,以解决科学计量分析在人工智能(AI)这个快速发展领域的挑战。通过将与人工智能相关的搜索词与GPT的高级语言处理能力相结合,该研究开发了一种高度精确的方法来识别和分析 Web of Science (WoS) 数据库中与人工智能相关的文章。多步骤过滤方法包括基于 WoS 引文主题、类别、关键词筛选和 GPT 分类以找出相关论文。 研究通过准确率召回率评估了该方法的有效性,发现该方法在整个 WoS 语料库中捕获了大约94% 的人工智能相关文章,准确率达到 90% 。随后作者分析了出版物数量的趋势,揭示了从2013~2022年的持续增长模式和不断增长的跨学科水平。作者对顶级国家和机构进行了引文分析研究,并利用关键词分析和 GPT 确定了共同的研究主题。这项研究展示了基于GPT的方法可促进准确的科学计量分析,提供关于跨学科性质和该领域关键参与者的洞察。 图12:论文搜索的相关流程
“后ChatGPT”读书会
2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢? 集智俱乐部特别组织“后 ChatGPT”读书会,由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。本系列读书会线上进行,2023年3月3日开始,每周五晚,欢迎报名交流。
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。读书会从2023年3月26日开始,每周日早上 9:00-11:00 线上举行,持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。 详情请见:人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动