每周应用|OpenEvidence要做医疗AI助手,还想比ChatGPT更靠谱
「这应用让AI触手可及」
撰文:何昕晔、王杰夫
编辑:王杰夫
Key Points
OpenEvidence是一款医疗类AI应用,它在美国医学执照考试(USMLE)中得分超过90%;
它有自己的自研大模型Xyla;
但它被开发出来的目的不是像ChatGPT那样聊天,而是帮助医护人员更好地获取医学研究的最新动向与成果。
目前的新冠疫苗对BA.5仍然有效吗?
下午突然开始头疼,我该吃点布洛芬、扑热息痛还是双氯芬酸钠呢?
经常失眠,除了吃褪黑素,还有哪些应对办法呢?
类似上面这些问题,我们日常生活中多多少少都会遇到。人活着就经常需要处理各种各样的医学问题,无论是偶尔头疼脑热、腰酸背痛时查找病因对症下药,还是每年拿到体检报告后学习各种诘屈聱牙的生化指标。
在过去,这些问题我都只能一股脑丢给百度或者Google,毕竟不是每个人都请得起私人医生,普通人也只有这个可以方便咨询的对象了。但网络上的医学内容常常危言耸听,以致每次搜索完病症后,我都有一种身患绝症、时日无多的念头。
不过,随着生成式AI技术突飞猛进,经过「医学训练」的AI或许会成为一个更靠谱的医学老师。
OpenEvidence就是这样一款诞生于新冠时期的医疗类AI应用。它由AI创业公司Xyla开发,也是第一个在美国医学执照考试(USMLE)中得分超过90%的AI,至少在应付考试方面,它的水平已经大大超过普通学生了。
OpenEvidence在USMLE考试的每一项上都胜过ChatGPT
USMLE是美国医学生获得临床执业资格的唯一准入测试,考试内容分为3步,分别侧重于考察基础医学、临床医学和技能应用的情况。在以上3项考试中,OpenEvidence的表现均优于ChatGPT,整体错误比ChatGPT少77%。
大模型驱动的内容栏目——TL;Dr.
目前,OpenEvidence还没有开发手机端应用,我们暂时只能够通过网页访问该服务。
点开OpenEvidence网站,它的首页并不像ChatGPT那样,开门见山给你一个对话框,让你直接就与智能助手对话,而是有点像传统门户网站那样,首页是一个叫「TL;Dr.」的内容栏目,产品气质上就有点老学究的味道。
细究起来,「TL;Dr.」的栏目名字其实来源于对网络俚语「TL;DR」的戏仿,「TL;DR」是「too long; didn't read」这句话的缩写,中文翻译过来大概就是太长不看。然而「TL;Dr.」将后半句改写成医学博士「Dr.」的缩写,用意自然是,太长了,那么博士帮你看。
「全世界每分钟就会增加两篇生物医学方向的论文,」TL;Dr.的栏目摘要如此说道,因此对这些论文做归纳分类、总结分析就尤为重要。
于是,OpenEvidence每天从新发布的论文中挑选4至6篇,用自家的医学大模型去阅读这些论文,并且生成一张数据可视化图表和一段概括总结的短文,这些短文被分在心脏病学、胃肠病学、肝病学等11个类目下。通过TL;Dr.栏目,相关科目的医生或研究人员就可以快速了解学界研究的最新动向与成果。
比如9月12日,TL;Dr.发表了《16.2%的儿童感染后仍存在长期新冠症状》,这篇短文是OpenEvidence的模型在阅读《儿科》杂志上的一篇论文后生成的。并且为了确保AI生成的内容不会出现偏差,该短文还经过了哈佛医学院Fernanda Ferreira博士的医学审核和哈佛大学丹尼尔·纳德勒(Daniel Nadler)博士的方法论审核。这两位博士都属于OpenEvidence团队,其中纳德勒同时还是OpenEvidence的创始人。TL;Dr.上每篇短文都要像这样经过团队审核后才能发出。
医师级人工智能
网站首页的右上角,就是OpenEvidence医疗助手的入口。点击进入后,你就会来到一个类似百度首页的页面。
OpenEvidence主页很像搜索引擎
页面正中是搜索框,你可以像使用搜索引擎那样向它提问。正文中几乎每句话都在右上角加上了交叉引用的编号标注,结尾还列出了所有参考文献,看起来就像是一篇文献综述。也就是说,OpenEvidence提供的信息都是可溯源的,用户可以知道每句话的出处,方便验证内容的准确性,也可以了解更详细的解释。
能做到这一点主要得益于OpenEvidence的大模型使用了大量国际顶尖医学期刊作为训练数据,当然并非所有期刊文章的水平都是一样的,开发者采用了在学术界衡量文章质量的影响因子作为答案的权重因素,会优先引用影响因子更高的文章。目前OpenEvidence的私人数据库中包括超3500万篇顶级医学期刊的文章,且每天都会访问美国国立医学图书馆的数据库,从中筛选期刊加入其知识库。
搜索框的左侧还有一个提问分类选项,默认自然是「全部」,此外你还可以选择「护理指南和标准」与「临床证据」,类似于在百度搜索时选择网页、资讯、贴吧等类目。这两个选项其实覆盖了医疗相关问题的两个回答方向,「护理指南和标准」更偏重提供实践建议,「临床证据」则偏重呈现理论事实。
举例来说,针对同一个问题,比如「无糖可乐对人体有害吗」。
「护理指南和标准」下的回答就会说,有些研究表明无糖可乐与一些病症具有相关性,但暂不确定因果关系;但无糖饮料可以减少肥胖并降低患冠状动脉疾病的风险。而「临床证据」下的回答则是列举了针对无糖可乐在新陈代谢、牙齿健康、冠心病方面的研究。不同回答所引用的文献并不完全相同。
如果你第一次使用OpenEvidence,不知道要问什么,那么搜索框的下方,网站还会给出一些问题的示例,比如「目前的新冠疫苗对BA.5仍然有效吗?」「牛皮癣的最佳治疗方法是什么?」,用户点击问题即可看到OpenEvidence的回答。
OpenEvidence的定位不是聊天机器人
可以看出,OpenEvidence想对标的对手并不是ChatGPT,虽然与ChatGPT同样使用了大语言模型技术去生成内容,但OpenEvidence并不支持连续问答,它更像是个智能的信息检索工具。而且由于训练数据都是英文期刊,所以它目前也只支持英语提问与回答。
在纳德勒眼中,OpenEvidence真正的对手其实是UpToDate的临床医学数据库。UpToDate是全球最大的临床社群,有200万医护人员使用者,年收入约为5760 万美元。它通过更新最新的临床医学研究发现,帮助医生做出诊疗决策。
相较于UpToDate,纳德勒认为,OpenEvidence的优势是交互,它不是静态的文本页面,这意味着用户可以在针对性的提问后获得答案,省去了繁琐的查询过程。
另一个显而易见的优势就是人力成本。官网显示,OpenEvidence团队目前不到20人,但它却提供了与竞争对手UpToDate丰富程度相当的内容,但后者背后可是7000多位员工在实时撰写和编辑主题条目。
只要在医护人员群体内逐渐积累起口碑,树立权威的印象,那么更便捷、效率更高的OpenEvidence一定会是UpToDate有力的挑战者。
OpenEvidence期望的用户群主要是医护人员
目前,持有美国医疗保健提供者编号(NPI)医护人员可以免费访问OpenEvidence。普通用户在官网注册后也可以试用,但每天只能提问2次。
不会写诗的经济学家不是好AI创业者
OpenEvidence的创始人丹尼尔·纳德勒出生于加拿大。2016年,他获得了哈佛大学经济学博士学位。OpenEvidence不是纳德勒的第一个创业产品。2013年,还在读博的纳德勒发现,美联储作为全球最重要的金融监管机构,竟然还在使用Excel分析经济数据。
于是他和程序员Peter Kruskall决定创立Kensho Technologies,推出一款面向华尔街的AI交易工具,利用机器学习让财务分析变得像在Google上搜索一样简单。他们创立了「Warren算法」,通过分析数百万个市场数据点来寻找相关性和套利机会。5年后,他以5.5亿美元将这家公司卖给了S&P Global,是当时AI领域最贵的一笔交易。
丹尼尔·纳德勒
除了创业者,纳德勒还有多重身份。2016年,他的首部诗集《Lacunae:100首想象中的古代爱情诗》出版,被美国全国公共广播电台评为年度最佳书籍。之后,纳德勒又涉足电影圈,担任了电影《布鲁克林秘案》和《帕尔默》的制片人。
2021年,长期关注AI纳德勒成立了一家新公司Xyla,希望在提高大语言模型(LLM)的准确性方面发力。Xyla的团队中当时有十几名已经取得或正在攻读博士学位的员工,还有一台位于内华达州沙漠中的超级计算机。
2021年正是新冠大流行时期,及时、准确的医疗健康信息显得格外重要。OpenEvidence这款应用就是在这样的背景下「诞生」的。但使用新的数据不断训练新的模型是不现实的,这需要高昂的运算成本,而当时Xyla账上只有纳德勒自掏腰包投资的500万美元。
因此纳德勒和团队成员采用了另一种方法,称为「检索增强生成」(Retrieval Augmented Generation,RAG)。这种方法最早由Meta AI的研究人员提出,可以将使用者的个人数据与预训练的大模型(LLM)结合,给出更有针对性、更可靠的输出,返回的响应中还可以带上引用的消息源,很大程度上避免了AI在回答问题时出现「幻觉」。
缺乏最新的知识和特定领域的知识已成为大模型进一步发展的阻碍。检索增强生成是解决这一问题的重要方式,对于企业等使用方来说,可以通过这种方式将本地数据和大模型能力结合。
2022年7月完成了B轮融资,共收到来自投资人Jim Breyer、Brian Sheth和Ken Moelis 等人的2700万美元,他们都是纳德勒上一家公司的投资者。本次融资后,OpenEvidence的估值为4.25亿美元。
今年3月,OpenEvidence入选第3期梅奥诊所(Mayo Clinic)AI创投孵化项目。梅奥诊所是全美规模最大的医疗机构,该项目是梅奥于2022年首次推出的为期20周的孵化计划,旨在帮助医疗保健领域的AI初创公司加速成长。梅奥会为入选公司提供临床数据、模型技术指导、临床专家对接等帮助,也会提供投资。梅奥投资OpenEvidence的金额尚未对外透露,OpenEvidence称,将与梅奥诊所合作,改进医疗保健信息构建和发现的方式。
除了推出面向C端的应用,OpenEvidence还在拓展B端市场。8月初,OpenEvidence与媒体集团Ziff Davis达成协议,OpenEvidence的技术将集成到Ziff Davis旗下健康相关的网站,包括面向健康专业人士核心受众的 MedPage Today和面向在互联网上寻求权威答案的普通读者的Everyday Health。
随着生成式AI来到「第二幕」,如何让AI真正有用成为每个科技公司的首要议题,深耕垂直领域OpenEvidence或许是个很好的范例。
产品链接:
https://www.openevidence.com/
应用档案/OpenEvidence
创立时间:
2021年11月
主要功能:
专业医疗信息咨询机器人,每句回答都会给出消息源
支持平台:
目前仅有网页版
产品价格:
持有美国医疗保健提供者编号(NPI)医护人员可免费无限使用,普通用户每天限制2次提问
-END-
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
以下是最近发生的其他智能资讯
智能晚报|亚马逊投资Anthropic 40亿美元;Meta将推出多个AI聊天机器人;NASA首次从小行星收集样本...
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得「设为星标」