查看原文
其他

产业调研:医疗认知智能技术进展

讯飞医疗 计算机文艺复兴 2023-02-27

产业调研系列

近期参加了讯飞医疗举办的人工智能分论坛,会上讯飞医疗副总裁鹿晓亮分享了医疗认知智能技术进展,现分享如下:


首先回顾一下人工智能的三次浪潮。人工智能技术从1956年名词被提出来以后,在过去的几十年里经历了三次浪潮。我们现在的第三次浪潮起源于2006年Hinton的一篇文章。他发表了一篇文章证明深度学习、人工神经网络如果把它做得足够深层,它可以起到非常好的效果。深度学习这个名字也从2006年开始。从此之后人工智能技术发生了天翻覆地的变化,包括语音技术、图像识别技术等。最近ChatGPT又给我们带来了一些新的不一样的地方。



第一个阶段叫运算智能。运算智能就是靠着机器或者服务器,能从“会算”这样的能力,让设备显得有些智能的成分,叫做运算智能。举个例子,比如很多智力挑战赛,看了几千个四位数,让你回答第五个四位数是什么,这样的问题对人类来说是一个非常大的挑战,但是对机器来说是非常轻松的事情。另外一个是感知智能,感知智能是需要通过技术让机器能够感知这个世界,能听会说、能看会认。更进阶的叫认知智能,认知智能希望给机器装一个大脑,让机器能理解、会思考。



简单的汇报一下目前这几个技术的一些进展。首先运算智能不说了,对于感知智能,最有代表性的就是语音识别、图像识别这些技术。比如语音识别,现在可能都会用到输入法里边的语音录入,在一般的情况下的语音识别的准确率已经做到很高了。但讯飞为代表的技术公司现在正在探索比如高噪音环境下的语音识别技术,目前在这方面有很大的突破。比如在一些非常复杂的场景下,把它错误率可以降到 30% 左右。另外就是语音合成,这些是感知智能非常有代表的技术,我觉得几乎可以达到真人说话的水平了。



举一个在自动驾驶领域图像识别的例子,感知智能在一些细分场景上超过人类水平。在自动驾驶领域,通过摄像头,我们需要分析出哪里是街道,哪里是房屋、人类、树木,这对技术挑战也很大,但是现在都做到非常不错的成果了。另外跟我们医疗相关的,跟图像识别有关系的技术,医学影像、图像识别,比如肺结节像这样的一些细分领域,机器做的可以超过我们一般人类的水平。高铁站、机场人脸识别,比我们人类的眼睛更准确。



谈到认知智能,先分享一下人类智能发展的奇点。人类在星球上出现大概是200万年前,但远古祖先都是三五成群,最多几百个人一个团队。直到7万年前,从非洲来的智人开始在不同部落中胜出,最后统治了地球。考古学家给出的结论就是现在各大洲的人类祖先,共同的祖先都是来自非洲智人。非洲的智人有什么能力可以统领社会?语言发挥了非常大的作用。在比较早时候,语言的表意能力是非常弱的,后来随着语言发展,语言的表意能力越来越强,再往后,语言就可以帮着人类去传递一些虚构概念。不要小看这样的语言能力,它最直接的价值就是让更多的群体协作在一起,现在一个公司十几万人协作地像机器一样,非常的精准,这就是语言这个概念的价值。对于人类智能来说,因为语言发展到一定程度,给人类智能带来的奇点。



同样,认知智能是人工智能最高阶的一个阶段,认知智能要解决的最重要的问题是语言的理解,机器能不能读懂书、能不能读懂文章,这是认知智能现在要解决的最难的一个问题,也是最重要的问题。比如现在验证你的认知智能水平怎么样,斯坦福大学有一个SQuAD的机器阅读理解比赛,给机器一篇文章,能不能在看完这篇文章之后,回答出提问的各种问题,讯飞在这多次参加都是冠军了。



回顾一下认知智能在技术方面的发展历史。从最初的统计机器学习,包括词袋模型的一些技术,再到 2013 年的自回归神经网络,再到OpenAI 的 ChatGPT的预训练模型,这是认知智能在理解语言方面的发展历程。ChatGPT横空出世就引起了全世界热议,大佬们对他评价非常高。



ChatGPT到底是什么?本质上就是一个深度神经网络的大模型。我们从 2012 年开始,把神经网络应用在语音识别、图像识别上是一样,现在的 ChatGPT就是深度神经网络大模型,但是它的结构不断演变,做一些变化,就是 transformer技术,但它做到足够大,有 1750 亿个参数,人类的大脑的神经元也才几百亿个。ChatGPT模型是做得足够大,它可以用于自然语言的生成,也可以用于自然语言理解。对ChatGPT3.5这种大模型的技术从18年开始研究,但是这一次确确实实引起了世界轰动,这里边非常重要的一点就是它实现了对语言理解的智慧涌现。



从18年6月份,整个学术界跟工业界开始对大模型进行研究,随着这几年发展,大模型的尺寸快速增长,比如GPT3.5的 1750 亿参数。当然这里边也有比较有代表性的两类大模型,一个是BERT,一个是GPT3,它们用了不同的算法,但是它基本的逻辑跟理论都是一样的。



ChatGPT的划时代意义有可能像我们人类智能中来自非洲智人对语言的理解一样,可能到达一个奇点位置。当然人类的智慧绝对不仅仅是语言,它有其他多模态的智能、运动智能、感知智能。当然语言的智能是它最重要的一部分。然后,ChatGPT在语言智能上已经达到了或者触碰到了智慧涌现。什么叫智慧涌现?比如以前训练了一个神经网络,每个神经元都非常简单,它的主要的工作传递信息非常简单。但是我们把成千上万、几百亿、几千亿的神经元累积在一起的时候,它的表现跟单体神经元的表现完全不一样,是超复杂的。我们就认为它是一个智慧涌现的情况,这个是ChatGPT带来的时代意义。



ChatGPT背后的一些技术分析,就是一个字——大。模型足够大,1750 亿的参数,算力足够大,需要1万张V100训练卡去训练、存储。ChatGPT一次训练成本1200万美金,没有包含人力和其他东西,光耗电就1200万美金,它的资源消耗是非常大的。另外是数据足够多,570GB 的训练数据,处理之前这数据量更大。OpenAI 下载了互联网上所有能够下载的数据用来训练模型,当然这里边还有很多工程方面需要去调优的一些工作。从整体上来说,ChatGPT里边肯定有很多技术创新,但它的核心逻辑跟以前讯飞包括很多机构都在做的类似,类似注意力模型这样的一些深度神经网络的算法,确实他们把它做得足够大,但是在足够大里边也肯定还需要解决很多问题。



从五个维度上来分析一下ChatGPT比较牛的地方。第一就是海量信息的参数化全量记忆。把几百G的数据训练完、参数化、全部记忆,任意任务的对话式理解,包括复杂逻辑的推理,包括不同角色、风格的长生成等等。举几个例子。因为它号称是学习了现在人类所有能够下载的知识,比如问人右下腹痛可能是哪些疾病,它就能把所有跟腹痛相关的可能疾病全部罗列出来,这是它超强的记忆能力。还有比如它的复杂逻辑的思维推理,这是ChatGPT之前对于机器学习算法最大的挑战,举个例子,喜马拉雅山穿越过的国家的首都是哪些?这就需要做一些简单推理的,当然现在ChatGPT能做的要比这样的逻辑推理更难。但我想用这个比较简单的案例来说明ChatGPT的一些推理能力。



另外就是多角色多风格的长文本的生成。举个例子,比如医生口述患者的一些简单或者关键的信息,再结合患者其他的一些检验数据,能不能帮医生生成一个门诊的电子病例,能不能帮生成一个入院记录或者是手术记录。当然能不能落地是需要技术跟医疗行业做更深度的探讨,但是至少从技术上判断,ChatGPT是一个典型的AIGC的一个技术,AIGC就是AI通过 AI来生成内容的一个技术,这是它的强项。所以类似这样一些对未来可能的探索,我觉得这是需要跟医疗行业在一起做更多的研究工作的。



ChatGPT虽然很牛,但确实还存在一些实用性的问题。我觉得ChatGPT比较牛的还是它的记忆跟学习知识,只不过是要学的东西太多了,它的参数可能还没有做到足够大,所以它对知识的理解有时候会存在模糊。所以因为它对记忆的模糊会产生很多的错误回答。这是一个问题。另外一个问题就是它的整个推理效率会慢很多,它对硬件资源的消耗会大很多。比如有一个统计,如果用ChatGPT做一次搜索,做一次大概需要 1 美分,做一万字搜索的成本是非常大的。举个例子,主流的对话系统每万次的成本是3块钱,但如果用GPT大概需要 500美元,会有这么大的差别。所以技术发展到这个程度了,但我们能不能应用它,它的成本怎么样,费用怎么样,这些是我们需要考虑的。这就是它存在的一些问题。包括它的实时更新相对较慢,现在GPT3. 5 用到的所有数据还是21年之前的。



讯飞医疗在认知智能过去一直是在做探索,包括很多的落地的工作。上图给大家讲的是我们面向基层医生的,我们希望人工智能辅助诊断系统能帮助最低层的乡医村医。现在讯飞的医疗助理面向乡医村医的助理已经在全国覆盖了近 400 个区县、2 万多个医疗机构。现在有两个非常重要的指标,一个是病例规范里、诊断合理率,基层医生在系统辅助下面去做问诊、写病例、下诊断、给处方,在这样的AI 助手辅助的情况下,它的病例规范大幅提升,诊断合理率也大幅提升。这都是我们通过跟第三方机构来做的一些对照组的实验给出的数据。



我们在等级医院里边,我们基于人工智能的中台,有语音的,有图像分析的,有自然语言处理的应用,应用在诊前、诊中、诊后各个环境场景里边去。对现在讯飞医疗的认知智能技术的落地,在等级医院里有 500 多家,基层医疗3 万多家。现在每天通过语音、电话、辅助诊断各种方式对外提供服务目前已经超过 18 亿次服务。




ChatGPT后续还有可能的一些颠覆性的应用。第一有可能改变我们信息分发的获取方式,我们以前用传统的搜索给出来的是各种各样的链接,这些链接还需要我们自己去做各种分析,机器能不能直接通过他的学习能力、推理能力给出我们最终的结果。当然这种改变也是分领域的,医疗行业到底怎么做这其实也还有很多需要深度考虑的问题,包括革新内容,生成模式。有没有可能我们去探索通过让医生口述一些关键的信息、一些基础的信息,而能帮他生成一个相对比较丰富的病例,比他现在用的模板更灵活,更丰富、更有内涵。另外,对现在人际交互的模式改变也是一种应用,以前的聊天机器人大家都觉得是傻瓜一样,但是有了这种大模型加持的人际交互模式,肯定会得到非常大改变。还有在科学研究各方面,ChatGPT都有可能会带来非常深层次的应用价值。



有几个方面的认识。第一,我觉得人工智能一定是可以帮到医生的。医疗确实是一个非常特殊的行业,我们对自己的疾病认识、对自己身体认识还处在一个不断摸索的过程。理论上他能治的病也没几种疾病,我们对自己身体的理解还不断的需要进步,在这个过程中,医生是需要大量的学习东西,而学习推理逐步会成为人工智能的强项。在这个过程中,技术能不能跟医生耦合在一起,给他提供更多的帮助,我觉得这个是一个非常肯定的答案。



另外,人工智能跟医生的配合不是代替关系,是人际耦合的关系。我们希望通过人工智能,能不能辅助医生,完成他 80% 的事务性工作,让他有更多的时间去做一些人文关怀,做一些更有创造性、有价值的工作。



合规声明:本文节选自讯飞医疗论坛纪要,属于公开资料,如需纪要全文请后台留言。

  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


ChatGPT相关报告

ChatGPT研究框架(80页PPT)

产业调研:一线专家眼中的ChatGPT



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存