国外自闭症人群多模态话语及智能辅助诊断与干预研究

马博森曾小荣等语言科学 2022-04-24

摘要：

由于患病率不断攀升，加之诊断和干预资源严重匮乏，自闭症已演变成为全球性重大公共卫生问题。开展自闭症人群多模态话语及智能辅助诊断与干预研究是积极应对这一挑战的重要举措。本文首先梳理了国外自闭症人群多模态交际话语和他者关涉自闭症人群话语两方面的研究成果，然后介绍了国外基于多模态数据的自闭症人工智能辅助诊断与干预研究进展。

关键词：自闭症；多模态话语；人工智能；辅助诊断；辅助干预一、导言

自闭症是一种神经发育性障碍，以社会交往障碍和兴趣狭窄及重复刻板行为为主要特征（Ameri-can Psychiatric Association 2013）。据美国自闭症和发育障碍监测网（Autism and Developmental Disabil-ities Monitoring Network）对 11 个州 8 周岁儿童的监测显示，2014 年自闭症谱系障碍儿童的患病率为1∶59，与 2000-2002 年的1：150相比，患病率增加了119.4%（Baio 2018）。在国内，据 2017 年《中国自闭症教育康复行业发展状况报告 II》的统计，目前自闭症人群超过1000万，其中自闭症儿童 200余万，并以每年近20万的速度增长。

由于患病率不断攀升，加之诊断与干预资源严重匮乏，自闭症已演变成为全球性重大公共卫生问题，这一人群因而也日益受到不同领域研究者的关注。其中，自闭症人群多模态话语为热点研究领域之一。本文所说的“多模态”是指表征意义的多种方式或符号系统，如书面文字是一种符号系统，声音是另外一种符号系统，手势又是另外一种符号系统等（顾曰国 2013）。从多模态视角进行话语研究就是要探讨话语交际者如何运用多模态符号资源表达意义。就自闭症人群多模态话语研究而言，我们既可探讨自闭症人群在交际中如何产出和理解多模态话语，也可分析媒体、大众以及家长等如何从多模态视角表征自闭症人群。本文把前者称为自闭症人群多模态交际话语研究，后者称为他者关涉自闭症人群多模态话语研究。此外，随着人工智能技术的迅猛发展，基于脑成像及自闭症人群多模态话语数据的辅助诊断及针对自闭症人群多模态话语的干预研究也取得了不少成果，前景令人鼓舞。本文将从自闭症人群多模态话语及其智能辅助诊断与干预两大方面，梳理国外相关研究，以期为国内同行提供参考和借鉴。

二、自闭症人群多模态话语研究

依据导言所述，自闭症人群多模态话语研究既可包括自闭症人群多模态交际话语研究，也可包括他者关涉自闭症人群多模态话语研究。从我们所掌握的文献来看，目前针对前者的研究成果丰硕，但针对后者的研究仅涉及言语模态，属于单模态话语研究。有鉴于此，本节分“自闭症人群多模态交际话语研究”和“他者关涉自闭症人群话语研究”两小节加以介绍。

（一）自闭症人群多模态交际话语研究

自闭症人群多模态交际话语涵盖该人群所产出和理解的多模态话语。研究这类话语可采取不同的研究范式。现有研究主要采用基于心理学的实验研究范式和基于社会建构主义的话语分析范式。

1. 实验范式的自闭症人群多模态交际话语研究

基于心理学的实验研究范式具有如下内在假设：多模态交际是认知的外在表现，对其加以研究可揭示自闭症人群在神经认知方面所存在的缺陷。这种研究范式基于诱发语料，量化对比分析自闭症人群、正常发展人群以及其他类型特殊人群在多模态交际中产出和理解话语的不同特征，由此来探究自闭症人群的话语-语用障碍。

就多模态话语产出而言，已有研究或聚焦于言语模态，或关注手势模态，或探讨言语模态与手势模态之间的互动。如针对自闭症儿童使用言语模态的研究表明，在口语交际中，他们或反复重复某一话题，或一个人独占话题，或随意打断和改变对方的话题，或经常使用一些与社会规则或语言环境相矛盾的用语，或不根据会话者的相互关系进行会话等（梁丹丹 2017）。此外，与正常儿童相比，自闭症儿童所产出的叙事语篇在衔接等方面表现较弱（Losh & Capps 2003）。针对手势模态的研究则发现，3～12岁的自闭症儿童存在手势发展迟缓现象且较少使用指向性（pointing）、表征性（representa-tional）以及具有特定文化意义的手势（Baron-Cohen 1989）。针对言语模态和手势模态之间语义互动关系的研究发现，2～3岁自闭症儿童产出的、与言语共现的手势大多承担语义强调（reinforcing）功能，较少承担语义补充（supplementary）功能（Sowden et al. 2013）；与同年龄段的正常发展儿童相比较，6 ～12 岁的自闭症儿童产出的手势不仅相对较少，且承担语义补充功能的手势同样缺乏（So et al. 2015）。

除多模态话语产出研究之外，亦有学者关注自闭症人群在理解多模态话语方面存在的障碍。研究工作既涉及言语模态，也涉及注视模态及表达情感的面部表情及韵律等模态。在言语理解方面，现有研究主要探讨自闭症人群对修辞性语言、特殊疑问句（Prévost et al. 2017）、基于口头叙事语篇的推理性问题（Westerveld & Roberts 2017）、会话含义（Pastor-Cerezuela et al. 2018）以及英语中表时态的屈折语素（Tovar et al. 2015）等的理解障碍。其中，修辞性语言理解障碍是研究热点，如 Kalandadze et al.（2018）综述了41项涉及自闭症人群和正常发展人群理解修辞性语言的对比研究成果，这些研究共涉及 1119 名自闭症个体和 978 名正常人群。该综述的结论表明，总体来看：（1）自闭症人群理解修辞性语言的能力落后于与之匹配的正常发展人群；（2）就两类人群理解修辞性语言存在差异的原因而言，修辞类型与两类人群的差异之间具有相关性。具体而言，相比反语和讽刺，自闭症人群更难以理解隐喻。相对于修辞类型，已有研究没有发现操不同母语会对差异造成影响。

总体来看，上述基于实验的自闭症人群言语理解研究表明：（1）与正常发展人群相比，自闭症谱系障碍人群的语言理解能力发展迟缓，且内部不同类型之间存在高度异质性，如 Kjellmer et al.（2012）的研究表明，与阿斯伯格症组儿童相比，未分类广泛性发展障碍（Pervasive Developmental Disorder Not Otherwise Speciﬁ ed，PDD-NOS）组和典型自闭症儿童组的语言理解能力更弱；（2）自闭症人群的语言理解能力与语言产出能力之间存在正相关关系（Kalandadze et al. 2018）。

在注视模态研究方面，已有成果表明，自闭症儿童在交际中较少使用跟随发话人目光的策略，即他们不能像正常发展儿童一样把交际对方的注视理解为社交线索。相反地，他们把目光大多投向自身所关注的对象。究其原因，自闭症人群缺乏心理理论（the theory of mind），无法推测对方的心理状态，因此这种障碍也被形象地称为“心盲注视”（mindblind eyes）（Baron-Cohen et al. 1997 ；Senju et al. 2009）。

就理解表达情感的面部表情及韵律等模态而言，研究发现：（1）自闭症人群借助面部表情理解积极情感（如高兴）时不存在障碍，但在理解消极情感（如伤心）及复杂细微情感时存在障碍；（2）自闭症儿童在理解承载消极情感的韵律特征时存在困难。此外，他们在匹配韵律和面部表情时也存在困难（Nuske et al. 2013）。

2. 基于社会建构主义的自闭症人群多模态交际话语研究

近十余年来，基于社会建构主义的自闭症人群多模态交际话语研究逐渐兴起。起源于20世纪 60年代的社会建构主义关注知识和现实被构建和理解的过程（Berger & Luckmann 1966），其核心观点是：（1）知识并不是一种客观的毫无偏见的存在；（2）知识具有文化、历史和社会方面的独特性。据此，社会建构主义认为任何对于现实的解释都不是中立的，需要追问背后的假设（Gubrium & Holstein 2008）。

社会建构主义研究可从宏观和微观两个层面展开。宏观层面主要关注集体表征和权力之间的关系；微观层面则关注人们在互动中如何构建意义和达成相互理解（Gubrium & Holstein 2008）。基于社会建构主义的自闭症人群交际话语研究主要从微观层面展开。相关研究采集自然会话语料，使用会话分析或话语分析研究方法，强调结合具体语境来重新认识和思考该类人群的交际障碍（O’ Reilley &Lester 2015，2017）。与基于诱发语料的实验研究范式相比，这一研究范式侧重于分析自闭症人群在真实语境中的交际能力以及其他交际参与者对自闭症人群交际行为的影响，如 Sterponi & Shankey（2014）考察一位 6 岁自闭症儿童在家庭环境中与不同成年人（含父母、家庭教师及其他家庭成员）的日常交际情况，侧重分析互动中该儿童的回声式言语及其对显性互动的反馈方式。研究发现，该儿童能够灵活运用回声式言语来表明不同的话语立场。Maynard，McDonald & Stickle（2016）考察了父母如何采用不同的互动风格来共同说服一名自闭症儿童。研究发现，母亲倾向于使用条件型互动来引导男孩产出言语；父亲则倾向于使用调节型互动方式，并采用一些类似游戏的活动。

除言语模态外，基于社会建构主义的自闭症人群多模态交际话语研究还关注注视模态，如 Korki-akangas（2018）采用质性分析方法探讨自闭症儿童在交际中如何使用注视，重点分析注视发生的时机及注视在交际中的功能。该研究指出，自闭症儿童在注视回避（gaze avoidance）的同时会使用微笑和肢体动作（摸头发、挠腮等），这是对序列需求的顺应。虽然儿童没有口头回答，但顺应表现表明了他们对问题的理解，而非对其无视或者拒绝交际。

实验研究范式的自闭症人群话语研究重点关注自闭症人群的交际障碍，而基于社会建构主义的研究范式在正视自闭症人群存在交际障碍的同时，更侧重在真实语境中观察和分析他们所表现出来的交际能力，从而为研究自闭症人群的干预提供了新启示。如传统的自闭症儿童干预研究认为应尽早压制这些障碍，而基于社会建构主义视角的研究则认为临床医生需重视和挖掘自闭症儿童话语中的意义，关注孩子如何以言行事，同时更加重视他们的主体地位，促进他们与成年人进行更加多样、真实、有效的社会交往，从而提升干预效果（Sterponi & de Kirby 2016）。

（二）他者关涉自闭症人群话语研究

在上一节，笔者介绍了学界对自闭症人群多模态交际话语的研究。本节谈谈学界针对他者关涉自闭症人群的话语研究。这类研究既关注电视、报纸、网络等媒体对自闭症人群形象的建构，也关注自闭症儿童父母话语中的自闭症儿童形象表征。

作为当下社会关注的热点公共健康议题，媒体直接或间接地影响着社会大众对自闭症人群的认知、评价和身份建构，因此媒体关涉自闭症人群的话语受到研究者的关注。林美珍和马博森（待刊）对 Web of Science 2008—2017 年间所收录的自闭症人群媒介话语研究进行了梳理。b从研究数量来看，近10年来，用英语发表的这类论文仅有 28 篇，数量较少，说明这一领域的研究仍未引起足够重视。从研究方法来看，国外自闭症人群媒介话语研究以定量分析为主。研究语料则主要来自传统媒体，包括报纸、杂志、电视以及电影等，其中，采用报纸语料的研究约占 50%。从研究内容来看，相关研究关注以下 3 个方面：（1）基于 MMR（Measles, Mumps and Rubella）疫苗争议事件的医学新闻报道研究。疫苗争议事件的起因是有研究认为接种 MMR 疫苗会增加儿童自闭症的发病风险，从而引发了争议和媒体广泛关注；（2）基于框架理论的自闭症人群媒介形象建构和媒介框架变迁研究；（3）探究自闭症议题报道方式影响受众态度和行为的实验研究。这些研究表明，媒体所构建的自闭症人群形象以负面为主，所展现的往往是自闭症人群的异常行为以及对自闭症儿童的偏见，因而不利于大众更好地了解这一人群。

除上述针对西方媒体的研究外，国外学者针对中国媒体中的自闭症儿童形象也进行过研究，如Bie & Tang（2015）和Tang & Bie（2016）选取中国内地5份报纸（《人民日报》《北京晚报》《新民晚报》《今日晚报》和《南方都市报》）中 10 年间（2003 年 1 月 1 日～ 2012 年 12 月 31 日）的自闭症报道为语料进行研究。研究发现，中国内地媒体报道的话语主体为家庭，然后是专家，最后是自闭症人群本身。此外，与美国媒体报道相比，中国媒体报道的消息来源中，自闭症人群所占的比例较低。尤为值得关注的是，中国报道中政府官员的消息来源只占 9%，而美国媒体报道中这一比例是 41%（McKeever 2013）。两类报道相比较，中国报道更突出家庭的角色，而美国报道则更突出政府和专家的角色。究其原因，这可能与中国传统儒家文化中家庭占据重要位置有关。受生死轮回和报应等民间观念的影响，中国家庭更多地把自闭症视为“家庭问题”，而不是一种需要政府支持的发育性障碍，因此给家庭带来了诸如精神上的羞辱和经济等各方面的压力。这一“家庭问题”观点在同处东亚文化圈的越南自闭症人群研究中，也得到了验证（Ha et al. 2014）。

除媒体中的自闭症人群形象研究外，自闭症家长话语中的自闭症人群形象也是一个值得深入研究的问题。已有研究主要采用访谈法采集语料，探讨自闭症家长对自闭症的理解以及抚养自闭症儿童所面临的社会压力，并分析相关原因（Neely-Barnes et al. 2011 ；Lester & Paulus 2012 ；Fernandez-Alcántara et al. 2015 ；Broady et al. 2017）。其中，Lester & Paulus（2012）通过半结构化访谈的方式采集语料，从话语心理学的视角研究自闭症儿童父母如何理解自闭症。该研究发现，与科学层面的定义有所不同，自闭症患者父母对自闭症的理解具有多样性：或认为自闭症不是障碍，而是在某方面具有天分或思维方式与常人不同；或认为自闭症是一种真实存在且需要克服的问题；或认为自闭症个体差异较大，因此难以准确定义。此外，Broady et al.（2017）通过采访家长，分析了自闭症污名化现象产生的四方面原因（公众缺乏知识、因缺乏知识带来的不合理评价、排斥和缺乏支持）以及污名化出现的 4 种常见社交语境（学校、公众、家庭以及朋友），并分析了上述两方面因素对自闭症患者监护人所造成的负面影响。

本节从自闭症人群多模态交际话语研究和他者关涉自闭症人群话语研究两个方面综述了国外自闭症人群话语研究现状。从所关注的自闭症人群来看，现有自闭症人群多模态交际话语研究关注不同年龄和不同亚类的自闭症谱系障碍人群。从研究范式来看，现有研究既包括实验范式，也包括基于社会建构主义的话语分析范式。从研究内容来看，相关研究不仅关注自闭症人群的话语产出，也关注自闭症人群的话语理解。就他者关涉自闭症人群的话语研究而言，现有研究大多关注媒体中的自闭症人群形象表征。此外，亦有研究关注自闭症儿童父母话语中的自闭症形象表征。

三、人工智能辅助自闭症诊断与干预研究

所谓人工智能研究，指研究如何使计算机去做过去只有人才能完成的智能工作（冯志伟 2018）。当前，随着自闭症患病率的不断攀升，而相应的早期诊断及干预资源却十分匮乏，研究者开始关注如何利用人工智能技术来辅助自闭症诊断及干预。

（一）基于多模态数据的人工智能辅助诊断研究

国外基于人工智能的自闭症辅助诊断研究涉及多种类型的数据，大致包括以下 3 类：（1）脑成像数据。基于该类数据的研究通过训练一个神经网络模型来分析脑成像数据，从而实现自动区分自闭症儿童和正常发展儿童，并期待最终能够获得较高的辅助诊断准确率（Hazlett et al. 2017）。（2）通过录像或相关穿戴设备来采集经确诊的自闭症儿童的语言、动作及面部表情等多模态数据，并在此基础上借助人工智能来识别这类患者的行为特征，从而实现智能辅助诊断，如 Hashemi et al.（2014）基于《婴儿自闭症观察量表》（The Autism Observation Scale for Infants），以12名5 ～ 18 个月大的自闭症高风险婴儿为对象，借助计算机视觉工具来自动识别这些婴儿的视觉注意和注意力游离这两种行为，并通过与人工判断相比较，检验系统的准确性，从而为后期开展非侵入性辅助风险筛查奠定基础。（3）基于自闭症诊断访谈量表（the Autism Diagnostic Interview）和自闭症诊断观察量表（the Autism Diagnostic Observation Schedule）这两个金标准的诊断数据。相关研究采用人工智能算法找出量表中的关键项目，试图解决当前自闭症人工诊断中诊断项目过多，耗时过长，从而导致诊断资源紧缺的问题。a 代表性研究如 Wall，Dally，Luyster et al.（2012）和 Wall，Kosmicki，DeLuca et al.（2012）。前者分析了2867位自闭症谱系障碍患者的 ADI-R 访谈诊断数据。研究发现，虽然该量表共包含 93 个访谈项目，但其中 7 个项目的访谈结论便能够预测全量表访谈诊断的结果，且预测准确率高达 99%。这7个项目分别为：项目 29（能否理解简单的语言）；项目35（能否进行互动交谈）；项目 48（是否会玩想象性游戏）；项目 49（是否会与同伴玩想象性游戏）；项目 50（是否有直接注视）；项目 64（是否会与同龄人玩游戏）；项目 86（最早出现明显异常的年龄）。此外，Wall，Kosmicki，DeLuca et al.（2012）使用一系列机器学习算法来研究自闭症基因资源交流库（AGRE）和波士顿自闭症联盟（Autism Consortium，AC）提供的 ADOS Module 1b 的完整分数，这些分数来自612个自闭症谱系障碍患者和15个非谱系对照组。分析表明，Module 1 中虽有29个项目，但其中8个项目的诊断数据便足以准确判断个体是否患有自闭症。这 8个项目分别为：朝向他人发声的频率、异常眼神接触、反应性社交微笑、互动中分享乐趣、展示、自发地相互协调注意力、物品的功能性游戏以及想象力 / 创造力。

（二）提升自闭症人群多模态交际能力的智能辅助干预研究

除基于人工智能的辅助诊断研究外，由于模态交互技术的进步，近年来基于人工智能的自闭症人群康复训练研究也逐渐兴起（Porayska-Pomsta 2012）。这类研究重点探讨如何将人机互动应用于自闭症儿童的多模态交际训练，其中的“机”包含两大类：一类为非机器人干预设备，包括平板电脑和智能眼镜；一类为机器人干预设备，包括非人形机器人和人形机器人。

早期非机器人设备所实施的康复训练以单项交际技能训练为主，包括自闭症患者的面部表情识别训练、情感识别训练等，如 Faja et al.（2008）探讨计算机面孔识别训练能否对自闭症患者的面孔加工（face processing）策略和能力产生影响。结果显示，接受过训练的自闭症患者在面孔加工方面显现出优势。与单项训练相比，以提高自闭症谱系障碍人群整体交际能力为目标的综合训练近来日益成为研究焦点。这类训练运用人机交互技术和融合人工智能的虚拟现实技术，所创设的情境更接近真实的生活语境，如 Didehbani et al.（2016）探讨基于虚拟现实的社会认知训练对自闭症儿童社交技能的影响。研究者选择 30 名7～16岁，被诊断为高功能自闭症的患者参与研究。他们在 5 周内完成 10 次训练任务。这些任务包括情感识别、社会归因、注意力和执行功能。测试结果表明，他们上述各方面的表现均有提升。此外，融合虚拟现实技术的智能眼镜也被证明有助于自闭症患者的康复训练（Liu et al. 2017 ；Keshav et al. 2017）。

相对于非人形机器人或普通玩具而言，诸多自闭症儿童对具有人形外表的机器人更感兴趣，不仅对这类机器人动作的反应更快，且表现出更多的交际行为（Diehl et al. 2012），因此相关研究探讨使用这类机器人教授自闭症儿童社交技能的方法及效果。这些研究涉及的相关技能包括模仿、识读面部表情以及眼神交流等（Fujimoto et al. 2010 ；Shamsuddin et al. 2012 ；So et al. 2016 ；Robins et al. 2005）。其中，So et al.（2016）以10名6～12岁的低功能自闭症儿童为研究对象，通过播放机器人做示范的动画，教授自闭症儿童使用 20 个手势。结果显示，自闭症儿童能够泛化他们习得的手势。总体来看，这类研究中所使用的人形机器人更符合儿童的心理特点，如 Shamsuddin et al.（2012）使用既会说话又会跳舞的机器人 NAO 来训练自闭症儿童的目光注视。在陪伴自闭症孩子的过程中，NAO与孩子一同参与活动，在活动过程中试图提高他们识读面部表情和适当进行眼神交流的能力。此外，人形机器人还能对自闭症儿童的表现进行反馈或鼓励，以此达到强化行为的康复训练效果，如在治疗中，机器人模仿美式足球里触底得分的手势，对儿童的行为提供积极反馈（Villano et al. 2011）。

总体而言，基于人工智能的自闭症人群辅助诊断与干预研究为国外人工智能运用于医学领域的研究热点之一，该研究工作具有重要的现实意义。随着人工智能技术在大数据时代的开发运用不断深化，可以预见，未来其在自闭症辅助诊断和干预研究领域的角色将更加凸显。

四、结语

本文首先从自闭症人群多模态交际话语研究和他者关涉自闭症人群话语研究两方面梳理了现有的自闭症人群话语研究成果，然后分别介绍了基于人工智能的自闭症辅助诊断与干预研究的最新进展。相较国外研究，国内无论是自闭症人群多模态交际话语研究还是他者关涉自闭症人群的话语研究均处于起步阶段，研究成果正陆续面世，如马博森等（2019）基于诱发语料，探讨汉语自闭症儿童如何使用指称语、指称手势和指称目光这 3 种模态实施指称行为；张笛（2019）探讨句末语气词和韵律在自闭症儿童理解反语方面的作用；林美珍和马博森（2019）以国内报刊媒体中有关自闭症人群的报道为研究对象，考察报道中的话语建构特征，并剖析其存在问题和影响因素。在基于人工智能的自闭症辅助诊断与干预研究方面，国内研究亦处于初创阶段。就我们所知，相关研究项目有广州中山大学第三附属医院与昆山杜克大学计算机系的合作项目和浙江大学自闭症儿童交际行为智能分析团队的项目。前者运用人工智能技术分析自闭症谱系障碍儿童、正常发展儿童和发育迟缓儿童的多模态行为数据，探讨基于人工智能的辅助诊断方法；后者采集自闭症儿童和正常发展儿童的多模态交际数据以及自闭症儿童的医学生化数据，运用人工智能技术开展自闭症儿童的辅助诊断研究。

未来我们希望国内同行能够积极借鉴国外已有研究成果，通过多学科交叉融合，不断推进国内在自闭症人群多模态话语及人工智能辅助诊断与干预领域的研究工作，造福万千自闭症人群。

作者简介：

马博森，浙江大学教授，博导。研究方向：话语分析、语言障碍研究。

曾小荣，男，江西农业大学副教授，主要研究方向为多模态话语分析。

本文来源：《语言战略研究》，感谢马博森教授和《语言战略研究》编辑部的支持。更多期刊内容，欢迎点击阅读原文查看。

延伸阅读

语言学的问题意识、话语转向及学科问题

中国语言障碍与言语治疗——现状分析和发展思路

西方多模态话语研究与批评话语研究的融合趋势

多模态语用学视域下的言语行为与情感因素：兼论在老年语言学中的应用

语言研究的超学科意识

语科教师群