查看原文
其他

自动语言分析在精神分裂症和精神病临床高危综合征中的应用

张丹,等 神经疾病与精神卫生 2022-07-17
点击上方“神经疾病与精神卫生”可以订阅


基金项目

上海市自然科学基金(19ZR1445100)

• 国家自然科学基金(82001406)

• 上海市精神卫生中心基金(2020-FX-02)




精神分裂症发病率高,具有高自杀率和高致残率。近年来,对于精神分裂症的临床研究热点前移至精神病临床高危综合征(CHR-P)。


CHR-P人群的临床表现为轻微的精神病性症状和社会功能损伤,但是尚不符合精神分裂症标准。


基于临床评估和随访,CHR-P人群在2年内转化为精神病的概率在30%左右,这很难满足临床早期干预需求,亟待开发可以预测CHR-P临床转化的新技术。


语言反映精神活动结构和内容,语言分析常被用来研究患者的思维障碍。


较早的语言分析常采用手动语言分析,主要指临床访谈结合量表评分。研究者常用思维、语言和交流评估量表(TLC)和儿童形式思维障碍量表(K-FTDS)评估患者的思维障碍。


综合前人研究发现,手动语言分析往往比较费时费力,主观性较强且准确度低


随着人工智能技术的发展,自动语言分析(AAL)在精神疾病领域的应用也愈加广泛,研究证明其效果可能优于手动语言分析。


AAL是一种基于人工智能和自然语言处理的计算方法,主要用于处理和理解个体的语言内容,其优势在于可敏感、客观和快速地提取语言特征,尤其是细微的语言障碍


这不仅有助于研究精神分裂症患者和CHR-P人群的思维障碍,也有助于预测CHR-P人群转化。


现就语言采集方法、常见的指标及其应用进行介绍。



一、语言采集方法


目前语言采集方法分为3种。

首先是自由访谈,要求被试在自然和放松的状态下谈论自己当前想到的事情,其目的是让被试尽可能多加谈论,进而获取丰富的语言信息。


其次是结构式访谈,要求被试完成语言任务,常见任务有故事游戏访谈,要求被试复述所听到的故事、回答相应问题以及讲述一个新故事。


最后是书面语言采集,要求被试完成一段情景式叙述描写。


综合3种方法,自由访谈和结构式访谈应用较多,且针对CHR-P人群,往往需要更长的访谈时间,这是为了获取更多的语言信息进而探索细微的语言障碍。


二、AAL常用指标、分析技术及应用


AAL常见分析指标涉及语义、句法,最新研究也有涉及隐喻性和情感,具体见表1。



接下来逐一介绍指标的意义、分析技术和在精神病领域的应用。


1.语义一致性:

语义一致性指个体语言信息有序衔接的程度。潜在语义分析(LSA)是目前最常用的测量方法,优点在于灵活、客观和有效


在词汇习得理论的启发下,LSA的应用原理为词义是每个词与其他词之间关系的函数。


计算机通过扫描相当大的语料库学习该词的含义,当两个词语同时出现的频率越高,则相似性越高(例如猫/狗和猫/铅笔)。


LSA将每个单词映射到一个降维的向量空间,给每个单词分配一个相关联的单词向量,相邻单词向量之间的余弦值可以用来评估单词之间的相似性。


将单词向量相加得到短语向量,通过测量相邻短语向量之间的余弦值可以测量语篇层面的语义一致性。低语义一致性提示精神分裂症的阳性思维障碍。


Elvevå等首次利用LSA分析语义一致性,并采用TLC量表评估患者的思维障碍,结果发现,患者的语义一致性低于健康对照,且语义一致性与思维障碍得分存在相关关系


另外,判别分析结果显示,语义一致性区分精神分裂症患者和健康对照的准确率为82.4%。


基于精神分裂症的遗传性,Elvevå等在随后研究中要求患者分别和一级亲属以及陌生的健康被试自由交谈,发现语义一致性区分患者和健康对照(一级亲属和陌生的健康被试)的准确率达到86.8%


另外,不同年龄段的精神分裂症患者的低语义一致性现象可能是稳健的,因为Holshausen等发现老年精神分裂症患者的语义一致性也相对较低,且得分与适应性功能评分相关


最后,采用语义一致性预测CHR-P人群转化也是当前的研究热点,研究者也在不同风险队列之间进行了交叉验证,表明语义一致性可能是预测CHR-P转化最有效的指标之一。


2.语言连接性:

语言连接性指在不考虑内容和句法的情况下,单词之间的语序接近性


语音图解分析常用来测量语言连接性,该方法将每个单词视为节点,单词之间的时间序列表示为有向边,即用语言创建图表量化不同个体的语言连接性差异。低语言连接性为精神分裂症的阴性思维障碍。


首先,语言连接性可被应用于区分精神分裂症患者和健康对照,一项研究显示区分准确率达91.67%。其也可用于区分精神分裂症和躁狂症(敏感度为93.8%,特异度为93.7%),且区分效果优于传统的临床量表(敏感度为62.5%,特异度为62.5%)。


其次,语言连接性与临床症状相关,包括阴性症状,认知表现、思维障碍和使用功能磁共振成像在静止状态下测量的大脑连接障碍。另外,研究发现CHR-P人群的语言连接性介于健康对照和精神分裂症患者之间,语言连接性得分与CHR-P人群的临床转化相关。


最后,研究发现针对健康被试,教育水平能较年龄更好地解释语言连接性和个体发展之间的关系,而对于精神分裂症患者,未发现教育水平有类似的作用,这提示了精神分裂症患者语言发展轨迹可能出现了早期偏差


3.内容贫乏:

内容贫乏为典型的精神分裂症阴性症状,常用测量指标有句法复杂性和语义密度


句法复杂性指语言的具体性,常采用词性标注分析(POSTag)技术进行测定。


该技术首先根据语法功能对每个单词进行语法标记,最后根据语法标记统计每个语法功能的使用频率。


常见的统计指标有“that”和“which”等补语词的频率以及具有语法规则的短句长度等,研究显示这些指标都可预测精神分裂症发作。


语义密度是指一个句子中能够表达语义的成分(意义成分)数量,常使用POS-Tag技术和向量解包技术进行测定


向量解包技术原理在于将一个句子中的意义成分数量除以句中实词的数量,进而得到语义密度(范围0~1),且研究发现该指标有助于预测CHR-P人群转化


4.指称衔接:

指称衔接是指不清楚或模棱两可的指称词的数量,是一种连接短语或者句子的语言特征


指称词包括代词、指示词和比较词,指称词的准确应用能表示上下文存在联系。


研究者常采用Coh-Metrix工具(一种基于网络的计算语言分析工具)评估指称衔接。


精神分裂症患者和CHR-P人群均被报道存在较低的指称衔接,且指称衔接也有助于预测精神分裂症预后效果和角色功能损害程度


5.其他指标:

近年来,有3个新指标被证实有助于预测CHR-P人群转化。


首先是潜在内容常用潜在内容分析技术进行测定,该技术将被试的语言样本与大型语料库进行比较识别语言表达中的潜在内容。


其次是隐喻意义常采用隐喻识别算法进行测定


根据前人报道,精神分裂症患者可能会频繁使用一些具有隐喻意义的词语,如“手表”被称为“时间容器”。


隐喻识别算法可以在大型隐喻语料库中学习词语的隐喻意义,进而将语言样本中的单词标记为字面意义或者隐喻意义。


最后是情感分数采用自动情感分析进行评估,该方法在词汇和短语层面进行情感评分,评分范围为1(非常消极)~5(非常积极)。


综上所述,随着AAL技术的发展,量化语言特征的指标种类愈加丰富,进而为研究精神疾病患者的思维障碍夯实了重要基础。


三、综合多种语言指标预测CHR-P人群转化的研究进展


精神分裂症发作前已经存在一段可以临床识别的时期,即前驱期,此时为干预的最佳时机


处于前驱期的CHR-P人群在思想、知觉和交流方面表现出亚临床症状。


预测CHR人群的临床结局对于早期干预意义重大,并且有助于早期预防CHR-P人群功能恶化并减少疾病迁延的风险,因此相应预测技术和模型也成为该领域的研究热点。


当前研究挑战在于如何在症状模糊和微妙的情况下来探测精神疾病的迹象。


研究表明,综合多种语言指标预测精神分裂症发作的效果可能最佳


结合语义特征和语法特征确定机器学习分类器是当前研究的趋势之一。


Bedi等采用开放式的基线访谈,结合LSA、POS-Tag和机器学习方法,确定了一个凸包分类器。


分类器包括3个指标,分别为“相邻短语的语义一致性最小值”“短语长度”和“限定词使用的频率(如which和that)”,结果表明,这3个指标与临床症状得分相关,而且分类器预测CHR-P人群转化的准确率达到100%(34名CHR-P个体,2.5年后5人转化)。


在此基础上,Corcoran等修改了语言采集方法,即要求被试完成“故事游戏”访谈,创建逻辑回归分类器,确定了3个指标,包括“语义一致性最小值”“语义一致性方差”和“减少使用所有格代词的频率”


该分类器预测CHR-P人群转化的准确率为83%(59名CHR-P个体,2年后19人转化),受试者工作特征(ROC)曲线下面积达到0.87,交叉验证(跨队列;34名CHR-P个体,2.5年后5人转化)的准确率为79%。


其他分类器也表现出较强的预测能力。


“低语义密度”和“声音相关词汇(如语气词)的使用频率(患者隐秘地谈论声音相关的词语,可用来表征幻听的早期迹象)两个指标的分类器预测转化的准确率为93%(30名CHR-P个体,2年后7人转化)。


此外,Gutierrez等通过分析Bedi等的样本数据得出了隐喻意义和情感分数特征,采用这两个指标以及性别和年龄创建了一个凸包分类器,结果发现区分首发精神分裂症和健康对照的准确率为84%,预测CHR-P转化的准确率达到97.1%(准确预测了34名CHR-P个体中33人的临床结局)。


综上研究,在预测转化方面的研究趋势包括以下几点:综合不同指标,目的是涉及不同语言层面(例如同时涉及语义和语法);从基础指标中发展新的指标,如最小值、最大值和方差等;结合机器学习有助于敏感探测出更细微的语言特征。


四、总结与展望


AAL技术如同“显微镜”般可快速、准确地识别语言的细微特征,并探测出语言和精神分裂症的隐秘联系。这不仅是了解精神分裂症风险及发作的有效途径,也有助于促进精神分裂症防治关口前移。


未来研究可从几个方向考虑。

我国在精神病领域采用AAL分析语言障碍的研究还处于初级阶段,研究重点在于分析技术和语言特征的“汉化”,未来研究可聚焦汉语样本的特征分析


将语言指标与已知的风险生物标志物结合分析,如认知指标、遗传学指标和神经影像指标,将有助于预测CHR-P人群多种临床结局,如功能不良、其他精神病发作、缓解和恢复,进一步探索临床转化的生物学机制


综合考虑不同年龄段人群的语言特征,尤其是在儿童和青少年被试中进一步验证AAL的可重复性,确定语言特征的变异性来源和语言特征的变化轨迹


作者姓名、单位


来源:神经疾病与精神卫生 2022年1月20日第22卷第1期

转载请注明:作者姓名、作者单位、平台信息(“神经疾病与精神卫生”公众号,ID:ndmh2016)。



联系电话  010-83191160

官方网站  http://www.ndmh.com/


学术前沿

最新资讯

论文浏览

长按右侧二维码关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存