查看原文
其他

智源大会自然语言处理论坛精华观点 | 刘群、陶建华、刘挺、黄萱菁、刘洋等解读NLP最新趋势

智源社区 智源社区 2022-11-28

预训练之后,哪些NLP问题仍待解决?情感计算是如何应用于抑郁线索分析?如何处理NLP中的可解释性问题?在本次智源大会自然语言处理专题论坛上,清华大学教授刘洋,华为语音语义首席科学家刘群,中国科学院自动化研究所研究员陶建华,哈尔滨工业大学教授刘挺,复旦大学教授黄萱菁等就领域内关键技术和问题进行了深入解读。                                      

整理:白鹏
编辑:李梦佳

连续细微情感识别与理解的关键技术


陶建华 | 中国科学院自动化研究所研究员

研究背景及意义
情感计算在很多方面具有重要作用,情感识别技术已成为产业的重要需求。目前存在以下三个技术挑战:
(1)如何度量真实的细微情感;
(2)如何解决复杂场景情感识别;
(3)如何准确理解细微情感变化的含义。


研究方法

针对挑战1,之前已有情感表征仅是基本情感分类或是复杂情感表示,但表达还不够细致,所以陶老师课题组提出情感矢量模型,能反应情感连续变化过程。也有科学家提出情感二维、三维表示理论,其中PAD模型有效表达了细微情感表征。
  
针对挑战2,学界大多利用多通道情感信息之间的互补性来提高情感识别的准确率。陶老师课题组利用LSTM+Boosting融合策略做情感识别,融合多模态注意力机制克服噪声环境干扰,做更鲁棒的情感识别。在基于多模态时空表示的情感识别方面,利用特征池化方法将音视频片段聚合为长时的语音以及视频特征,利用多模态注意力特征融合方法生成带有模态互补信息的多模态表示并利用向量回归进行预测。

在融合语义的情感识别方面,现有研究围绕时序建模和个体建模展开,陶老师课题组针对现有情感识别模型对于细粒度时许信息建模不充分问题,采用词级别文本信息和段级别声学信息作为输入,学习单模态特征内部的时序依赖关系,以及跨模态特征之间的关联信息,融合注意力机制的循环神经网络有效建模交互过程中的时序信息。此外,陶老师课题组还融合个体与时序信息做情感识别,利用交互场景中的个性信息和时序信息,采用图神经网络建模交互过程中的自我依赖特征和相互依赖特征,采用双向循环神经网络建模交互过程中的历史信息和未来信息,并结合多头注意力机制关注上下文中情感显著性质信息。此外,基于无监督表征学习的情感识别方面,陶老师课题组与华为合作开展面向儿童语音的情感识别,提升了真实场景下情感分析的可靠性。
  
针对挑战3,针对注意力机制下的多模态情感识别及其在抑郁线索分析中的应用进行研究,建立了基于音视频的精神压力分析系统,通过融合记忆机制进行建模,实现抑郁线索的动态跟踪与反馈。在基于注意力机制的非接触式多模态谎言分析研究中,基于注意力机制,他们提出了非接触式多模态谎言分析与干预方法,针对传统接触式测谎分析的短板,采用音视频信号进行评估,融合多分类器模型,在资源受限条件下有效实现了高性能的谎言分析。


总结及展望

陶老师也对未来发展方向进行了展望,在情感环境描述方面,比如宽时间范围的语境与语义描述,精确的环境场景描述。在情感特征,如何准确的细微情感特征提取和描述。在情感的个性化方面,个性化模型有助于发现隐藏情感和加入文化和性格等因素的影响。

TGEA:预训练语言模型文本生成错误标注数据集及基准测试任务


刘群 | 华为语音语义首席科学家
研究背景及意义

预训练语言模型发展迅猛,参数越来越大。目前语言模型在很多任务上接近或者超过人类表现,但语言模型并没有人类聪明, 经常也会犯各种错误,例如违反常识知识,现在评价指标仍然不能很好捕捉语言模型存在的问题,刘老师认为是人类提出问题的偏置所影响。

研究方法

针对以上问题,他们解决思路是让模型自己“说话”,分析模型生成文本中的错误去改进模型的生成能力。具体做法流程是先收集生成模型生成的句子,自定义一个文本生成错误分类标注体系,定义标注规范,众包方式标注错误,再让语言模型判断分析错误检验模型错误分析能力,整体设置的基准用到错误标注的数据集,也能避免人类偏置问题。他们发布了TGEA预训练语言模型文本生成错误标注数据集及基准测试任务,一级大类错误主要有搭配错误、缺失、冗余、上下文篇章(指代)错误、常识错误,每一类下面还有二类规范。他们使用基于prompt的方式生成文本,然后进行标注,分析错误分布,发现冗余、违反常识等错误居多。

错误类型分布

目前,他们升级为TGEAv2并投稿,在生成文本上,不是原来单一仅仅使用了华为的NECHE-Gen模型,还增加了GPT-2、PANGU-α、CPM模型,取消错误位置标注改成了最小错误集合,模板引导词等都有升级。实验发现,不同的错误在不同模型下错误分布不同,定义了错误文本检测、错误词集检测、错误区间检测、错误类型分类、错误纠正、改进后生成模型效果判别六类评测任务。

总结及展望

近期将会开放数据集与设置上线评测任务。

自然语言处理中的可解释性问题

刘挺 | 哈尔滨工业大学教授
研究背景及意义

可解释人工智能可以同时给出决策结果与依据,决策结果可控可反馈,用户信赖度更高。目前多数的AI模型是黑盒的,决策过程不可知,缺乏可解释性,尤其在司法、医疗、金融等领域,不可知、不可控的人工智能技术会引发争议,可解释性研究能够提升人工智能技术的可信度,实现更加可控的推理决策。2017年,美国DARPA开展了“可解释人工智能”计划。2019年,谷歌发布了《可解释人工智能白皮书》,研究人员逐渐意识到人工智能可解释性的重要性。我国也发布了可解释人工智能研究的指导文件。可解释自然语言处理是指智能体以一种可解释、可理解、人机互动的方式,与自然语言处理系统的开发者、使用者、决策者等,达到清晰有效的交流沟通,以取得人类信任,同时满足各类应用场景对智能体决策机制的监管要求。传统自然语言处理技术大多是白盒方法,深度学习的自然处理技术是黑盒方法。


研究方法

刘老师课题组主要分为白盒、黑盒、灰盒三个方向去研究。白盒是透明模型的设计,设计主要方法有特征重要性、溯源。在基于神经自然逻辑的多项选择问答项目中开展了研究。黑盒是事后解释方法,主要方法有可解释替代模型、样例驱动、注意力机制、探针方法。在情绪原因发现、阅读理解中的可解释性、对话理解可解释性验证、将符号知识注入神经网络实现事件时间常识知识预测、阅读理解中的无监督解释文本生成等工作中研究。灰盒是融合可解释要素的方法,在基于神经-符号的可解释性自然语言理解、基于规则挖掘的知识发现任务上研究。


总结及展望

刘老师报告中介绍了白盒、黑盒、灰盒在自然语言理解中可解释的方法,评价方法与数据。未来趋势是神经网络和符号系统的相互结合、推理规则和预训练模型的相互结合,可解释规则证据的归纳和可视化。如何设计面向自然语言理解的白盒模型、可解释性如何评价仍然是挑战,脑科学研究应该有助于提升可解释性研究。


信息提取的鲁棒性问题

黄萱菁 | 复旦大学教授

研究背景及意义

信息提取目标是从海量非结构化文本中提取出关键信息从而有效地支撑下游任务,命名实体识别和关系提取信息提取的两大主要子任务。信息提取模型在实际应用中性能是否仍然鲁棒这一问题值得探索。黄老师课题组在相关研究中表明,现有模型并不能在实际应用中保持良好性能,而这种鲁棒问题对安全至关重要领域带来了很大风险。所以,模型需要同时具备准确性与鲁棒性。


研究方法

针对如何检测信息提取模型的鲁棒性问题,早期研究对输入施加扰动产生对抗样本,以欺骗目标模型。黄老师课题组提出了自动产生样本以测试模型鲁棒性并发布了TextFlint鲁棒性评测工具。TextFlint支持子集分析、文本变换映射、对抗样本攻击,可以一键化生成鲁棒性验证集,也支持用户自定义生成扰动数据。他们使用TextFlint对命名实体任务验证,发现BERT并不鲁棒。


针对如何提升信息提取模型鲁棒性问题,方法一是引入额外知识,预训练阶段引入实体知识,缓解OOV问题。方法二是获取更好的OOV词表示,使用相似词的嵌入估计OOV词的表示。方法三是基于信息瓶颈缓解OOV问题。中科院学者认为现有任务范式存在封闭世界假设、大数据假设、独立同分布假设,这三个假设影响了系统的鲁棒性。针对封闭世界中对抗样本发现的问题,可以改进对抗训练;针对开放类别发现的问题,可以研究更有效开放域的信息提取算法;针对噪音问题,研究对噪音更鲁棒的算法;针对大数据假设问题,可研究更有效的小样本学习算法;针对独立同部分,可以改进领域迁移时的自适应。

总结及展望

黄老师也对这一问题进行了展望,为了进一步提升信息提取模型的鲁棒性,数据层面可以生成增强数据,丰富输入的多样性。模型层面应当探索统一、高效的任务范式。算法层面应提高模型推理、理解能力。


圆桌讨论


刘群 | 华为诺亚方舟实验室语音语义首席科学家
陶建华 | 中国科学院自动化研究所研究员
刘挺 | 哈尔滨工业大学教授
黄萱菁 | 复旦大学教授
刘洋 | 清华大学教授,智源研究员

Q1:过去一年自然语言处理领域重要的研究或工程进展是什么?

刘群认为,大模型进展迅猛,多模态的大模型生成视频、语音等进展。还有大模型在语义落地方面的进展,比如代码生成、WebGPT搜索等应用。

陶建华认为,大模型隐知识、可解释性方面有较大进展与更大突破。刘挺老师认为是谷歌提出的Pathways的通用 AI 架构大模型,还有openAI是2021年推出的文本图像生成模型。DeepMind提出的AlphaCode模型。产业化方面,Hugging Face公司的崛起是工程+产业结合新的突破。

黄萱菁认为,提示学习的流行,seq2seq范式去统一解决实体关系、事件、情感提取多个信息提取任务,采用群监督,低资源,小样本,得到很好的结果。这块将来还有进一步的生命力。

Q2:未来哪个学科的突破可以极大的促进自然语言处理的发展?

黄萱菁认为,脑科学、神经科学或许能够启发我们去更好地表示和存储知识,更好地利用知识,更好利用知识进行推理。

刘挺认为,应该多向神经语言学、心理语言学学习,从这些领域中得到借鉴。陶建华老师认为在不同领域尤其在工业当中有很多研究的内容需要借助于自然语言处理方式,比如大量知识的融入,解决相应工业的问题。

刘群认为是量子计算,也许量子计算哪天真正成为现实,自然语言处理会有一个突破。

Q3:科研院所如何做出有特色的研究工作并与工业界形成互补?

刘群认为,学术界在现在的场合下有两种选择,一种是跟工业界合作,利用工业界的资源。再一个学术界要另辟蹊径,做一些前瞻性的,现在工业界不感兴趣,但也会取得很大突破性的东西。

陶建华认为,工业界很多的互联网的厂商手里的数据更多,所以他们从事的研究有的时候做出来的结果非常出色。科研院所应该做更偏重于从理论方法或者技术的源头上有比较大突破的地方。

刘挺认为,高校的优势是可持续性,专注性研究。工业界一般没有太超前的去布局,高校应该做更超前的研究工作。高校重点是基础性和理论性工作,而且高校探索成本低。

黄萱菁认为,高校可以做一些特色化,兴趣化,前瞻性、挑战性,风险性的研究。学术界跟工业界有互补,也是互相学习。

Q4:如何培养自然语言处理人才?当下与过去相比有哪些差异?

黄萱菁认为,科学研究的愉悦,短期研究与长期研究的平衡,研究的多样性与互补性应当重视。

刘挺认为,学生应分类培养,学生应注重理论实践相结合。陶建华老师应该培养综合性学生,青年教师人才培养应有特色,针对某一点应做深。

刘群认为,培养学生看问题,理解问题的能力。学科发展太快,学生要不断的学习,保持开放的心态。

Q5:未来三年那些自然语言处理技术可能会产生重要落地应用?

刘群老师看好对话、人机交互,同声传译,创意表达的发展。陶建华老师认为在知识抽取领域能有好的突破,推动融合知识应用的发展。刘挺老师认为同声传译、人机对话的发展。黄萱菁老师认为个性化教育辅导,批改作文、阅读理解等领域应用。

Q6:请展望一下未来三年自然语言处理的发展趋势?

黄萱菁提出,对Transformer模型的改进,动态的网络架构,提升模型的灵活性、效率。

刘挺提出,怎样让机器从环境中交互学习,大语境中学习语言。还有稳定因果关系的自然语言处理。

陶建华提出,交互式学习,因果推理方面,如何去把采集到的信息形成可靠的因果关系以及能够对这种行为进行有效的预测还有趋势。

刘群提出,多模态中视频的发展,神经网络的落地应用,大模型的应用。

推荐阅读


梅宏院士:如何构造人工群体智能?| 智源大会特邀报告回顾


图灵奖得主Adi Shamir最新理论,揭秘对抗性样本奥秘 | 智源大会特邀报告回顾

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存