查看原文
其他

王一岩等|多模态数据融合:破解智能教育关键问题的核心驱动力

王一岩 郑永和 现代远程教育研究 2022-06-09

点击上方蓝色文字关注我们



作者简介王一岩,博士研究生,北京师范大学教育学部(北京 100875);郑永和(通讯作者),教授,博士生导师,北京师范大学科学教育研究院院长(北京 100875)。

基金项目国家重点研发计划“文化科技与现代服务业”重点专项“面向终身学习的个性化‘数字教师’智能体技术研究与应用”子课题“面向终身学习的自适应教育关键技术”(2021YFF0901003)。


引用:王一岩,郑永和(2022).多模态数据融合:破解智能教育关键问题的核心驱动力[J].现代远程教育研究,34(2):93-102.



摘要:多模态数据融合旨在利用不同模态数据之间的信息互补机制提升数据分析的准确性,实现对学习主体和学习情境的精准刻画,进而还原教学过程全貌,挖掘深层次的教育规律,其已逐渐成为智能教育领域重要的技术方法和研究思想。智能教育领域常见的多模态数据类型包括外在行为表征数据、内在神经生理信息数据、人机交互数据以及学习情境感知数据。多模态数据的融合策略主要包括数据级融合、特征级融合和决策级融合,在数据分析的不同阶段选取恰当的融合策略,可以提升数据分析的准确性。在智能教育领域,多模态数据融合主要应用在人机交互分析、学习者情绪识别、学习投入分析、学业表现预测、学习情境感知五个方面。充分发挥多模态数据在学习过程感知和建模中的核心作用,可以实现对学习过程的有效还原和对学习规律的科学解释。多模态数据融合充分体现了基于数据密集型科学的教育科学研究范式变革,未来应着力于面向多元学习主体和学习情境的全时空多维度数据采集、基于多模态数据融合的学习者认知发展规律研究、基于多模态数据感知与融合的智能教育产品研发以及多模态数据采集的技术伦理问题等四个方面,构建智能时代教育科学研究的新样态。

关键词:多模态数据融合;智能教育;情绪识别;学习投入;情境感知;人机交互




物联网、大数据、人工智能等新兴技术与教育教学的深度融合推动了智能教育研究的实践进程,逐渐勾勒出以学习主体和学习情境的数据化表征为依托、以数据密集型科学的研究思想为指导、以智能时代教育现象的解释和教育规律的发现为目标的教育科学研究新样态。在此背景下,多模态数据融合逐渐受到智能教育领域相关研究人员的重视,其作为一种新的技术手段和研究思想被应用于智能教育研究的诸多场景。研究者通过对学习者和学习情境多种模态数据的采集分析,以及利用多模态数据之间的信息互补来提升数据分析的准确性,还原教学过程全貌,探究深层次教育发展规律,以此推动智能时代的教育科学研究。那么,为什么要使用多模态数据?什么样的数据能被称为多模态数据?多模态数据之间怎样融合?多模态数据在智能教育领域的应用场景有哪些?它能为智能教育研究的开展带来怎样的影响?本文通过对智能教育领域多模态数据融合的应用潜能、研究现状和实践进路的梳理,尝试对以上问题进行解答,以期为后续相关研究的开展提供借鉴。

一、智能教育领域多模态数据融合的应用潜能

多模态数据融合是近年来智能教育领域关注的热点话题,并逐渐成为智能教育领域重要的技术方法和研究思想。模态是一个横跨自然科学和社会科学的概念,关于模态的解释主要有查理斯的符号系统说和克瑞斯的交互方式说(王慧君等,2015)。前者认为模态是可以被具体的感知过程解释的社会符号系统(Kress,2010),例如声音、图像、文字等;后者认为模态是人类通过感觉器官建立的与外部环境之间的交互方式,如视觉、听觉、触觉、嗅觉、味觉等。人工智能领域对于模态的解释偏向于“机器对外界信息的感知模式或信息通道”(Lahat et al.,2015),认为“每一种信息的来源或者形式”都可以称为一种模态,既包含信息的表征形态和感知通道,又包含基于多种感知设备的数据采集方式。例如:用于表征学习者情绪、专注度等特征的话语、表情、身体姿态等数据可以被视为多模态数据;用于表征构成完整教育情境的学习者、教师、教学资源、教学媒体、教学活动等数据也可以被视为多模态数据。

1.多模态数据融合是一种感知和理解世界的新视角

关于多模态数据融合的科学依据可以从以下几个维度展开讨论:第一,事物的存在方式是多模态的。从社会符号系统的角度看,任何事物的存在方式都可以用声音、文字、图像来表示,而综合文本、语音、图像等的多模态符号系统可以在更大程度上表征事物存在的基本样态。比如要表示一幅图画,人们可以单纯地将图画呈现给观众(图像模态),也可以辅之以相应的文字对图画中的内容加以解释(图像+文本模态),还可以通过语音讲解对图画的内容进行描述(图像+文本+语音模态)。第二,人对世界的感知方式是多模态的。人对世界的感知主要通过视觉、听觉、嗅觉、触觉、味觉等感知通道来实现。“察言观色”表达的就是听人说话,不仅要“听其言”,更要“观其行”,只有调动多种感知通道,才能够形成对事物存在方式的良好感知。第三,人工智能的学习是多模态的。人工智能是通过对外部信息的加工、处理和意义建构来模拟人类智能的技术,其核心研究领域中的自然语言处理、语音识别、计算机视觉分别是模拟人类对文本、语音和图像数据的感知、加工和处理机制的智能计算逻辑。因此,要形成对事物存在方式的深度理解,只利用某一种模态的数据是远远不够的,这就需要利用多模态数据融合的方法对不同模态数据表征的信息进行融合分析,以此形成对外界事物完整的意义建构(王一岩等,2021a)。基于此,有学者认为多模态学习是未来人工智能发展的必然趋势,关于多模态机器学习的相关研究也越来越受到人工智能领域相关学者的关注(Baltrušaitis et al.,2018)。

2.多模态数据融合是智能技术教育应用的关键落脚点

物联网、大数据、人工智能等新兴技术的发展为多模态数据的感知与融合提供了理论和技术支持,多模态数据融合也在一定程度上促进了相关领域的研究进程。多模态数据的感知与融合是智能技术教育应用的核心,能够凝聚物联网、人工智能、大数据等技术的核心效用,共同助力教育研究的数据化、科学化、智能化发展(郑永和等,2021)。

(1)“多模态”之于物联网教育应用

物联网和智能感知技术的发展为多模态信息感知提供了底层技术支持。利用智能感知设备实现对事物存在状态和运动方式的多通道智能感知,为多模态数据的采集提供底层硬件支持,在很大程度上实现了对学习者和学习情境的多元化数据表征。智能感知技术和物联网技术在教育领域的应用包括:一是利用摄像机、眼动仪、脑电仪、皮肤电、智能手环等设备对学习者的外在行为和内在生理信息进行多通道的数据采集,并以此为依据对学习者的行为、情绪、专注度等状况进行精准分析。二是利用温度传感器、光线传感器、红外感应器、摄像机等设备实现对课堂教学情境的全方位感知与智能分析,利用多模态数据实现对课堂教学情境的智能感知与融合计算。三是利用物联网技术构建面向智慧校园的全方位监测体系,对学生的体育运动、身体健康、出行轨迹、食堂消费、课堂表现、学业成绩等数据进行实时监测,实现面向学习者的多场景、多通道、多维度的数据采集,并以此为依据实现对学习者全方位的测评分析。

(2)“多模态”之于人工智能教育应用

多模态数据融合和人工智能教育应用之间的联系较为紧密。一方面,以自然语言处理、计算机视觉、语音识别、生理信息识别为代表的人工智能前沿技术的快速发展为教育领域的多模态数据融合研究的开展奠定了基础,多模态机器学习技术的成熟更是为多模态数据的融合提供了良好的技术解决方案。另一方面,以教育智能体、智能导学系统、教育机器人、自适应学习系统为代表的智能教育产品的设计与实现均需借助多模态数据感知与融合的方法实现机器与学习者之间的自然交互(王一岩等,2021b)。通过对学习者学业测评、心理测评、外在行为、生理信息等数据的融合分析,可以实现对学习者行为、情感、学习投入、学习动机等的精准测评,从而帮助机器更好地理解学习者的学习意图,并为其提供适切性的学习支持服务。

(3)“多模态”之于大数据教育应用

多模态数据对于大数据教育应用的深入开展具有重要的导向作用。其一,多模态数据丰富了大数据的表征形态。多模态数据能够从多个视角、多种形态、多个信息来源对事物的存在方式进行表征和计算,利用面向个体、群体、资源、环境的多源异构数据对真实的教育情境进行精准建模分析,在最大程度上还原教学生态系统的全貌。其二,多模态数据提升了大数据的价值密度。当前,大数据已被诸多领域关注,它在带来真实、多样、海量数据的同时,其相对较低的价值密度也引发了一定的诟病。多模态数据融合为该问题的解决提供了良好的理论和技术支持,它能够借助智能感知技术对事物的存在方式进行多个维度的量化表征,从而利用不同模态数据之间的信息互补机制提升数据的价值密度。

二、多模态数据的类型和融合策略

1.多模态数据的类型

从智能教育领域多模态数据融合的研究现状出发,本文在对相关研究成果进行系统分析的基础上,将多模态数据融合中常见的数据类型概括为以下四种。

(1)外在行为表征数据

外在行为表征数据主要包括个体的话语、表情、手势、身体姿态等言语行为和非言语行为数据。在真实的研究问题中常见的外在行为表征数据类型主要有以下两种:一是基于文本、语音、视频的多模态数据。在人工智能领域,多模态数据被定义为融合文本、语音、视频的数据表征模式。利用自然语言处理、语音识别、计算机视觉等相关方法构建的多模态分析模型,可实现对研究对象的多元解释。例如卡内基梅隆大学Zadeh等(2018)开展的多模态情感识别研究,通过对研究对象文本、语音和视频数据的融合分析实现对个体情绪状态的精准识别。二是基于面部表情和身体姿态的多模态数据。计算机视觉领域强调利用研究对象的面部表情(例如眼睛、嘴巴等表情特征)和身体姿态(例如头部姿态等肢体特征)等多模态数据实现对其潜在状态进行挖掘分析,如Ashwin等(2020)构建了基于在线学习和真实课堂环境下学生面部表情、手势和身体姿态的多模态情感数据库,利用多模态数据之间的信息互补机制对学习者的情绪状态进行精准识别。

(2)内在神经生理信息数据

内在神经生理信息数据的采集建立在多模态生物识别技术基础上。利用多种智能传感设备,可对研究对象的呼吸、心跳、脉搏、眼动、皮肤电、脑电、血氧、激素分泌水平等生理信息数据进行采集和融合分析,并对其情感状态、学习投入等特征进行识别。例如Verma等(2014)利用DEAP(Database for Emotion Analysis Using Physiological Signals)数据库给出的脑电数据和外周生理数据(皮肤电反应、血压、呼吸、皮肤温度、肌电图等)实现了基于多模态数据融合的情绪识别。与基于外在行为表征数据的测评方式相比,基于神经生理信息的多模态数据感知能够克服研究对象主观意识对外在行为表征的影响,从而更加客观地反映研究对象的真实状态,因此该类数据逐渐被广泛应用于教育学、心理学、医学等领域的研究。

(3)人机交互数据

基于人机交互的多模态数据主要关注学习者在操作人机交互设备过程中产生的点击、指纹、触觉、压感、笔迹、手势、文本输入、语音交互、面部表情等数据。例如:Schrader等(2020)利用学习者在使用平板电脑过程中的笔压力参数测量学生的愉悦感和沮丧感;Su等(2016)利用学习者的面部表情数据和文本输入数据对学习者的情绪状态和学习情境进行识别。随着智能技术的发展和智能教育产品的成熟,人机协同学习将成为未来教育的重要组成部分。因此,利用多模态人机交互数据实现对学习过程的有效还原,将会成为未来智能教育领域的重要方向。

(4)学习情境感知数据

上述多模态数据大多针对个体在特定时空情境下单一特征的描述。然而,由于教育情境的复杂性,学者们研究的教育问题往往不仅需要针对学习者单一特征的测量,而且需要利用多源异构数据实现对完整教育情境的精准刻画,从而实现对教学生态的完整表征(穆肃等,2021)。因此,对于学习情境信息的数据化表征是未来智能教育领域研究的重点,通过对构成教育情境的人、机、物、环境等要素的智能感知与精准测评,从数据感知层面对学习情境进行全方位的测评分析,实现对教育规律的深层次挖掘分析。学习情境感知数据主要包括教师的教学行为、教学风格、教学内容、教学资源、教学设备、教育服务、教学活动、教学环境以及学生的行为、认知、情感特征数据等(王一岩等,2021c)。例如Bao(2013)认为可以利用多模态传感设备对个体在不同情境中的信息进行采集,实现对个体位置、活动、意图、行为和交互的数据记录与行为推断,从而实现对个体特征的细致刻画和对教育情境的精准感知。

2.多模态数据的融合策略

多模态数据融合旨在利用机器学习和深度学习的方法对不同模态的数据进行融合分析,从而利用不同模态数据之间的信息互补机制,提升数据分析的有效性。常见的多模态数据融合策略主要有三种:数据级融合、特征级融合和决策级融合。

(1)数据级融合

数据级融合也叫前期融合,是将多个模态的数据融合成一个单一的特征矩阵,然后输入到机器学习的分类器中进行训练。例如Gouizi等(2011)利用国际情感图片系统提供的图片来测验被试的情感状态,通过对肌电图、呼吸量、皮肤温度、皮肤电等数据的采集,利用数据级融合的策略将不同模态的数据拼接成一个完整的特征矩阵,然后输入到支持向量机(Support Vector Machine,SVM)模型中对被试的6种基本情绪(喜悦、悲伤、恐惧、厌恶、中立和娱乐)进行分类,达到了85%的准确率。Lai等(2019)利用生理信息采集设备对学习者的皮肤电、脑电、心率、肌电图数据进行采集,并将其存储为相应的特征矩阵,再通过矩阵的变换将不同模态的数据拼接成一个特征矩阵,实现数据级的多模态融合,最后将处理后的特征矩阵输入到基于SVM的情感分类模型中进行训练,以此对学习者的情绪状态进行识别。数据级融合的缺点在于原始数据通常包含大量的冗余信息,需要采用一定的特征提取方法对数据进行处理,这在一定程度上增加了数据处理的复杂性,且数据级融合无法充分发挥多个模态数据间的信息互补机制。

(2)特征级融合

特征级融合也叫中期融合,是指将不同的模态数据先转化为高维特征表达,然后利用不同模态数据在高维空间上的共性特征选取适当的位置进行融合。常用的方法有基于简单操作的方法、基于注意力的方法和基于张量融合的方法。其优势在于能够对每种模态的数据选用最合适的特征提取模型进行处理,尽可能地保留数据的原始信息,再在模型的中间层选取合适的位置进行特征融合,能够充分实现不同模态数据之间的信息互补,且在操作层面具有较强的灵活性,因此特征级多模态数据融合策略逐渐被广泛应用。例如Chen等(2019)利用特征级融合的方法实现了基于文本和语音数据的多模态情感识别。该研究团队构建了基于神经网络的文本情感特征提取模型和语音情感特征提取模型,分别对文本和语音数据进行处理,生成了一个文本情感特征向量和一个语音情感特征向量,最后利用基于注意力的方法将文本和语音数据的情感特征向量进行融合,以此对研究对象的情绪状态进行识别。研究结果表明,基于特征级融合的方法能够显著提升多模态情绪识别的准确度。又如Majumder等(2018)提出了一种基于层次融合和上下文建模的多模态情感分析模型。他们先分别利用深度卷积神经网络模型(DCNN)、OpenSMILE软件、3D-CNN模型对文本、语音、视觉特征进行提取,然后利用门控循环神经网络(Gated Recurrent Unit,GRU)对上下文进行建模,并分别构建了基于“文本—语音”“文本—视频”“语音—视频”的二维融合模型,再将从三个二维模型中提取到的特征进行融合,最终形成了一个三维特征矩阵用于对个体的情绪状态检测。研究结果表明,该模型的情感分类准确率显著高于现有模型。

(3)决策级融合

决策级融合也叫后期融合,是指对不同模态的数据分别选取适合的分类器进行训练,并对每种模态分类器输出的标签值进行打分之后融合。决策级融合的优势在于,融合模型的错误来自不同的分类器,往往互不相关,不会造成错误的进一步累加。常见的后期融合方式包括最大值融合、平均值融合、贝叶斯规则融合以及集成学习等。例如Huang 等(2019a)分别利用CNN和SVM方法对个体的面部表情数据和脑电数据进行处理,并采用基于枚举权重和Adaboost的决策级融合策略将面部表情与脑电信号表征的情感状态进行融合,结果表明,两种决策级融合策略都能够取得较好的结果。Huang等(2019b)关注社交媒体中基于“图像—文本”的多模态情绪识别,首先构建了基于CNN和注意力机制的图像情感分类模型和基于长短时记忆网络(Long Short-Term Memory,LSTM)和注意力机制的文本情感分类模型,分别对图像和文本数据所表征的情感状态进行检测,在此基础上提出了一种基于特征级融合的多模态注意力情感分类模型,利用图像和文本特征之间的内部相关性进行多模态情感分类,最后利用后期融合策略将三个情感分类模型进行有机结合,实现了对社交媒体的情感状态的预测。从多模态数据融合的一般规律来讲,多模态数据所表征的信息并非完全独立,不同模态的数据在一定程度上可以互相补充,而后期融合的方法一般会忽略不同模态数据之间的信息互补机制,最终未必会取得比单一模态数据更高的准确度。

三、智能教育领域多模态数据融合的研究现状

通过对近年来国内外智能教育领域多模态数据应用现状的系统梳理,本文将多模态数据融合在智能教育领域的应用主要概括为多模态数据支持的人机交互分析、学习者情绪识别、学习投入分析、学业表现预测、学习情境感知5个方面。

1.多模态数据支持的人机交互分析

随着人工智能技术的发展,智能导学系统、教育机器人、教育智能体等智能教育产品逐渐进入真实的教学场景中,并为学习者和教师提供一系列的智能教育服务。在此背景下,如何实现人与机器之间的自然交互,促进人机协作学习的有效开展,是智能教育研究领域需要解决的关键问题。多模态数据支持的人机交互分析能够更好地对学习者的行为和生理信息进行感知,利用多模态数据融合的方法更好地理解学习者真实的学习意图和学习需求,并为其提供更加适切的学习支持服务。

以智能导学系统为例,传统的智能导学系统大多利用鼠标和键盘等人机交互设备实现学习者与系统之间的交互,通过鼠标的点击流数据和键盘的文本输入数据对学习者的学习过程、学习成效和学习反馈信息进行记录。而融合了各种智能传感设备的智能导学系统通过对学习者话语、表情、身体姿态等行为数据和眼动、脑电、皮肤电等生理信息数据的采集,实现了系统与学习者之间的多模态交互(屈静等,2020),有助于更好地对学习者的学习状态进行多元感知,并为其提供适切性的学习支持服务。代表性研究有:Kaklauskas等(2015)构建了纳入自我认知和自尊测评的智能导学系统,在基于鼠标和键盘的人机交互设备的基础之上,构建了面向学习者认知和情绪测评的生理分析系统,利用眼动仪、脑电图、无线血压监测仪、无线脉搏血氧仪等感知设备对学习者的眼动、脑电、血压、脉搏等多模态生理信息数据进行采集,以此实现对学习者情绪状态的智能感知,并为其提供自适应的学习路径规划服务;Su等(2016)构建了基于人脸识别和语义识别的情感导学系统,可利用学习者的面部表情数据和文本输入数据对学习者的情绪状态和学习情境进行识别,并为其选取合适的教学策略和教学资源,通过教学代理实现用户和系统之间的交互,使学习者获得良好的学习体验。

教育机器人的开发更需要通过采集学习者语音、动作、表情等数据,利用语义分析、情感分析、专注度识别等技术对学习者所要表达的核心观点进行精准分析,并以此为基础对学习者真实的学习需求进行诊断(卢宇等,2020)。Chen等(2020)的一项研究中,学习者与教育机器人在面向词汇掌握的学习游戏中开展人机协作学习,研究结果表明教育机器人支持的人机协作学习有助于提升5~7岁儿童的语言学习能力。

2.多模态数据支持的学习者情绪识别

多模态数据支持的学习者情绪感知是近年来智能教育领域研究的热点话题,其主要利用自然语言处理、语音识别、计算机视觉、生理信息识别等技术实现基于学习者话语、表情、身体姿态等外显行为数据和心跳、眼动、脑电、皮肤电等内在生理信息数据的融合分析,对学习者个体的情绪状态进行精准识别,以此对学习者的学习投入、学习兴趣、学习动机、学习风格等特征进行深入的挖掘,进而为学习者提供个性化的学习支持服务(王一岩等,2021d)。具有代表性的研究有:Shen等(2009)通过构建基于学习者心率、血压、皮肤电导和脑电信号的多模态情感数据集,对学习者的好奇、困惑、无聊和期待四种情绪状态进行识别,达到了86.3%的准确率;并提出了一种基于学习者和学习情境信息的学习情感模型,其可根据学习者的情感状态、认知能力、学习目标以及学习者与学习系统之间的交互情况为学习者提供自适应的学习支持服务。北京师范大学的研究团队关注真实课堂教学环境下学习者的情感发生机制,构建了基于学习者的面部表情、眼睛动作、头部姿势、身体动作和手势等信息的多模态情感数据集BNU-LSVED(Sun et al.,2016)和BNU-LSVED 2.0(Wei et al.,2017),对学习者在课堂教学过程中实时的情绪状态进行识别。Ashwin等(2020)利用真实课堂环境下学习者的面部表情、手势和身体姿态数据对学习者的无聊、参与和中性情绪进行识别,提出了两种分别面向个体和群体的CNN模型,并基于此构建了一种新型混合卷积神经网络模型对班级整体的情绪状态进行预测。

3.多模态数据支持的学习投入分析

学习投入是学习过程监测和学业表现测评的重要指标,反映了个体学习过程中的认知深度、思维灵活性和情感体验。对于学习者学习投入的精准测评是现阶段智能教育领域关注的重要议题,其主要通过对完整学习过程中学习者“行为投入”“认知投入”和“情感投入”的综合测评来反映学习者真实的学习参与情况,并以此对课堂教学的成效进行综合评估。当前有关学习者学习投入的测评研究主要关注多模态数据在学习投入分析中的潜在价值。例如有研究者利用学习者的外在行为数据和内在生理信息数据实现对学习投入的多元表征,以提升学习投入分析的准确度(张琪等,2020)。具有代表性的研究有:Li等(2020)构建了基于红外图像数据、面部表情数据和鼠标点击数据的多模态数据集,利用CNN的方法对学生在在线学习中的参与度进行检测,实现对多模态数据的融合分析;Ashwin等(2018)构建了基于学习者面部表情和身体姿态的多模态数据集,利用卷积神经网络的方法对真实课堂教学过程中学习者的参与度进行识别,达到了89%的准确率。

4.多模态数据支持的学业表现预测

多模态数据支持的学业表现预测主要利用学习者的外显行为信息和内在生理信息预测学习者的学习效果和学业发展状况,并以此对学习者进行适当的学业预警和学习干预,促进学习效果的提升。代表性研究有:Giannakos等(2019)进行了一项基于游戏的实验研究,为17个用户设计了251个游戏环节,构建了基于点击流、眼动、脑电图、面部表情、腕带数据的多模态数据集,利用Lasso回归模型对学习者的技能发展情况以及对复杂任务的处理能力进行预测。研究结果表明,传统的点击流模型在预测学习成效时错误率达到39%,而利用多模态数据融合的方法能够使错误率下降到6%。Olsen等(2020)利用智能导学系统对25个9~11岁的二人组的眼动、日志、音频和对话数据进行采集,利用多模态数据对协作学习活动中学习者的学业表现进行预测,研究结果表明:相比于单模态数据,多模态数据更能够实现准确的学习成效预测。还有一些学者关注学习者在不同场景或情境下的行为表现,并以此对其学业表现进行预测。例如,Chango等(2021)利用学生在理论课、实践课、在线课程中的出席次数、座位排布、注意力集中情况、做笔记的时长、在线学习活动中的行为表现和交互数据构建了面向学习者行为投入的多模态数据集,利用多种机器学习模型对学习者在混合课堂中的学业表现进行预测;Di Mitri等(2017)构建了基于学习者的心率、步数、环境和学习活动的多模态数据集,利用机器学习方法对学习者在自我调节学习中的学业表现进行预测,证明基于多模态数据融合的方法能够取得比单模态数据更高的准确度。

5.多模态数据支持的学习情境感知

随着智能感知技术的发展和情境认知理论的成熟,学习情境感知逐渐成为近年来智能教育领域关注的热点。情境感知通过智能传感设备对特定时空条件下的人、机、物等实体要素进行智能感知,获取对用户有用的反馈信息,并通过对数据的分析处理,为用户提供适切性的支持服务,并借助计算设备实现用户和环境之间的交互融合(黄志芳等,2015)。目前关于情境感知的研究主要集中在泛在学习环境下的学习资源推荐(陈敏等,2015)和基于情境感知的适应性学习路径规划(Hwang et al.,2010)等方面,相关学者对于教育情境的划分主要包括:物理情境、社会情境、学习者情境、活动情境、时空情境、服务情境、资源情境等。智能时代的教育科学研究越发重视教育情境的创设对于学习者行为、认知、情感的影响,探究各类情境要素对学习者内在认知发展的影响机理,以此挖掘深层次的教育发展规律(王一岩等,2021c)。具有代表性的研究有:Chen等(2012)利用射频识别、无线网络、嵌入式手持设备构建了基于情境感知的泛在学习系统,以检测学习者在教室和博物馆中的真实学习行为,并据此对教学过程进行改进,为每位学习者提供个性化的学习支持服务;Tortorella等(2017)利用传感器采集的学习者相对位置数据、学习者运动数据、环境光量数据以及地理位置数据对移动学习中的学习情境信息进行建模,根据学习者的学习风格和学习情境信息在“自适应移动学习系统”中为学习者推荐适宜的多媒体学习资源。

多模态数据支持的学习情境感知也是近年来学习分析与知识国际会议(International Learning Analytics & Knowledge Conference,LAK)关注的热点。在2017年的LAK国际会议中,Muñoz-Cristóbal

等(2017)提出,学习可以发生在不同的物理空间和虚拟空间中,因此可以利用多种传感设备对不同学习情境下的人、资源、设备等数据进行采集,并利用多模态学习分析的方法对学习过程进行解构,进而对泛在学习条件下学习者连续的学习体验进行建模分析,以还原个体学习过程的全貌。在2020年的LAK国际会议中,Eradze等(2020)对情境感知在多模态学习分析中的应用前景进行了探讨,认为基于人类标记的课程情境信息和基于机器智能感知的多模态数据可以互相补充,并据此构建了基于情境感知的多模态学习分析分类方法。

四、多模态数据驱动智能教育研究的实践进路

从科学研究的发展历程来看,教育科学的研究范式经历了基于实验归纳的第一范式、基于理论推演的第二范式、基于仿真模拟的第三范式,以及基于数据密集型科学的第四范式变革(郑永和等,2020)。大数据和人工智能技术的快速发展为现代科学研究的开展提供了新的指导思想,有助于利用数据密集型科学的理论和方法挖掘事物背后复杂的因果关系,为相关问题的解释提供科学依据。大数据与教育的深度融合是近年来智能教育领域关注的热点问题,旨在以数据为依托,挖掘教育现象背后潜藏的复杂教育规律。多模态数据融合在教育领域的应用价值主要体现在从多个维度、多种视角对学习者和学习情境进行精准刻画,利用机器学习和深度学习的方法挖掘其背后潜藏的特征与规律,以此为教育实践研究的开展提供支持。与传统的教育数据挖掘研究相比,以多模态数据为支撑的教育过程数据挖掘能够充分利用不同模态数据之间的信息互补机制来提升数据的价值密度,使在有限样本的数据空间内实现对研究对象的全方位解释。这一方面能够提升数据分析的效度,另一方面能够节省相应的计算资源,从而为教育科学研究的开展提供全方位支持。未来智能教育领域的多模态数据研究可从以下四个方面发力。

1.面向多元学习主体和学习情境的全时空多维度数据采集

随着以物联网、云计算、人工智能为代表的新兴智能技术的快速发展,未来的智慧学习空间将呈现一种泛在智能、群智感知、人机协同的新样态(郭斌,2020),智能感知设备的应用将遍布整个物理学习空间,实现泛在的学习情境感知。从多模态数据融合的研究现状来看,多模态数据主要用于对学习主体和学习情境的多元化感知与数据化表征,并为教育现象的解释、教育规律的发现、教育服务的供给提供科学依据。在实践层面,多模态数据支持的多元化感知主要体现在:其一,感知通道的多元化。面向真实学习情境的多模态数据采集主要依托多种智能感知设备实现对学习主体和学习情境的多元化数据表征,以此为教育科学研究的开展提供多元数据支持。例如利用摄像头、眼动仪、脑电图等设备分别对学习者的表情、姿态、眼动、脑电数据进行采集,从行为、认知、情感等多个维度对学习者的学习状态进行表征。其二,感知对象的多元化。教育是一个复杂系统,是由以学习者和教师为代表的教育主体、以教学资源和教学媒体为代表的教育客体,以及教育环境和教育活动共同构成,教育系统的复杂性为教育科学研究的开展带来了极大挑战。因此未来的研究需要从还原论的视角出发,将复杂的教育系统化解为各部分之组合来加以理解和描述(欧阳明等,2012),通过对课堂教学过程中学习者、教师、教学资源、教学媒体、教学环境、教学活动的多元感知与精准刻画,以数据流的形式模拟课堂教学生态的演化模式,挖掘深层次的教育发展规律。

2.基于多模态数据融合的学习者认知发展规律研究

对于教育规律的探索和揭示是教育科学研究追求的终极目标,也是智能教育要解决的关键问题。多模态数据的引入能够对学习主体和学习情境信息进行记录和表征,利用数据密集型科学的研究思想还原教学过程的全貌,在此基础上,利用多模态数据融合的方法提升数据分析的效度,为揭示学习者的认知发展规律提供科学依据。其一,利用多模态数据融合的方法对学习者和学习情境进行精准化、细粒度的表征,探究在不同教学情境下学习者的行为表现、认知水平和情绪状态,对学习者的学习风格、学习兴趣、学习偏好等深层次特征进行挖掘分析,构建更加精准完善的学习者模型。其二,探究学习者的情绪状态如何对学习者的知识建构和认知发展产生影响,明确学习者“知识—认知—情感”的交互作用机理(黄涛等,2020),以此对学习者的认知发展规律进行深度剖析。其三,通过对学习者外在行为数据和学习情境表征数据的综合分析,探究教育环境的创设、教育活动的组织、教育服务的提供对学习者内在认知发展的影响机制,以此帮助教师优化教学情境,提升教学效率。

3.基于多模态数据感知与融合的智能教育产品研发

多模态数据融合技术的发展为教育智能体、教育机器人、智能导学系统、自适应学习平台等智能教育产品的改善提供了新的契机(王一岩等,2021b)。传统的智能教育产品大多依据鼠标的点击流数据、键盘的文本输入数据和学生的作答数据对学习过程和学习成效进行监测,并以此对学习者的知识掌握情况进行测评,实现基于知识水平的学习者建模。多模态数据感知与融合技术的引入能够在很大程度上拓展智能教育产品的数据采集机制,改进其数据维度单一、分析效度低下的缺点,实现对学习者学习状态的多元、实时、精准监测。利用多模态数据之间的信息互补机制提升数据分析的成效,对学习者的行为、认知、情感等状态进行全面记录和表征,有效提升智能教育服务的质量(郑永和等,2021)。未来智能教育产品的研发需要更加关注多模态数据融合技术在人机交互分析、学习者情绪测评、学习投入分析、学业表现预测、学习情境感知等方面的潜在价值,利用相关的智能感知设备对学习者的学习状态进行记录、表征和测评,进而改善学习支持服务的质量。

4.多模态数据采集的技术伦理问题剖析

如上所述,多模态数据融合支持下的智能教育研究的开展要建立在对学习者和学习过程进行全方位、时序性跟踪和监测的基础上,利用人工智能技术对学习者的行为、认知、情感发展状况进行全方位的测评分析,并以此为基础探究学习者的认知发展规律。但人工智能技术在教育领域的应用难免会导致一系列的伦理道德问题,主要包括:其一,对学习者外在行为和内在生理信息的监测在一定程度上侵犯了学习者的隐私,多模态数据强大的表征能力能够使研究人员获取数据背后潜藏的深层次特征,这又加剧了对学生隐私的侵犯;其二,利用多模态数据对学习者的潜在特征和学习规律进行挖掘分析,学生的学习主体地位可能被弱化,成为可以被量化、被研究、被干预的被动客体,在一定程度上丧失了教育应有的人文关怀;其三,基于多模态数据探寻教育发展的根本规律,并以此开展个性化、精准化、智能化的课堂教学,为学习者提供适切性的学习支持服务,将在一定程度上弱化学生“试错”和“反思”的过程,对学习者的探索精神和创新意识造成伤害。因此,如何使智能技术的应用能够真正促进学生的有效学习,避免技术滥用带来的学习者隐私泄露和学习者主体地位弱化是未来一段时间内需要解决的关键问题。


参考文献:

[1]陈敏,余胜泉(2015).泛在学习环境下感知学习过程情境的推荐系统设计[J].电化教育研究,36(4):76-82.

[2]郭斌(2020).论智能物联与未来制造——拥抱人机物融合群智计算时代[J].人民论坛·学术前沿,(13):32-42.

[3]黄涛,王一岩,张浩等(2020).智能教育场域中的学习者建模研究趋向[J].远程教育杂志,38(1):50-60.

[4]黄志芳,赵呈领,黄祥玉等(2015).基于情境感知的适应性学习路径推荐研究[J].电化教育研究,36(5):77-84.

[5]卢宇,薛天琪,陈鹏鹤等(2020).智能教育机器人系统构建及关键技术——以“智慧学伴”机器人为例[J].开放教育研究,26(2):83-91.

[6]穆肃,崔萌,黄晓地(2021).全景透视多模态学习分析的数据整合方法[J].现代远程教育研究,33(1):26-37,48.

[7]欧阳明,龚萍,高山(2012).复杂性视野下的教育技术学研究方法论初探[J].中国电化教育,(9):16-21.

[8]屈静,刘凯,胡祥恩等(2020).对话式智能导学系统研究现状及趋势[J].开放教育研究,26(4):112-120.

[9]王慧君,王海丽(2015).多模态视域下翻转课堂教学模式研究[J].电化教育研究,36(12):70-76.

[10]王一岩,王杨春晓,郑永和(2021a).多模态学习分析:“多模态”驱动的智能教育研究新趋向[J].中国电化教育,(3):88-96.

[11]王一岩,郑永和(2021b).智能教育产品:构筑基于AIoT的智慧教育新生态[J].开放教育研究,27(6):15-23.

[12]王一岩,郑永和(2021c).面向智慧课堂的教育情境感知:价值定位、特征模型与实践框架[J].电化教育研究,42(11):84-91.

[13]王一岩,刘士玉,郑永和(2021d).智能时代的学习者情绪感知:内涵、现状与趋势[J].远程教育杂志,39(2):34-43.

[14]张琪,武法提,许文静(2020).多模态数据支持的学习投入评测:现状、启示与研究趋向[J].远程教育杂志,38(1):76-86.

[15]郑永和,王一岩(2021). 教育与信息科技交叉研究:现状、问题与趋势[J].中国电化教育,(7):97-106.

[16]郑永和,严晓梅,王晶莹等(2020).计算教育学论纲:立场、范式与体系[J].华东师范大学学报(教育科学版),38(6):1-19.

[17]Ashwin, T. S., & Guddeti, R. M. R. (2020). Automatic Detection of Students’Affective States in Classroom Environment Using Hybrid Convolutional Neural Networks[J]. Education and Information Technologies, 25(2):1387-1415.

[18]Ashwin, T. S., & Guddeti, R. M. R. (2018). Unobtrusive Students’Engagement Analysis in Computer Science Laboratory Using Deep Learning Techniques[C]// Proceedings of the IEEE 18th International Conference on Advanced Learning Technologies(ICALT). Mumbai: IEEE:436-440.

[19]Baltrušaitis, T., Ahuja, C., & Morency, L. P. (2018). Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2):423-443.

[20]Bao, X. (2013). Enabling Context-Awareness in Mobile Systems via Multi-Modal Sensing[D]. Durham: Duke University.

[21]Chango, W., Cerezo, R., & Romero, C. (2021). Multi-Source and Multimodal Data Fusion for Predicting Academic Performance in Blended Learning University Courses[J]. Computers & Electrical Engineering, 89:106908.

[22]Chen, C., & Huang, T. (2012). Learning in a U-Museum: Developing a Context-Aware Ubiquitous Learning Environment[J]. Computers & Education, 59(3):873-883.

[23]Chen, F., Luo, Z., & Xu, Y. (2019). Complementary Fusion of Multi-Features and Multi-Modalities in Sentiment Analysis[EB/OL].[2021-08-20]. https://arxiv.org/pdf/1904.08138.pdf.

[24]Chen, H., Park, H. W., & Breazeal, C. (2020). Teaching and Learning with Children: Impact of Reciprocal Peer Learning with a Social Robot on Children’s Learning and Emotive Engagement[J]. Computers & Education, 150:103836.

[25]Di Mitri, D., Scheffel, M., & Drachsler, H. et al. (2017). Learning Pulse: A Machine Learning Approach for Predicting Performance in Self-Regulated Learning Using Multimodal Data[C]// Proceedings of the Seventh International Learning Analytics & Knowledge Conference(LAK17). Vancouver: ACM:188-197.

[26]Eradze, M., Rodríguez-Triana, M. J., & Laanpere, M.(2020). Context-Aware Multimodal Learning Analytics Taxonomy[C]// Proceedings of the 10th International Conference on Learning Analytics & Knowledge (LAK20). Frankfurt: ACM:1-6.

[27]Giannakos, M. N., Sharma, K., & Pappas, I. O. et al.(2019). Multimodal Data as a Means to Understand the Learning Experience[J]. International Journal of Information Management,48:108-119.

[28]Gouizi, K., Reguig, F. B., & Maaoui, C. (2011). Emotion Recognition from Physiological Signals[J]. Journal of Medical Engineering & Technology, 35(6-7):300-307.

[29]Huang, Y., Yang, J., & Liu, S. et al. (2019a). Combining Facial Expressions and Electroence Phalography to Enhance Emotion Recognition[J]. Future Internet, 11(5):105.

[30]Huang, F., Zhang, X., & Zhao, Z. et al. (2019b). Image-Text Sentiment Analysis via Deep Multimodal Attentive Fusion[J]. Knowledge-Based Systems, 167:26-37.

[31]Hwang, G., Kuo, F., & Yin, P. et al. (2010). A Heuristic Algorithm for Planning Personalized Learning Paths for Context-Aware Ubiquitous Learning[J]. Computers & Education,54(2):404-415.

[32]Kaklauskas, A., Kuzminske, A., & Zavadskas, E. K. et al. (2015). Affective Tutoring System for Built Environment Management[J]. Computers & Education, 82:202-216.

[33]Kress, G. (2010). Multimodality: A Social Semiotic Approach to Contemporary Communication[J]. Journal of Pragmatics, 43(14):3624-3626.

[34]Lahat, D., Adali, T., & Jutten, C. (2015). Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects[J]. Proceedings of the IEEE, 103(9):1449-1477.

[35]Lai, C., Lai, Y., & Hwang, R. et al. (2019). Physiological Signals Anticipatory Computing for Individual Emotional State and Creativity Thinking[J]. Computers in Human Behavior, 101:450-456.

[36]Li, Z., & Zhan, Z. (2020). Integrated Infrared Imaging Techniques and Multi-Model Information via Convolution Neural Network for Learning Engagement Evaluation[J]. Infrared Physics & Technology, 109:103430.

[37]Majumder, N., Hazarika, D., & Gelbukh, A. et al.(2018). Multimodal Sentiment Analysis Using Hierarchical?Fusion with Context Modeling[J]. Knowledge-Based Systems, 161:124-133.

[38]Muñoz-Cristóbal, J. A., Rodríguez-Triana, M. J., & Bote-Lorenzo, M. L. et al. (2017). Toward Multimodal Analytics in Ubiquitous Learning Environments[C]// Proceedings of the Sixth Multimodal Learning Analytics Workshop at the International Learning Analytics and Knowledge Conference(LAK 2017). Vancouver: ACM:60-67.

[39]Olsen, J. K., Sharma, K., & Rummel, N. et al. (2020). Temporal Analysis of Multimodal Data to Predict Collaborative Learning Outcomes[J]. British Journal of Educational Technology, 51(5):1527-1547.

[40]Schrader, C., & Kalyuga, S. (2020). Linking Students’ Emotions to Engagement and Writing Performance When Learning Japanese Letters with a Pen-Based Tablet: An Investigation Based on Individual Pen Pressure Parameters[J]. International Journal of Human-Computer Studies, 135:102374.

[41]Shen, L., Wang, M., & Shen, R. (2009). Affective E-Learning: Using“Emotional”Data to Improve Learning in Pervasive Learning Environment[J]. Educational Technology & Society, 12(2):176-189.

[42]Su, S., Lin, H. K., & Wang, C. et al. (2016). Multi-Modal Affective Computing Technology Design the Interaction Between Computers and Human of Intelligent Tutoring Systems[J]. International Journal of Online Pedagogy and Course Design, 6(1):13-28.

[43]Sun, B., Wei, Q., & He, J. et al. (2016). BNU-LSVED: A Multimodal Spontaneous Expression Database in Educational Environment[C]// Optics and Photonics for Information Processing X. San Diego: SPIE:256-262.

[44]Tortorella, R. A. W., & Graf, S. (2017). Considering Learning Styles and Context-awareness for Mobile Adaptive Learning[J]. Education and Information Technologies, 22(1):297-315.

[45]Verma, G. K., & Tiwary, U. S. (2014). Multimodal Fusion Framework: A Multiresolution Approach for Emotion Classification and Recognition from Physiological Signals[J].NeuroImage, 102:162-172.

[46]Wei, Q., Sun, B., & He, J. et al. (2017). BNU-LSVED 2.0: Spontaneous Multimodal Student Affect Database with Multi-Dimensional Labels[J]. Signal Processing: Image Communication, 59:168-181.

[47]Zadeh, A. B., Liang, P. P., & Poria, S. et al. (2018). Multimodal Language Analysis in the Wild: Cmu-Mosei Dataset and Interpretable Dynamic Fusion Graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne:2236-2246.

收稿日期 2021-08-27 责任编辑 杨锐


欢迎转载,开白请联系18980806833(微信号)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存