查看原文
其他

董伟等 | 基于TF-IDF算法和DTM模型的网络学习社区主题分析

董伟 董思遥 等 现代教育技术杂志 2024-02-05

摘要:随着信息技术的快速发展,网络学习社区已成为重要的学习平台之一。在此背景下,文章采用词频—逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法和动态主题模型(Dynamic Topic Models,DTM),以951条相关文献作为数据来源,首先对网络学习社区的研究热点和研究主题进行了分析,发现网络学习社区具有明确的教育属性,并将网络学习社区领域的相关研究划分为九类主题。随后,文章基于时序绘制了热度高低均值图和热度曲线图,对网络学习社区主题热度与演化情况进行了分析,发现混合教学和学习服务等主题具有核心热点特征,平台建设、学习者交互、社区生态等主题发展较为稳定,学习环境主题有一定的发展潜力,而学习模式、知识共享、学习动机等主题热度逐渐弱化。最后,文章梳理了研究结论,并针对网络学习社区的发展提出了建议。文章的研究为网络学习社区领域中理论和实践研究提供了一定的数据和理论支持,明确了该领域的研究主题和结构,为探讨该领域的未来研究方向提供了新的思路。

关键词:网络学习社区;TF-IDF算法;DTM模型;主题热度;演化情况

引言

作为信息技术背景下的学习平台,网络学习社区相较于传统的教学模式具有更强的互动性、参与性、开放性和个性化特点,并发挥着促进社区成员交流与知识共享、改革个体学习和群体学习模式的作用[1]。网络学习社区又称虚拟学习社区,其形式最早可追溯至20世纪70年代由伊尔莱姆大学开发的电子公告栏(Bulletin Board System,BBS),学生聚集在一起通过相互提问、回答与评价问题的方式进行简单的社区式交互学习,大大提高了师生、生生之间的交流程度[2]。在此后的几十年中,网络学习社区的概念虽然未被明确定义,但多数研究者就“网络学习社区是网络社区在学习上的应用,是一种学习共同体”[3]这一观点达成了共识。


近年来,国内学者从不同角度分析了我国网络学习社区领域的研究现状和发展动态:在定性研究方面,王英让[4]、赵扬等[5]从社区类型、社会性维度等方面进行了剖析和总结;在定量研究方面,贵佳林等[6]利用社会网络工具对网络学习社区领域的关键词进行可视化分析,并通过对共现高频词的小团体分析粗略地划分了非正式学习、知识管理等主题。然而,诸如共词分析、聚类分析、引文耦合等传统的文献计量方法往往只能从静态维度对网络学习社区领域进行探索和分析,且难以深入地对文献内容进行有效识别,无法动态地揭示该领域主题的演化过程。基于此,本研究采用TF-IDF算法和DTM模型,通过分析国内关于网络学习社区的文献内容,掌握国内有关网络学习社区的研究热点、主题的发展变化趋势以及主题自身的演化状况,进而更深入、系统地了解国内关于这一研究领域的发展历程和趋势,旨在为未来网络学习社区在我国的发展提供新的研究切入点和思考。


一 研究设计

1 数据来源

本研究选取中国知网(CNKI)的中国学术期刊网络出版总库作为检索的数据库,文献类型限定为“期刊”,检索主题为“网络学习社区”“在线学习社区”“虚拟学习社区”等,文献发表的时间范围为2010~2020年,检索时间为2021年3月30日。经过检索,共得到1031条数据;剔除报纸、年鉴、会议文摘、商业评论等非论文形式的文献之后,得到951条有效数据。


2 研究工具

本研究使用TF-IDF算法统计有效数据文本中的高频词汇。TF-IDF算法是一种加权技术,它可以对获取到的所有文献进行词频权重分析,并提取其中权重较高的特征词。TF-IDF算法的优点在于可以过滤掉文本中常见但没有实际意义的词语,同时保留真正影响文本的词语,故TF-IDF算法比普通的词频统计法得到的结果更加准确、客观,其具体计算如公式(1)所示[7]


DTM模型是对隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的继承与发展。2012年,Li等[8]通过实验,验证了DTM模型可以通过动态处理基于时序的文档数据集,识别与追踪数据集的动态主题,揭示某一领域内主题和主题词的协同演变脉络。基于此,本研究通过DTM模型识别研究主题并梳理主题自身的演化情况。DTM模型的应用原理是首先将检索到的文献摘要的文本数据按照时序进行离散化切片,然后假定相邻时间片上的主题分布和主题内容都随时间演化[9],最后识别出时间连续的摘要数据集合的主题链,其主题演变模型如公式(2)所示。


困惑度是确定主题模型最优主题数目的重要判断指标,困惑度值越小,模型泛化能力越强,当前主题数目就越优[10]。困惑度的计算如公式(3)所示。


为了使主题识别的结果更准确,本研究设置了多个主题数并反复将其与困惑度的对应关系进行实验,实验结果显示:当主题数量为9时,折线变化趋于稳定,即拟合关系最好,冗余度低,最有代表性[11]因此,本研究把DTM模型的主题数阈值设为9,之后通过建模选取热度最高、能反映研究内容的词语,并在DTM模型的支持下确定词语对主题的贡献度,即某一词语在所有时间片段下的分布总概率,然后对词语的贡献度进行排序,最终人工确定文献的研究主题。


二 网络学习社区的研究热点与研究主题分析

1 基于TF-IDF算法的网络学习社区研究热点分析

利用TF-IDF算法进行计算,本研究对网络学习社区研究领域中有效关键词的词频进行分析,根据公式(1)计算词频权重,统计出排名前15的高频词,结果如表1所示。


表1  高频词及词频权重


通过分析高频词可以发现,网络学习社区属性鲜明,研究内容丰富,涉及多个方面。其中,热度高的词大多与学习有关,如学习者、教学、知识、教师、课程等,这个结果体现了网络学习社区具有明确的教育属性,即网络学习社区是以学习为主要目的、以提高学习绩效为最终目标的社区,这正是其与普通网络社区的本质区别之所在。此外,平台、技术、Web 2.0、模型等高频词与开发、搭建网络学习社区这个在线平台的硬件和软件技术有关,而交互、共享、社会、情感等高频词与网络学习社区参与者之间的交流、互动紧密关联,这显示网络学习社区的研究热点中既包含技术取向的内容,也包含社会取向的内容。


2 基于DTM模型的网络学习社区研究主题分析

根据DTM模型对2010~2020年网络学习社区领域文献主题分类的处理结果,按照建模时设定的阈值,本研究将网络学习社区领域的相关研究划分为九类主题,并在每个研究主题中选择热度值高且有代表性的10个词作为关键词,以揭示该研究主题的具体内容,如表2所示。


表2  网络学习社区九类研究主题及其关键词


①平台建设:包括技术、资源、Web 2.0、个性化等关键词。平台建设主要涉及两个方面内容,一是其构建原则和构建模型,二是在建设过程中其所用的技术和工具,最终通过对平台整体的建设达到提升用户学习效率和学习体验的目的。


②学习动机:包括效能、积极性、动机、归属感等关键词。网络学习社区是网络学习资源的共享空间,研究者不断从理论层面出发,挖掘影响社区学习者学习动机的相关因素(如学习者的积极性和归属感等因素),从而探讨促进学习效果的方法和路径。


③学习者交互:包括交互、论坛、社会性、参与、情感等关键词。网络学习社区中的学习者除了完成学习任务,还会参与到留言评论、加入论坛或小组讨论等活动中进行互动交流。学习者在交互过程中形成独特的情感体验,由此产生对社区的认同感和归属感,同时能够更好地集思广益,达到优于个体学习的学习效果。


④学习模式:包括学习者、角色、协作、体验、小组等关键词。学习者在网络学习中的学习模式,会直接影响其在线学习效果。网络学习社区的小组成员之间互动频繁、强调协作学习,这与传统学习模式存在较为明显的区别。社区中的各小组成员承担各自的责任,扮演不同的角色,通过组内合作、组间竞争进行思维碰撞和知识共享,最终获得能力提升、实现创新突破。


⑤学习服务:包括学习型、培训、社会、终身教育、远程教育等关键词。在当今这个学习型社会中,终身教育的理念日渐深入人心,网络学习社区的服务范围和服务对象已扩展至整个社会。通过远程教育的形式,网络学习社区一方面可以帮助成人继续充实自身、完成知识建构;另一方面能在各个领域发挥助学功能,在整个社会中发挥更加积极和重要的作用。


⑥社区生态:包括环境、临场感、生态、管理、社交等关键词。研究者从生态学的角度出发,将在线学习社区看作是学习者与社区学习环境构成的一个完整的远程生态学习系统。其中,维护好社区生态系统内部独特的功能、机制和社区文化,可以使社区成员更好地适应系统并发挥其自身价值[12]。因此,从生态系统的角度进一步完善网络学习社区的功能和结构,并提出新的管理策略,对提高学习活动的效率具有重要的研究意义。


⑦知识共享:包括知识、建构、共享、协同、传播等关键词。社区成员通过显性知识和隐形知识的传播来获取、发现知识。其中,知识传播中的共享是成员在社区中高效学习的核心价值之一,知识的传播机制、成员之间的协同互动都会影响知识的共享进而促进知识的传递和转化。因而,对社区中知识共享环节特征的探究有利于进一步完善社区功能和结构。


⑧混合教学:包括师生、教学模式、混合、翻转课堂等关键词。网络学习社区可以作为教学平台应用于数学、英语等学科中,成为课堂教学中混合式教学的重要工具,其表现形式多种多样,如翻转课堂、MOOC等。此外,师生交流、教学评价等也是混合教学研究关注的内容。


⑨学习环境:包括虚拟现实、技术、实施、云、网络分析等关键词。随着虚拟现实技术、云技术等的发展,将这些信息化技术与网络学习社区相结合,为用户建立更加智慧、更接近于真实的虚拟学习环境,实现智能化学习,是提升网络学习社区学习活动效率、优化用户学习体验的有效途径。


结合不同主题的相关文献,可以进一步发现:在九类研究主题中,平台建设、学习动机、学习模式主题属于网络学习社区领域的基础研究,侧重于探讨如何在理论和技术层面构建网络学习社区、挖掘学习者学习动机的影响因素以及完善学习者在社区中表现的学习模式;学习服务、混合教学、学习环境主题偏向于网络学习社区的功能与应用研究;学习者交互、社区生态、知识共享主题则主要体现了社区的社会性和人文性。


三 基于时序的网络学习社区主题热度与演化情况分析

本研究根据对研究主题热度的建模,得到了基于时序的主题热度矩阵,进而可以对九类研究主题的演化趋势展开分析。为了更加形象、清楚地展现网络学习社区研究主题随时间的热度变化情况,本研究绘制了热度高低均值图(如图1所示),来表示国内网络学习社区研究主题热度矩阵;同时绘制了基于时序的九类研究主题的热度曲线图(如图2所示),以清晰地揭示每类研究主题随时间变化的演化情况。


图1  网络学习社区九类研究主题的热度高低均值图


图2  网络学习社区九类研究主题的热度曲线图


1 主题热度高低均值分析

在图1中,X轴表示9类研究主题,Y轴表示这些主题的热度值;图内的圆点代表2010~2020年网络学习社区研究主题的热度均值,实线和虚线分别代表热度的最高值、最低值。图1显示,在九类研究主题中,混合教学的热度均值最高(>0.5),且热度区间较小,说明该主题一直是热点研究领域,属于核心研究主题;学习动机的热度均值最低(<0.35),且热度区间较小,说明该主题受到的关注度一直不高,属于边缘研究主题;其余七类主题的热度均值相差不大(均大于0.4、小于0.45),其中平台建设、学习者交互、社区生态的热度区间极小,说明这三个主题的热度较为稳定,长期受到了一定程度的关注;学习环境的热度区间极大,说明该主题热度变化明显,有可能只是在某一段时间内受到的关注度较高,但此关注度不具有持久性;而学习模式、学习服务、知识共享的热度区间处于中等水平,说明这三个主题的热度虽有一定的波动性,但在较长一段时间内受到了一定程度的关注。


2 主题演化情况分析

图2清晰地展示了网络学习社区九类研究主题的热度值随时间变化的演化情况,其中X轴代表年份,Y轴代表各主题的热度值。九类研究主题的演化情况具体分析如下:


(1)具有核心热点特征的主题是混合教学和学习服务

混合教学和学习服务的热度均值都相对较高(分别为0.501、0.435),并且在2014年后两者的研究热度均有明显的上升,具有较强的核心热点特征。具体来说:①混合教学方面主要集中于网络学习社区如何与各个学科的教学相结合,探索出新的教学模式以促进教学,如李玉顺等[13]探讨了新环境下高中语文学科的教学模式,为在线学习社区与课堂教学的融合提供了实践支持;②学习服务方面主要涉及网络学习社区在非正式学习场合为学习者提供辅助学习的功能,在一定程度上体现了终身学习的理念,如谭敬德[14]在网络学习社区中为成人自学考试构建了一种新的助学模式,充分发挥了学习社区在远程教育中的助学功能。近十年来,混合教学主题和学习服务主题研究热度的上升意味着研究者对网络学习社区应用研究的关注进一步加大。


(2)具有稳定发展特点的主题是平台建设、学习者交互和社区生态

平台建设、学习者交互和社区生态这三个主题的热度均值不低,热度波动不明显,表明它们是网络学习社区领域相对稳定的重要研究主题。具体来说:①平台建设主要集中于不同情境下网络学习社区的构建与优化。平台建设这一主题的研究热度在2012年之前有所下降,2012年之后开始缓慢回升。随着移动通信技术的快速发展和无线网络技术的逐渐成熟,移动网络学习社区蓬勃发展,移动学习社区的平台构建成为了一个研究热点。例如,岳红丽[15]探索了英语移动学习社区的“三位一体”构建策略及其相应的构建过程,有助于实现线上与线下的大学英语同步学习。②学习者交互是从社会关系学的角度出发,强调网络学习社区中学习者之间社会互动的重要性。例如,戴心来等[16]对社区中学习者参与互动的特征进行分析,进而提出了实施有效教学干预的措施。学习者交互研究对于研究者探讨学习社区归属感的形成、探索如何提高社区成员学习效果具有重要的理论价值。因此,学习者交互在未来一段时间内仍将是网络学习社区的一个研究热点。③社区生态是从生态学的视角出发,将网络学习社区作为由学习环境与学习主体构成的生态系统,并结合现代学习理论和生态学习观的基本思想,探讨如何将生态学与学习社区相结合,构建符合生态平衡的网络学习社区生态系统[17]。例如,张欣[18]从生态学的视角出发,分析了影响网络学习社区管理的因素,并提出了实现社区可持续发展的相应对策。


(3)具有发展潜力的主题是学习环境

学习环境主题的热度波动较大(波动值达到了0.045),且具有明显的上升趋势,在未来有可能成为具有核心热点特征的主题。随着信息化2.0的提出和大数据、人工智能等技术的发展,学习空间如何进行智慧化和智能化改进逐渐成为研究的热点。例如,李琛[19]从服务、资源、工具等多个角度提出构建学习共享空间,以及与移动学习进行结合的有效发展路径。


(4)逐渐弱化的主题是学习模式、知识共享和学习动机

学习模式、知识共享和学习动机的整体热度均值不高,研究逐渐走向边缘化。具体来说:①学习模式主题的热度波动较为明显,整体呈下降趋势。该主题在2014年以前的热度相对较高,但由于其研究范畴存在一定的泛化,且创新动力不足,因此该主题的相关研究热度逐渐弱化。②知识共享主题的热度呈逐年下降趋势,这意味着从知识交流与共享层面去促进社区内部知识传播效率的相关理论研究在近十年内已不再是研究者关注的重点。③学习动机主题的热度均值最低,且热度波动较小,其随时间变化的演化情况表明关于学习动机主题研究的后续动力不足,在一定程度上可以说已经进入研究的瓶颈期。



四 结论与建议

1 研究结论

本研究利用TF-IDF算法分析了网络学习社区的研究热点,其中对排名前15的高频词进行分析后发现,网络学习社区具有明确的教育属性,由此揭示了网络学习社区与普通网络社区的本质区别;同时,网络学习社区的的研究热点中既包含技术取向的内容,也包含社会取向的内容。此外,本研究利用DTM模型,将网络学习社区领域的相关研究划分为九类主题:平台建设、学习动机、学习者交互、学习模式、学习服务、社区生态、知识共享、混合教学、学习环境。


在此基础上,本研究基于时序对网络学习社区的研究热度和演化情况进行了分析,发现混合教学和学习服务等主题的热度相对较高,且保持明显的上升趋势,具有核心热点特征;平台建设、学习者交互、社区生态等主题热度的演化情况较为平稳,具有稳定发展特点;学习环境主题的热度虽然目前的整体水平不高,但其发展的上升趋势明显,具有一定潜力成为未来新的核心主题;学习模式、知识共享和学习动机等主题的热度整体相对较低,发展趋势下降明显,成为研究热度逐渐弱化的主题。


2 未来网络学习社区的发展建议

本研究通过对文献数据进行挖掘与分析,系统梳理了网络学习社区领域的研究热点,揭示了该领域相关研究的演化过程和演化特征,为该领域的创新与深入研究提供了一定的数据支撑和理论参考。需要指出的是,当前网络学习社区研究仍存在一定的局限性,对此本研究提出了相应的发展建议,具体如下:


①研究主题应进一步系统化。通过高频词分析和主题识别可以发现,网络学习社区的研究范围较为广泛,能够反映热点和主题的关键词较为分散,缺乏一定的系统性。多数研究集中于对现象的讨论和技术的应用,而对网络学习社区中相关理论内核和研究方法的探索较少。这在一定程度上与网络学习社区在我国所处的发展阶段为初级阶段和新技术的不断迭代有关,也与许多研究采用的理论视角、模型或方法等较为单一有关。由于网络学习社区领域建设具有一定的跨学科特点,因此有必要在借鉴和整合相关学科领域研究理论或方法的同时,探索形成具有网络学习社区领域自身特点的理论方法体系和研究范式,以指导并促进相关研究的不断深入。


②多元化的社会群体应被纳入研究视野。从网络学习社区的研究热点和主题分析结果来看,可以发现其研究对象主要为教师和学生。随着我国学习型社会的建设和终身学习概念的普及,拥有继续学习期望与需求的社会群体不再限于学校的教师和学生,而是原来越多元。多元化的社会群体对网络学习社区的需求及其自身的生理、心理特点与在校师生之间存在一定的差异,如技术工人可能更期待开设有实操技巧的相关课程、老年人往往不善于操作电子设备而希望获得更多的指导和帮助等。因此,后续研究有必要参照学习群体的类型,根据不同群体的学习需求和特征对其学习模式进行深入分析,从而丰富网络学习社区多元化学习群体学习的相关理论研究与实践。③社区的人文性研究仍存在深入探索的空间。虚拟学习环境是一种人工环境,人文性是其基本特征[20]。结合主题演化情况的分析结果,可以发现能够反映网络学习社区人文性特征的主题如知识共享、社区生态的研究热度呈明显的下降趋势,可见网络学习社区中的人文性研究相对不足。目前,许多网络学习社区的实际应用效果并不理想,用户活跃度不高,学习者之间难以进行持久交互。这些现象的出现在一定程度上是由于社区没有形成良好的人文环境、没有为学习者提供更好的融入机制,因而学习者没有强烈的归属感。对此,未来有必要对学习者交互、社区生态等主题进行深入研究,分析学习者交互的情感特征,探讨学习者参与交互的激励机制,进一步推动网络学习社区中学习共同体构建、社区学习生态优化以及社区文化环境建设等方面的相关研究。此外,通过研究主题的演化情况分析可知,学习环境主题具有较大的发展潜力,而结合主题关键词的分析可以发现,当前对于利用“虚拟现实”“云”等相关技术进行环境构建的理论探讨已相对充分。因此,未来有必要关注新兴技术在教学中的实践与应用,通过搭建个性化学习情境,分析学习者的学习体验与学习效果,优化学习资源的精准推荐,使智慧化、智能化网络学习社区的构建成为现实。


参考文献

[1]金涛.网络学习社区中促进知识深层建构的交互模式设计[J].远程教育杂志,2015,(5):64-72.

[2]Ehrmann S C, Collins M. Emerging models of online collaborative learning: Can distance enhance quality?[J]. Educational Technology, 2001,(41):34-38.

[3]高长俊,胡世清.我国虚拟学习社区研究现状及趋势分析[J].远程教育杂志,2011,(4):65-70.

[4]王英让.虚拟学习社区的概念、类型及其发展现状[J].电脑与信息技术,2017,(3):57-59.

[5]赵扬,张立国.我国虚拟学习社区社会性维度的研究综述[J].中国远程教育,2014,(8):21-28.

[6]贵佳林,李永先.基于Ucinet的虚拟学习社区可视化分析[J].电子商务,2016,(7):67-69.

[7]Alam S, Yao N. Big data analytics, text mining and modern English language[J]. Journal of Grid Computing, 2019,(17):357-366.

[8]Li D, Ding Y, Shuai X, et al. Adding community and dynamic to topic models[J]. Journal of Informetrics, 2012,(2):237-253.

[9]Blei D M, Lafferty J D. Correlated topic models[A]. Inter-national Conference on Machine Learning[C]. Guangzhou: IEEE, 2005:113-120.

[10][11]徐露露,王效岳,白如江,等.基于DTM模型和文本特征分析的基金项目新兴趋势探测研究——以NSF石墨烯领域为例[J].数据发现与知识发现,2018,(3):87-97.

[12][17]余金昌.基于生态视角的虚拟学习社区构建[J].中国电化教育,2012,(6):42-45.

[13]李玉顺,邹佳君,王屏萍.教师支持对在线学习者交互程度影响的研究——以高中语文学科“双课堂”教学为例[J].中国电化教育,2019,(5):114-119.

[14]谭敬德.基于网络虚拟学习社区的自学考试助学模式的构建[J].现代远距离教育,2010,(3):63-66.

[15]岳红丽.“互联网+”时代的大学生英语移动虚拟学习社区构建研究[J].课程教育研究,2018,(11):110-111.

[16]戴心来,王丽红,崔春阳,等.基于学习分析的虚拟学习社区社会性交互研究[J].电化教育研究,2015,(12):59-64.

[18]张欣.教育生态学视角下虚拟学习社区管理策略研究[D].山东:曲阜师范大学,2014:46-47.

[19]李琛.移动学习视角下图书馆学习共享空间的构建及动力机制研究[J].图书馆学研究,2016,(11):61-67.

[20]张丽霞,王文利.生态系统视角下的虚拟学习环境的构建[J].中国电化教育,2010,(8):29-32.


继续滑动看下一个

董伟等 | 基于TF-IDF算法和DTM模型的网络学习社区主题分析

董伟 董思遥 等 现代教育技术杂志
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存