视频 | Andrew Hardie:语料库文本的词频分析 前沿讲座
欢迎关注我们,一站式获取海量语言学资源
来源编辑:语言学文献每日悦读公众号
请星标应用语言学研习,喜欢请点赞,深爱请分享⭐
CUC Harris
Hello各位读者朋友们!搬运工Harris的第三期前沿语料库讲座推送时间到!本期Harris推送的讲座是兰卡斯特大学准教授Andrew Hardie在2017年伯明翰大学召开的语料库语言学会议(CLC2017)上发表的学术报告,题目为'Exploratory analysis of word frequencies across corpus texts: Towards a critical contrast of approaches'。话不多说,干货献上!
讲座信息
讲座题目: Exploratory analysis of word frequencies across corpus texts: Towards a critical contrast of approaches
讲座嘉宾:Andrew Hardie
会议:2017 Corpus Linguistics Conference (in University of Birmingham
讲座嘉宾
Andrew Hardie
Andrew Hardie,兰卡斯特大学语言学准教授/待位教授(reader in linguistics),兰卡斯特大学社会科学语料库研究中心(CASS)副主任。研究方向为语料库语言学(尤其是语料库设计与建设、语料库软件开发等),Hardie善于将语料库方法应用于话语分析、语言教学及人文社会科学的其他学科研究当中,其研究涉及心理学、地理学、历史学、英语文学等多学科领域。同时,他还擅长多语言研究,包括阿拉伯语、阿萨姆语、英语、乌尔度语、爪哇语、马来语、尼泊尔语、俄语以及藏语等等。
讲座内容
语料库语言学的最新趋势是采用隐含狄利克雷分布 (Latent Dirichlet Allocation, LDA),它已被数字人文主义者广泛使用作为探索性语料库分析的方法。LDA 是一种机器学习方法,它仅基于文本或文档中作为数据对象的单词出现在语料库的内容中引入结构,这是一系列方法之一,通常可能会误导性地称为主题建模。然而,对词频的多维数据采用这种方法会带来高昂的代价,即系统会忽略或使知识变得不透明。这引发的问题是该价格标签是否合理。
虽然LDA 已经被证明有诸多优势,但也存在至少三个实质性的缺点。首先,它是不确定的:随机化是算法的核心。从科学可复制性的角度来看,这是有问题的,原因显而易见,无法细说。其次,它的操作是不透明的:底层分布数据和由此产生的统计模型之间的关系对分析师来说是不透明的。第三,支持 LDA 算法的文本生成理论与对文本、主题和话语的语言理解存在怀疑。
此外,虽然缺乏用于构建模型的语言知识是 LDA 的一个优点,但这同样也是一个缺点:语料分析领域已经投入了大量精力来精确地创建 LDA 所需要的知识资源。我们接受这些缺点究竟能给我们带来什么?在研究这个问题时,我们必须将其与在语料库语言学中建立更久的探索性多元分析方法进行比较。使用从 FLOB 语料库中提取的示例数据,我将比较和对比不同分析程序(包括 LDA 模型和替代方法)的结果,并考虑两个问题。第一,这些结果在多大程度上相互兼容?其次,它们在多大程度上可以用语言上有意义的术语进行解释?
讲座视频
■ 小结
今天的语料库前沿讲座推送就先到这儿啦!在接下来的讲座推送和文献推送中,Harris会继续推出更多精彩有趣的内容,敬请期待吧!
综合编辑:应用语言学研习
微信公众平台审核: 梁国杰
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接,
欢迎感兴趣的朋友按需选购。
精选推荐
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 3.43 万语言文学、区域国别学
研习者关注本公众号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!