语言数据挖掘与Python编程
课程简介
Python是一种高级编程语言,它具有简单、易学的语法结构,它强调代码的可读性和清晰度,这使得它成为初学者入门编程的理想选择。Python在当今新文科背景下的语言学研究中发挥着重要的作用,它提供了丰富的库和工具,方便语言学研究者处理、分析和挖掘语料库数据。本课程旨在教授语言学相关专业的师生如何使用Python编程语言在语言学相关领域进行数据处理、分析及可视化处理。本课程将从字、词、短语、句子、语义层面出发,运用汉英两种语言语料,进行理论讲解、真实语料和项目的实践,学员将学习如何利用Python工具和库处理语料库数据,探索语言的特征和规律,并应用在实际的语言学研究中。
课程特色
(2)专为0基础Python的语言学相关专业师生设计,手把手教授;(3)课程通过真实案例和项目来提高学员对Python应用于语言学的理解和实践能力;(4)提供课程同步答疑服务及原代码提供;(5)提供无限次的录播课回放;
课程收获
你将学到如何使用Python,结合丰富的语料库资源,进行语言研究和分析。你将掌握使用Python进行语料的下载、整理、清洗和分析的技巧,从而挖掘出语言中隐藏的规律和趋势。具体收获(不止)如下:
课程设计及主讲教师
(1)Charles学长,人工智能专业,主攻自然语言处理方向;长期为本硕博学生辅导python;精通python的各类用法;著名国际比赛SemEval-2023全球第一名;第一作者身份发表NLP顶会ACL;中国计算机学会CCF会员 | CCF CSP认证;参与国家及省部级项目多项;重点语料库课题组技术成员。(2)Moa学姐,“语言学实证思辨坊”创始者;应用语言学在读博士;熟悉语料库研究范式;参与发表多篇SSCI及中文核心期刊论文;参与国家社科基金项目及语合中心项目;研究方向为二语习得,计量语言学,语料库语言学;语言数据挖掘与python编程课程设计者。
适合人群
(1)语言学相关专业学生和研究者;(2)使用语料库范式的科研人员;(3)计算语言学专业学生和研究者;(4)文本分析从业人员。课程规划
第一讲 Python的本地安装界面及基础技术
1.Python简介与环境配置:打造自己的语言编程世界,从“hello world”开始
第二讲 语篇文本的读取与输出
1.读取网络语料库
第三讲 语篇文本的预处理
1.句子分割
2.分词处理
3.词语规范化(词形分析和词干提取)
4.去中英文停用词(删除不需要的词)
5.清除标点符号、数字等不需要的信息
时间:2023年8月3日 19:00-21:00
第四讲语篇文本字词层面的标注与统计(一)
1.中英文词性标注介绍与实战
2.字数、词数、词频、词性统计
3.词汇密度的计算
4.词汇复杂度的计算
时间:2023年8月4日 19:00-21:00
第五讲语篇文本字词层面的标注与统计(二)
1.词长统计、词长分布
2.高频词的统计
3.指定词汇的检索
4.中英文命名实体识别
5.词层面数据的可视化(包括词云图)
时间:2023年8月6日 19:00-21:00
第六讲语篇文本短语层面的统计及计算
1.n-grams的提取
2.NLTK的n-grams( )方法
3.spaCy的noun_chunks方法
4.TextBlob的ngrams( )和noun_phrases
5.搭配强度的计算
6.短语层面数据的可视化
时间:2023年8月8日 19:00-21:00
第七讲语篇文本句层面的统计及计算
1.句子数量统计
2.句长、分句长的计算
3.句长分布统计
4.具体句法结构的提取
5.句层面数据的可视化
时间:2023年8月9日 19:00-21:00
第八讲语篇文本语义层面的统计及计算
1.语义角色标注
2.文本的情感分析
3.文本聚类分析
4.语义相似性
时间:2023年8月10日 19:00-21:00
第九讲基于Chatgpt的语料库研究
1.平行语料库的构建
2.数据增强技术
3.基于Chatgpt的文本分析
时间:2023年8月12日 19:00-21:00
咨询群
(如咨询群二维码失效,请加下方课程工作人员微信)
购买后,请务必添加工作人员微信
以获取正课答疑交流学习群链接