查看原文
其他

语言数据挖掘与Python编程

语言学实证思辨坊 语言科学 2024-03-07




课程简介

Python是一种高级编程语言,它具有简单、易学的语法结构,它强调代码的可读性和清晰度,这使得它成为初学者入门编程的理想选择。Python在当今新文科背景下的语言学研究中发挥着重要的作用,它提供了丰富的库和工具,方便语言学研究者处理、分析和挖掘语料库数据。本课程旨在教授语言学相关专业的师生如何使用Python编程语言在语言学相关领域进行数据处理、分析及可视化处理。本课程将从字、词、短语、句子、语义层面出发,运用汉英两种语言语料,进行理论讲解、真实语料和项目的实践,学员将学习如何利用Python工具和库处理语料库数据,探索语言的特征和规律,并应用在实际的语言学研究中。


课程特色

(1)课程大纲由语言学及应用语言学博士设计,完全站在语言学专业视角出发设计课程;
(2)专为0基础Python的语言学相关专业师生设计,手把手教授;(3)课程通过真实案例和项目来提高学员对Python应用于语言学的理解和实践能力;

(4)提供课程同步答疑服务及原代码提供;

(5)提供无限次的录播课回放;


课程收获

你将学到如何使用Python,结合丰富的语料库资源,进行语言研究和分析。你将掌握使用Python进行语料的下载、整理、清洗和分析的技巧,从而挖掘出语言中隐藏的规律和趋势。具体收获(不止)如下:

(1)掌握Python的基本知识及技能;

(2)理解语料库研究的基本方法;

(3)能够使用Python进行语料文本的整理、清洗和分析;

(4)运用统计和可视化工具解析语言数据,发现隐藏规律;

(5)完成小型语言学研究项目,培养量化实证研究思维;

(6)开展自己的语言研究项目,提升学术竞争力;

课程设计及主讲教师

(1)Charles学长,人工智能专业,主攻自然语言处理方向;长期为本硕博学生辅导python;精通python的各类用法;著名国际比赛SemEval-2023全球第一名;第一作者身份发表NLP顶会ACL;中国计算机学会CCF会员 | CCF CSP认证;参与国家及省部级项目多项;重点语料库课题组技术成员。

(2)Moa学姐,“语言学实证思辨坊”创始者;应用语言学在读博士;熟悉语料库研究范式;参与发表多篇SSCI及中文核心期刊论文;参与国家社科基金项目及语合中心项目;研究方向为二语习得,计量语言学,语料库语言学;语言数据挖掘与python编程课程设计者。

适合人群

1)语言学相关专业学生和研究者;(2)使用语料库范式的科研人员;(3)计算语言学专业学生和研究者;(4)文本分析从业人员。


课程规划

第一讲 Python的本地安装界面及基础技术

1.Python简介与环境配置:打造自己的语言编程世界,从“hello world”开始

2.变量、数据类型与运算符

3.条件语句与循环结构

4.函数与模块

时间:2023年7月31日 19:00-21:00


第二 语篇文本的读取与输出

1.读取网络语料库

2.读取自建语料库

3.输出格式化结果

时间:2023年8月1日 19:00-21:00


第三讲 语篇文本的预处理

1.句子分割

2.分词处理

3.词语规范化(词形分析和词干提取

4.去中英文停用词(删除不需要的词)

5.清除标点符号、数字等不需要的信息

时间:2023年8月3日 19:00-21:00


第四讲语篇文本字词层面的标注与统计(一)

1.中英文词性标注介绍与实战

2.字数、词数、词频、词性统计

3.词汇密度的计算

4.词汇复杂度的计算

时间:2023年8月4日 19:00-21:00


第五讲语篇文本字词层面的标注与统计(二)

1.词长统计、词长分布

2.高频词的统计

3.指定词汇的检索

4.中英文命名实体识别

5.词层面数据的可视化(包括词云图)

时间:2023年8月6日 19:00-21:00


第六讲语篇文本短语层面的统计及计算

1.n-grams的提取

2.NLTK的n-grams( )方法

3.spaCy的noun_chunks方法

4.TextBlob的ngrams( )和noun_phrases

5.搭配强度的计算

6.短语层面数据的可视化

时间:2023年8月8日 19:00-21:00


第七讲语篇文本句层面的统计及计算

1.句子数量统计

2.句长、分句长的计算

3.句长分布统计

4.具体句法结构的提取

5.句层面数据的可视化

时间:2023年8月9日 19:00-21:00


第八讲语篇文本语义层面的统计及计算

1.语义角色标注

2.文本的情感分析

3.文本聚类分析

4.语义相似性

时间:2023年8月10日 19:00-21:00


第九讲基于Chatgpt的语料库研究

1.平行语料库的构建

2.数据增强技术

3.基于Chatgpt的文本分析

时间:2023年8月12日 19:00-21:00




咨询群

(如咨询群二维码失效,请加下方课程工作人员微信)

 


购买后,请务必添加工作人员微信

获取正课答疑交流学习群链接






本文来源:语言学实证思辨坊
1.相关阅读
认知语言学的研究方法
语言类型学视域下的领属范畴研究
起始年龄和语言学能与二语学习成效的关系研究
语言迁移和概念性迁移:理论与实证
李葆嘉教授等——幼儿语言的成长:常用词汇语义系统建构
鲜活的语言:语言人类学导论
杨亦鸣教授导读《人类语言的大脑之源》
冯志伟教授谈依存语法

2.学术会议
2023年度语言学学术会议(第一辑)
2023年度语言学学术会议(第二辑)
2023年度语言学学术会议(第三辑)
2023年度语言学学术会议(第四辑)
2023年度语言/翻译学学术会议(第五辑)

3.讲座回看
国际期刊论文写作发表系列
语言学讲座回放集锦(八)
语言文学讲座回放集锦(七)
语言文学公益讲座回放集锦(六)
语言文学公益讲座回放集锦(五)
语言文学公益讲座回放集锦(四)
语言文学公益讲座回放集锦(三)
语言文学公益讲座回放集锦(二)
语言文学公益讲座回放集锦

继续滑动看下一个

语言数据挖掘与Python编程

语言学实证思辨坊 语言科学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存