其他
2021暑期 | Python网络爬虫与文本分析
Python数据采集与文本分析
实证研究过程中学者普遍面临数据获取、清洗和编码的两大问题。在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两大问题,即:
从网络世界中高效地采集数据 从纷杂的文本数据抽取文本信息
课程概览
2021年7月22-23日 2000元;回放10天 小鹅通平台(线上直播) 每天6小时(8:30 — 11:30;14:00 — 17:00)+ 30分钟答疑 软件:Anaconda
授课内容
Part1 Python语法入门 Part2 网络数据采集,网络用户行为数据采集,可自动下载文本、图片、视频、pdf等文件 Part3 文本分析,如词频统计、情感分析、信息抽取 Part4 机器学习,如LDA话题模型、文本分类等
讲师介绍:
邓旭东:哈尔滨工业大学在读博士,曾在多所大学分享Python,运营【公众号:大邓和他的Python】擅长Python、网络爬虫、文本分析、机器学习等内容。
课程内容
Part1 Python语法入门(7.22 am)
Python跟英语一样是一门语言 数据类型之字符串 数据类型之列表元组集合 数据类型之字典 数据类型之布尔值、None 逻辑语句(if&for&tryexcept) 列表推导式 理解函数 常用的内置函数 os路径库 内置库csv文件库 常见错误汇总
Part2 数据采集(7.22 pm)
网络爬虫原理 网络访问requests库 pyquery库解析html网页 案例 1:豆瓣小说 json库解析json网页 案例 2:知乎 案例 3:微博 案例 4:批量下载文档、多媒体文件 案例 5:上市公司定期报告pdf批量下载 案例 6:api数据采集 区分动态网站与静态网站
Part3 初识文本分析(7.23 am)
文本分析在经管领域中的应用 读取文件中的数据(txt、pdf、docx、xlsx、csv) 数据清洗re库-从文本中抽取姓名、年龄、电话、数字等各种信息 案例 7:如何将多个文件中的数据整理到一个excel中 中文jieba分词 案例 8:词频统计、制作词云图 案例 9:共现法扩展情感词典 案例 10:词向量word2vec扩展情感词典 案例 11:中文情感分析(无权重词典法) 数据分析pandas库快速入门 案例 12:使用pandas对excel中的文本进行情感分析 案例 13:使用tf-idf进行情感分析(有权重词典法) 案例 14:从文本数据中构造可用的社交网络数据 案例 15:对社交网络数据进行可视化
Part4 机器学习与文本分析(7.23 pm)
了解机器学习 使用机器学习做文本分析的流程 Scikit-learn机器学习库简介 文本特征工程-将文本转化为机器可处理的数字向量 认识词袋法、one-hot、Tf-Idf、word2vec 案例 16:使用标注工具对文本数据进行标注 案例 17:在线评论文本分类 文本相似性计算 案例 18:使用文本相似性识别变化(政策连续性) 案例 19:Kmeans聚类算法 案例 20:LDA话题模型 案例 21: 识别图片中的文本 Python爬虫、文本分析、机器学习等技术在论文中的应用赏析
报名信息
参加对象
全国高等院校及研究机构从事经济科学研究的青年师生。尤其适合那些希望掌握高级实证方法,提升量化研究设计能力和国家课题申报能力的研究者。
报名时间
从即日起
缴费信息
单位:杭州国商智库信息技术服务有限公司 开户银行:中国银行杭州大学城支行 银行账户:6232636200100260588
费用
2000元;回放10天 优惠政策: 报名两位老师的课程9折;三位老师的课程8折;四位老师的课程7.5折;三人成团及以上9折;五人成团及以上8折;老学员9折;学生优惠200元/人;各类叠加不超过7.5折。
(注:为扩大学员们的选择空间,可单独选择报名一位老师或几位老师的课程,也可组团报名,详情咨询文末陈老师)
报名咨询
13967800957(同微信)(陈老师)
欢迎咨询!
点击阅读原文获取更多课程信息