查看原文
其他

python文本分析:从入门到精通

大邓 大邓和他的Python 2019-04-26

购买方式

  • 原价299元,现在限时特价199元。

  • 购买后可发起组队,组队成功的队长可全免学费

  • 扫下方二维码生成自己的课代表分享卡还有机会每单赚23.88元


随着大数据的普及,网络数据资源真正成为一种潜在的宝藏,让我们非计算机专业背景的人也可以借助 机器学习、人工智能等相关方法对问题进行研究。

传统的结构化数据,拿来就可以进行分析。但是网络上的文本数据,由于属于非结构化数据,需要我们使用一定的技术和方法将其转化为计算机能够理解的特征信息,然后我们才能对其进行分析。

文本分析(自然语言处理)是当今人工智能研究和应用的重要方向。本课程主要起到帮助大家了解文本分析、简单入门自然语言处理。本课程结合十几个案例,将每部分中学到的知识通过实战方式加深各位对知识的理解,具有极强的实用性,内容涵盖了文本分析的重要方面,为相关应用的开发和研究提供了很好的参考价值。

课程目标

  • 学会Python语言基本语法

  • 掌握Python爬虫基本原理

  • 会设计和开发Python爬虫

  • 掌握文本分析相关库

  • 理解数据挖掘,特别是文本分析的思路和流程

  • 了解文本分类、文本聚类

主讲老师

大邓,哈尔滨工业大学在读博士;【公众号:大邓和他的Python

适合人群

本课程面向对象有:

  • 编程小白们

  • 想从网上爬数据的朋友们

  • 想做文本分析的朋友们

  • 想了解机器学习的朋友们

  • 新入学的本硕博新生

包括但不限于以上几类人群。

内容要点

第一部分 环境配置(1小时)

  • python简介

  • python安装

  • pycharm安装

  • jupyter notebook安装

  • 第三方库安装方法

第二部分 Python快速入门(2小时)

  • 基本语法

  • 数据结构-list、str、dict、tuple、set

  • for循环、if逻辑

  • try-except

  • 常用函数

  • 案例1:爬虫代码中各知识点使用情况

  • 案例2:文本分析代码中各知识点使用情况

第三部分 Python网络爬虫快速入门(2小时)

  • 网络爬虫原理

  • requests库

  • bs4库

  • 元素(数据)定位

  • 数据抓包

  • 数据存储(txt,csv)

  • 案例1:豆瓣阅读

  • 案例2:知乎live网站数据抓取

第四部分 快速入门Python文本分析(1.5小时)

  • 文本分析应用场景

  • txt、pdf、word等类型文件的数据读取

  • 中文分词-jieba库

  • 自然语言处理-nltk库

  • 可视化-pyecharts库

  • 数据分析-pandas库

  • 案例1-词频统计

  • 案例2-制作词云图

  • 案例3-excel文件中时间及文本数据处理方法

  • 案例4-给予情感词典进行情感计算

第五部分 文本分析进阶篇(1.5小时)

  • 监督学习与非监督学习

  • 使用机器学习进行文本分析的步骤

  • 表达文本数据信息的方式(独热编码、词袋法、TF-IDF)

  • 理解特征矩阵、语料、文档、特征

  • 机器学习库-sklearn语法学习

  • 了解协同过滤-推荐系统

  • 案例1-文本情感分析

  • 案例2-文本分类(以20news数据集为例)

  • 案例3-LDA话题模型

  • 案例4-计算消费者购物偏好


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存