查看原文
其他

想知道公众号、微博、抖音的数据怎么爬取?看这里就够了!

Remix教育编辑部 remix计划 2021-01-23

一家深度关注产学研融合的平台

欢迎关注、转发、加入读者群






上周,由Remix教育推出的“Python在新闻传播中的初级应用”课程正式画下句号。


在课程中,很多一开始对电脑知识都一知半解的老师,在经过为期10天的强化课程以后,也都顺利打开了Python世界的门!


先来听听看他们是怎么说的吧:

孙老师 新疆财经大学


“对于这一课程对于我来说是一次新的体验,从开始上大学到现在都是文科类专业,在这次学习当中需要很强的数学功底和逻辑思维,让我着实捏了一把汗。后面开宇老师把这些琐碎的基础知识掰碎了揉烂了并且很有趣的给我们讲述,基础的掌握了才能和新闻传播专业相结合,希望此次课程能为我们以后的教学科研提供便利。”


彭老师 中国农业大学


“开宇老师很认真,干货满满,不仅学到了技能,还开阔了视野,增长了见识。小花老师服务做得也非常到位。总体来说,本次课程设计得不错,无论是基础知识,还是扩展部分,内容都很丰富。非常感谢Remix组织这次学习。”


康老师  中国传媒大学


“互动性、服务性较强,老师会适时按照需求调整课程内容和授课方式。比如,经过跟我们商量之后将课程时间安排进行了调整,增加了几次专门的答疑课,效果很好。”


朱老师 上海交通大学


“ 本次课程安排合理,干货满满,老师也超级有耐心。学习这课程以后,我看数据挖掘的书有了自信。”


以上均来自参课学员的真实评价,大家对我们的课程内容评价最多的就是:“干货满满”、“老师和助教认真负责”,并且为习惯只接触文科的老师们打开了新世界的大门!


在上次课程中,有老师提出了新的需求,他们表示,希望能够学习如何利用Python进行APP、微博等客户端的数据抓取,以此能够用抓取的数据配合研究!


同时,很多新传学子也表示,掌握这项技术对于论文的产出十分有用!因此,我们的新课程——“Python多媒体数据抓取”就诞生啦!


    什么是Python







Python是计算机编程语言的一种。


在“编程”中,相较于“Java/ C语言/C++ ”等语言,Python由于其语言更具有简洁性易读性以及可拓展性而在近年逐渐走红。同时,它更易于学习,是在是人工智能与现代数据科学中最常使用的语言,正应如此,Python也常被在新闻传播领域中广泛运用。


       我们学什么?







在本次课程中,我们将面向编程“0基础”的小白人群,先为大家讲解python的基本语法,然后学习基本的http协议、Python爬虫基本原理与框架搭建等理论知识。


在课程中,老师将现场展示如何一步步实现对网页数据的爬取。比如,按关键字搜索爬取,使用API爬取等。并将为大家教授爬取app数据,爬取微信,微博数据等技术,从而为大家建立较为完整的数据爬取知识体系。


同时,我们在教学案例上将选用时下热门的APP或者客户端进行教学演示,让你能现学现用!


具体会学习到的抓取数据如下:


 微信

微信程序模拟登录(可用于分析微信公共平台数据)

微信公众号文章爬取

 微博

微博用户信息爬取

微博文章图片视频爬取

微博评论信息爬取

 APP

抖音短视频爬取

新闻客户端(今日头条)数据爬取

知乎主题分类数据爬取

 API

新浪微博数据爬取

豆瓣电影API

   讲师简介




李开宇




李开宇:清华大学计算机系博士生


主要研究领域为数据工程,数据管理,人工智能,计算传播学。


论文发表在:


数据科学领域最高学术会议 SIGMOD 2018(A Rating-Ranking Method for Crowdsourced Top-k Computation 第一作者);


国际顶级期刊TKDE 2018(Bounded approximate query processing 第一作者;


TKDE 2020 (通讯作者)国际期刊CSE 2018(Approximate query processing: What is new and where to go? 第一作者);


数据工程与人工智能领域会议CIKM 1篇、 DASFFA两篇(其中 “Mathgraph: a knowledge graph for automatically solving mathematical exercises”为2019年学生最佳论文奖)


项目经验丰富。清华大学博士生一等奖学金。


从事数据科学与传播学交叉学科研究,论文"Evaluating Public Anxiety for Topic-based Communities in Weibo" (under review)投稿于数据库领域顶级期刊TKDE 2020。


研究方向致力于动态设计网络的演化、新媒体数据的统计分析与数据挖掘、时空数据管理与挖掘、机器学习在计算传播学中的应用。


对了,我们的开宇博士还是个小网红为人幽默,讲课有趣,在网上很红的“给猫上函数课”的清华博士就是他,戳视频,快来和他家的猫一起开课吧~



   课程特色






1.面向“0”基础人群,从入门语法学起;更有课前环境安装与编程预习手册可领取!


2.本次课程为Python课程的专项训练课程,入手切口小,且实用性与上手性高!对于需要运用数据进行论文支持的老师和同学们十分有用!


3.主要面向新闻传播专业的老师与学生,或者媒体相关从业者;


4.主讲人风趣幽默,且有着丰富的新闻与传播学科交叉研究经验。



   适宜人群







新传高校教师

有助于课题研究,科研素材的挖掘与积累。


新传高校学子

有助于论文或者研究项目产出,

深入挖掘数据作为论文支撑。


媒体相关从业者

有助于了解行业发展情况,以及竞品研究等。


  课程安排







   课程报名







CCtalk直播教学平台

长按此二维码即可报名!


https://www.cctalk.com/m/group/87931350?xh_fshareuid=91052827

(长按复制至浏览器打开,也可报名)



本次课程,5节课时,课程价格799
每人!


前50位报名者!


可联系助教小花老师,领取优惠券。
即可立减200元!仅需599元!


同时!还有福利大放送!
公众号后台留言“爬虫课”,
即可领取免费的“Python基本环境配置与必备工具包安装”教程一份!
快戳动你的小手来领教程吧!
(注:有开票报销需求的老师也请添加小花老师微信,进行开票事宜。)

免费添加助教微信


还等什么,快联系小花老师,领取价值200元的优惠券吧!名额有限,快快上车!让给我们一起朝着Python进军!


REMIX教育的目标是打破壁垒,促进高校与业界的交流融合。这里不仅有深度的互联网行业案例分析、前沿的学术研究成果及最新企业课题招募信息,还有一群有趣且想要站在时代潮头前面的人。


 合作联系微信号 | Remix-Xiaokai


 点击在看康泰平安~




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存