其他
数据集 | cctv新闻联播文稿数据
安装
pip install akshare
ak.news_cctv参数
查看ak.news_cctv函数的帮助文档,显示该函数只能采集20160203之后的数据
help(ak.news_cctv)
Help on function news_cctv in module akshare.news.news_cctv:
news_cctv(date: str = '20130308') -> pandas.core.frame.DataFrame
新闻联播文字稿
https://tv.cctv.com/lm/xwlb/?spm=C52056131267.P4y8I53JvSWE.0.0
:param date: 需要获取数据的日期; 目前 20160203 年后
:type date: str
:return: 新闻联播文字稿
:rtype: pandas.DataFrame
获取某日新闻
获取某日期的新闻联播文稿
import akshare as ak
news_cctv_df = ak.news_cctv(date="20160204")
news_cctv_df
批量存储
批量存储**20160203 - 至今 ** 之间所有的数据,每个日期保存到csv文件中。
import datetime
import akshare as ak
#获取【20160203 - 至今】日期字符串的列表
def date_ranges():
begin = datetime.datetime(2016, 2, 3)
now = datetime.datetime.today()
interv = datetime.timedelta(days=1)
dates = []
date = begin
while True:
if (date < now) & (date + interv < now):
date = date + interv
dates.append(date.strftime('%Y%m%d'))
else:
dates.append(now.strftime('%Y%m%d'))
break
return dates
#按 日期依次下载
for date in date_ranges():
news_cctv_df = ak.news_cctv(date=date)
news_cctv_df.to_csv('cctv/{}.csv'.format(date), index=False)
print(date)
Run
20160203
20160204
20160205
......
20230223
20230224
20230225
数据集
运行了5个小时,共有 2,518 天的新闻联播新闻稿的csv文件。
数据获取
链接: https://pan.baidu.com/s/1pSdKe53OIZANwRAAZ0TGAg 提取码: uxxs
精选文章
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」
FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型
JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据