查看原文
其他

数据集 | cctv新闻联播文稿数据

大邓 大邓和他的Python
2024-09-09


安装

pip install akshare

ak.news_cctv参数

查看ak.news_cctv函数的帮助文档,显示该函数只能采集20160203之后的数据

help(ak.news_cctv)
Help on function news_cctv in module akshare.news.news_cctv:

news_cctv(date: str = '20130308') -> pandas.core.frame.DataFrame
    新闻联播文字稿
    https://tv.cctv.com/lm/xwlb/?spm=C52056131267.P4y8I53JvSWE.0.0
    :param date: 需要获取数据的日期; 目前 20160203 年后
    :type date: str
    :return: 新闻联播文字稿
    :rtype: pandas.DataFrame

获取某日新闻

获取某日期的新闻联播文稿

import akshare as ak

news_cctv_df = ak.news_cctv(date="20160204")
news_cctv_df


批量存储

批量存储**20160203 - 至今 ** 之间所有的数据,每个日期保存到csv文件中。

import datetime 
import akshare as ak

#获取【20160203 - 至今】日期字符串的列表
def date_ranges():
    begin = datetime.datetime(201623)
    now = datetime.datetime.today()
    interv = datetime.timedelta(days=1)
    dates = []
    date = begin
    while True:
        if (date < now) & (date + interv < now):
            date = date + interv
            dates.append(date.strftime('%Y%m%d'))
        else:
            dates.append(now.strftime('%Y%m%d'))
            break
    return dates


#按 日期依次下载
for date in date_ranges():
    news_cctv_df = ak.news_cctv(date=date)
    news_cctv_df.to_csv('cctv/{}.csv'.format(date), index=False)
    print(date)

Run

20160203
20160204
20160205
......
                                               
20230223
20230224
20230225

数据集

运行了5个小时,共有 2,518 天的新闻联播新闻稿的csv文件。

数据获取

链接: https://pan.baidu.com/s/1pSdKe53OIZANwRAAZ0TGAg 提取码: uxxs




精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

使用 Word2Vec 和 TF-IDF 计算五类企业文化

支持开票 | Python实证指标构建与文本分析

金融研究 | 文本相似度计算与可视化

转载 | 社会计算驱动的社会科学研究方法

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

转载 | 大数据驱动的「社会经济地位」分析研究综述

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

可视化 | 绘制《三体》人物关系网络图

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存