查看原文
其他

数据集(英文) | CBS News新闻数据集(1998 ~ 2024)

大邓 大邓和他的Python
2024-09-10
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-07-13-cbs-news-dataset/

一、CBS News概况

数据集名称: CBS News
数据来源: https://www.cbsnews.com/
覆盖日期: 1998-04-16 ~ 2024-06-30
所含字段:  date, title, content, author_link, publisher, link
记录条数: 190483
文件格式: csv
文件大小: 1475 M



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('CBS-News.csv')
df


2.2 覆盖日期

df['date'] = pd.to_datetime(df['date'], errors='coerce')

print('起: ', df['date'].min().strftime('%Y-%m-%d'))
print('止: ', df['date'].max().strftime('%Y-%m-%d'))

Run

起:  1998-04-16
止:  2024-06-30

2.3 所含字段

for col in df.columns:
    print(col)

Run

date #日期
title #标题
content #新闻内容
author_link  #作者主页链接
publisher #出版社
link  #文章链接

2.4 发文量统计

企业家杂志,按照月度发文量进行统计。

month_volumes = []
for date, month_df in df.groupby(pd.Grouper(key='date', freq='M')):
    month_volumes.append((date, len(month_df)))

data = pd.DataFrame(months)
data.columns = ['date''count']
data

from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf'

date_breaks = [d.strftime('%Y-%m'for d in pd.date_range(start = data['date'].min(), 
                                                          end = data['date'].max(), 
                                                          freq = '12M')]

date_labels = [d[:4for d in date_breaks]


(
    ggplot(data,  aes(x='date', y='count'))
    +geom_point()
    +geom_line()
    +theme(figure_size=(106),
           text = element_text(family = font_prop.get_name()), 
           plot_title = element_text(family = font_prop.get_name(), size=12)
          )
    +labs(title='CBS News月度发文量(1998.4 ~ 2024.6)',
          x = '月度'
          y = '发文量')
    +scale_x_datetime(breaks=date_breaks, labels = date_labels)
)



三、说明

我们都知道六度分割理论(通过任意六个人,我们能认识世界上任意一个人。), 类比到爬虫场景, 通过广度递归,当我们设置最大采集深度7, 意味理论上通过点击7次链接, 可以触达到任意一个页面。ChinaDailyUsaTodayEnterpreneur 与 CBS News均采用scrapy广度递归,最大深度7。

但从月度统计中可以看出CBS News ,有很多个月份(周期性)接近于0 轴的, 网站一般不会出这么周期性的问题, 大概率说明采集遇到问题。



四、获取数据

虽然数据采集出现了问题,但因为该csv数据结构整洁、体量较大, 特别适合给各位拿来练习Python文本分析。

CBS News链接: https://pan.baidu.com/s/1DlCo3PRnzcG1iZ_7V7PVlg?pwd=i4rr 提取码: i4rr


注意

如Excel打开csv乱码, 请百度搜「在 Excel 中正确打开 CSV UTF-8 文件」




五、相关内容


Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-07-13-cbs-news-dataset/


精选内容

LIST | 社科(经管)可用数据集列表
推荐 | 文本分析库cntext2.x使用手册
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
新闻数据集 | 含 人民日报/光明日报/参考消息/经济日报 等 120 家媒体(2024.06)
数据集(中英) | ChinaDaily新闻数据集(2008 ~ 2024)
数据集(英文)| USA Today新闻数据集(2012~2024)
数据集 | 企业家Entrepreneur杂志数据集(1996 ~ 2024)
数据集 | 2006年-2023年A股企业社会责任报告/环境报告书/可持续发展报告
代码 | 使用本地大模型从文本中提取结构化信息
实验 | 使用本地大模型DIY制作单词书教案PDF
管理世界2024 | 使用管理层讨论与分析测量「企业人工智能指标」
代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用本地大模型从文本中提取结构化信息
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存