查看原文
其他

新闻数据集 | 1102w条纽约时报(1920-2020)

大邓 大邓和他的Python
2024-09-10

Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-06-01-new-york-times-article-from-1920-2020/

一、数据集概况

媒体名称: New York Times
覆盖年度: 1920 ~ 2020
记录条数: 11027535
所含字段: year, title, excerpt
数据集地址: https://www.kaggle.com/datasets/tumanovalexander/nyt-articles-data/data


二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_parquet('nyt_data.parquet')
df.drop_dupliacates(inplace=True)
df


2.2 文本长度

title_mean_len = df.title.str.len().mean()
excerpt_mean_len = df.excerpt.str.len().mean()
print(f'标题平均长度: {title_mean_len:.2f}')
print(f'摘录平均长度: {excerpt_mean_len:.2f}')

Run

标题平均长度: 173.30
摘录平均长度: 68.43

2.3 缺失率

这里我们定义文本长度为0,则该字段为缺失。

title_na_ratio = 100 * df[df.title.str.len()==0].size / df.size
excerpt_na_ratio = 100 * df[df.excerpt.str.len()==0].size / df.size

print(f'标题缺失率: {title_na_ratio:.2f}%')
print(f'摘录缺失率: {excerpt_na_ratio:.2f}%')

Run

标题缺失率: 0.00%
摘录缺失率: 52.25%


类似的数据集

媒体名称: Times of India
覆盖年度: 2001 ~ 2023.q2
记录条数: 3876557
所含字段: publish_date, headline_category, headline_text
数据集地址: https://www.kaggle.com/datasets/therohk/india-headlines-news-dataset


四、相关内容


Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-06-01-new-york-times-article-from-1920-2020/

精选内容

LIST | 社科(经管)可用数据集列表
推荐 | 文本分析库cntext2.x使用手册
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
中国工业经济(更新) | MD&A信息含量指标构建代码实现
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
数据集(更新) | 2001-2022年A股上市公司年报&管理层讨论与分析
数据集(更新) | 372w政府采购合同公告明细数据(2024.03)
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 |  3394w条豆瓣书评数据集
数据集 | 豆瓣电影影评数据集
数据集 |  使用1000w条豆瓣影评训练Word2Vec
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存