查看原文
其他

单个csv文件体积大于电脑内存,怎么办?

大邓 大邓和他的Python
2024-09-09


问题

大多数学员电脑内存是8G和16G,但最近分享的数据集都是体量较大,下图是 数据集 | 3571万条专利申请数据集(1985-2022年) 截图,单个csv文件体积很容易过G,个别文件10+G 。


那小内存电脑如何导入这种超过内存大小的csv文件呢?

解决办法是将文件拆分为更小的csv文件。拆分步骤

  1. 按照chunksize行将csv分成很多块,内存每次只读取其中一块。
  2. 对任意的块, 导出为小体量的csv文件。

之后, 小内存电脑也能使用之前分享的大体量数据集。

代码

import pandas as pd

# 块dataframe的体量
chunksize = 10000

# 原csv路径和新csv文件前缀
csv_file = 'large_file.csv'
new_csv_prefix = 'small_file_'

# 定义计数器和文件编号
count = 0
file_number = 1

# 读取csv文件并拆分成多个小块的DataFrame
for chunk in pd.read_csv(csv_file, chunksize=chunksize):
    # 将每块DataFrame保存为一个单独的csv文件
    chunk.to_excel(f'{new_csv_prefix}{file_number}.xlsx', index=False)
    file_number += 1

上述代码会将大型CSV文件拆分成多个小块的DataFrame,每个DataFrame包含10000行数据。

然后,它将每个小DataFrame保存为单独的csv文件,文件名以“small_file_”作为前缀,后面跟着一个编号。

精选内容

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学:揭示经济中的叙事

中文心理词典,含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 「问询函」

网络爬虫 | 使用Python采集B站弹幕和评论数据

数据集 | 07-21年上市公司「委托贷款公告」


继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存