csv转xslx 可节约存储空间

大邓大邓和他的Python

2024-09-09

csv转xlsx

数据集| 中国裁判文书网(2010-2021)
数据集| 2亿条中国大陆工商企业注册信息
数据集 | 3571万条专利申请数据集(1985-2022年)

之前分享的数据集都是体量特别大，而且都是用csv格式存储。昨天分享的

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

显示同样的信息量，使用xlsx所占用的存储空间比csv要小很多(如下图)。如果能将这些数据集转成xlsx，将大大方便分享，且能节约后续读取数据的速度，但要记住xlsx最多只能存储104万行(记录)。

今天以3751w专利申请数据为例，将csv转为xlsx。

代码

我们希望程序能够自动读取csv，不论csv中有多少行，每个xlsx最多存储100w行。

将代码放置于数据集文件夹内，即ipynb文件与多个csv文件同处于一个文件夹内。

import pandas as pd
import os

#获取csv文件路径列表
csvfs = [f for f in os.listdir('.') if '.csv' in f]


for csvf in csvfs:
    #批次读取，即每次只读100w行
    chunk_dfs = pd.read_csv(csvf, chunksize=1000000)
    #文件名计数
    file_counter = 1
    
    #每个chunk不超过100w行
    for chunk_df in chunk_dfs:
        xlsxf = csvf.replace('.csv', '') + '_{}.xlsx'.format(file_counter)
        
        #将chunk存到xlsx中
        chunk_df.to_excel(xlsxf, index=False)
        
        file_counter += 1

精选内容

93G数据集 | 中国裁判文书网(2010-2021)
96G数据集 | 2亿条中国大陆企业工商注册信息
数据集 | 3571万条专利申请数据集(1985-2022年)
预训练模型 | 使用1000w专利摘要训练word2vec模型，可用于开发词典
使用中文MD&A数据集训练word2vec预训练模型，可扩展或新建会计金融等领域的情感词典
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
CAR2023 | 文本分析在会计中的应用
MS | 使用网络算法识别创新的颠覆性与否
管理世界 | 使用文本分析词构建并测量短视主义
管理世界 | 使用经营讨论与分析测量企业数字化指标
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算「企业融资约束指标」
中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
管理科学学报 | 使用LDA算法计算政策扩散速度与扩散程度
心理科学进展 | 语义距离与创造性思维关系的元分析
JMR | 测量消费者的「语言确定性」
金融研究 | 使用Python构建「关键审计事项信息含量」
案例代码 | 使用正则表达式判别微博用户mbti类型
可视化 | 99-21年地方政府报告关键词变化趋势
使用 Word2Vec 和 TF-IDF 计算五类企业文化
数据集 | 2006年-2022年企业社会责任报告
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
数据集 | 07-21年上市公司「委托贷款公告」
数据集 | 200w政府采购合同公告明细数据（1996.6-2022.12）
数据集 | 84w条业绩说明会问答数据(2005-2023)
单个csv文件体积大于电脑内存，怎么办？

继续滑动看下一个

大邓和他的Python

向上滑动看下一个

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

csv转xslx 可节约存储空间

csv转xlsx

代码

精选内容

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

csv转xslx 可节约存储空间

csv转xlsx

代码

精选内容

您可能也对以下帖子感兴趣