其他
csv转xslx 可节约存储空间
csv转xlsx
数据集| 中国裁判文书网(2010-2021)
数据集| 2亿条中国大陆工商企业注册信息
数据集 | 3571万条专利申请数据集(1985-2022年)
之前分享的数据集都是体量特别大,而且都是用csv格式存储。昨天分享的
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
显示同样的信息量,使用xlsx所占用的存储空间比csv要小很多(如下图)。如果能将这些数据集转成xlsx,将大大方便分享,且能节约后续读取数据的速度,但要记住xlsx最多只能存储104万行(记录)。
今天以3751w专利申请数据为例, 将csv转为xlsx。
代码
我们希望程序能够自动读取csv, 不论csv中有多少行,每个xlsx最多存储100w行。
将代码放置于数据集文件夹内,即ipynb文件与多个csv文件同处于一个文件夹内。
import pandas as pd
import os
#获取csv文件路径列表
csvfs = [f for f in os.listdir('.') if '.csv' in f]
for csvf in csvfs:
#批次读取,即每次只读100w行
chunk_dfs = pd.read_csv(csvf, chunksize=1000000)
#文件名计数
file_counter = 1
#每个chunk不超过100w行
for chunk_df in chunk_dfs:
xlsxf = csvf.replace('.csv', '') + '_{}.xlsx'.format(file_counter)
#将chunk存到xlsx中
chunk_df.to_excel(xlsxf, index=False)
file_counter += 1
精选内容
数据集 | 3571万条专利申请数据集(1985-2022年)
预训练模型 | 使用1000w专利摘要训练word2vec模型,可用于开发词典
使用中文MD&A数据集训练word2vec预训练模型, 可扩展或新建会计金融等领域的情感词典
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」
中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息
数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析
数据集 | 200w政府采购合同公告明细数据(1996.6-2022.12)