故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

单个csv文件体积大于电脑内存，怎么办？

Original 大邓大邓和他的Python

2024-09-09

问题

大多数学员电脑内存是8G和16G，但最近分享的数据集都是体量较大，下图是数据集 | 3571万条专利申请数据集(1985-2022年) 截图，单个csv文件体积很容易过G，个别文件10+G 。

那小内存电脑如何导入这种超过内存大小的csv文件呢？

解决办法是将文件拆分为更小的csv文件。拆分步骤

按照chunksize行将csv分成很多块，内存每次只读取其中一块。
对任意的块，导出为小体量的csv文件。

之后，小内存电脑也能使用之前分享的大体量数据集。

代码

import pandas as pd

# 块dataframe的体量
chunksize = 10000

# 原csv路径和新csv文件前缀
csv_file = 'large_file.csv'
new_csv_prefix = 'small_file_'

# 定义计数器和文件编号
count = 0
file_number = 1

# 读取csv文件并拆分成多个小块的DataFrame
for chunk in pd.read_csv(csv_file, chunksize=chunksize):
    # 将每块DataFrame保存为一个单独的csv文件
    chunk.to_excel(f'{new_csv_prefix}{file_number}.xlsx', index=False)
    file_number += 1

上述代码会将大型CSV文件拆分成多个小块的DataFrame，每个DataFrame包含10000行数据。

然后，它将每个小DataFrame保存为单独的csv文件，文件名以“small_file_”作为前缀，后面跟着一个编号。

精选内容

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用经营讨论与分析测量企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算「企业融资约束指标」

管理世界 | 政府与市场心理因素的经济影响及其测度

叙事经济学：揭示经济中的叙事

中文心理词典，含具体性、可成象性等指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息（含代码）

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

Nature | 通用中英文六维语义情感词典

采购合同数据集 | 政府采购何以牵动企业创新

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 「问询函」

网络爬虫 | 使用Python采集B站弹幕和评论数据

数据集 | 07-21年上市公司「委托贷款公告」

继续滑动看下一个

大邓和他的Python

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存