查看原文
其他

jsonlines库:高效率的保存多个python对象

大邓 大邓和他的Python 2019-04-26

json文件因其简洁精炼,在网上特别流行,我们写爬虫时经常碰到网站使用json格式传输数据。但是如果要存储的数据有1G,那么读取一个json文件需要一次性读入,这需要占用很大的内存,对电脑压力过大。所以我们需要将数据存储为很多个对象,通过逐行读取方式减轻内存占用压力。所以今天就讲到jsonlines这个库,希望大家能有所收获。

jsonlines

  • 每一行都是一个json或python对象

  • 采用utf-8编码

jsonlines库的特性

便捷的open()功能

  • 易于写入

  • 传入文件名和写入方式mode

  • 返回Reader或Writer实例

  • 能被用做上下文管理器

安装

pip install jsonlines

使用方法

jsonlines可以保存python的各种数据类型对象,如列表、字典、数字、元组、集合等等。

例如以python字典类型逐行写入到jsonl文件里

import jsonlines

with jsonlines.open('data.jsonl', mode='w'as writer:
    writer.write({'a':5})
    writer.write({'a':6})
    writer.write({'a':7})

发现当前工作路径下已经生成了一个jsonl文件。

以逐行的方式读取jsonl文件里的多个字典

with jsonlines.open('data.jsonl', mode='r'as reader:
    for row in reader:
        print(type(row), row)

运行

<class 'dict'> {'a'5}
<class 'dict'> {'a'6}
<class 'dict'> {'a'7}

精选文章

我是如何通过python挣外快的 

现阶段“有趣”对我很重要的    

自然语言处理之LDA主题模型

100G 文本分析语料资源(免费下载)      

15个最好的数据科学领域Python库    

使用Pandas更好的做数据科学

抓取8w技能交换公告信息

【视频讲解】Scrapy递归抓取简书用户信息     

大邓强力推荐-jupyter notebook使用小技巧       

数据清洗 常用正则表达式大全

PySimpleGUI: 开发自己第一个软件

Python 3.7中dataclass的终极指南(一) 

Python 3.7中dataclass的终极指南(二) 

[计算消费者的偏好]推荐系统与协同过滤、奇异值分解

机器学习: 识别图片中的数字

应用PCA降维加速模型训练

如何从文本中提取特征信息?

文本数据标注工具-YEDDA

使用sklearn做自然语言处理-1 

使用sklearn做自然语言处理-2

Python圈中的符号计算库-Sympy

Python中处理日期时间库的使用方法 



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存