我试图在python中读取一个大型JSON文件(~ 2GB)。
下面的代码在小文件上工作得很好,但是由于第二行的MemoryError而不能在大文件上工作。
in_file = open(sys.argv[1], 'r')
posts = json.load(in_file)我看了similar posts,几乎每个人都建议使用ijson,所以我决定试一试。
in_file = open(sys.argv[1], 'r')
posts = list(ijson.parse(in_file))这处理了读取大文件大小的问题,但ijson.parse没有像json.load那样返回JSON对象,因此我的其余代码无法工作
TypeError:元组索引必须是整数或切片,而不是str。
如果我在使用json.load时打印出“post”,则o/p看起来像一个普通的JSON
[{"Id": "23400089", "PostTypeId": "2", "ParentId": "23113726", "CreationDate": ... etc如果我在使用ijson.parse之后打印出“post”,那么o/p看起来就像一个散列映射。
[["", "start_array", null], ["item", "start_map", null],
["item", "map_key", "Id"], ["item.Id", "string ... etc我的问题是:我不想更改我剩下的代码,所以我想知道是否有任何方法将ijson.parse(in_file)的o/p转换回JSON对象,这样它就像我们使用json.load(in_file)一样
发布于 2019-09-04 08:59:08
也许这对你有用:
in_file = open(sys.argv[1], 'r')
posts = []
data = ijson.items(in_file, 'item')
for post in data:
posts.append(post)https://stackoverflow.com/questions/41419679
复制相似问题