首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Python中打开.ndjson文件?

如何在Python中打开.ndjson文件?
EN

Stack Overflow用户
提问于 2020-08-20 16:32:34
回答 2查看 3.9K关注 0票数 1

我有一个20 to的.ndjson文件,我想用Python打开它。文件太大了,所以我找到了一种方法,用一个在线工具把它分成50个部分。这就是工具:https://pinetools.com/split-files

现在我得到了一个扩展名为.ndjson.000的文件(我不知道这是什么)

我试图将它作为json或csv文件打开,以便在pandas中读取它,但它不起作用。你知道怎么解决这个问题吗?

代码语言:javascript
复制
import json
import pandas as pd

第一种方法:

代码语言:javascript
复制
df = pd.read_json('dump.ndjson.000', lines=True)

错误:ValueError: Unmatched ''"' when when decoding 'string'

第二种方法:

代码语言:javascript
复制
with open('dump.ndjson.000', 'r') as f:

     my_data = f.read() 

print(my_data)

错误:json.decoder.JSONDecodeError: Unterminated string starting at: line 1 column 104925061 (char 104925060)

我想问题是我的文件中有一些表情符号,所以我不知道如何编码它们?

EN

回答 2

Stack Overflow用户

发布于 2020-08-20 16:37:28

我认为pandas.read_json无法正确处理ndjson。

根据这个issue,你可以做某事。就像这样读一读。

代码语言:javascript
复制
import ujson as json
import pandas as pd

records = map(json.loads, open('/path/to/records.ndjson'))
df = pd.DataFrame.from_records(records)

附言:这段代码的所有积分都来自Github问题的KristianHolsheimer

票数 4
EN

Stack Overflow用户

发布于 2021-11-23 11:45:17

现在,开箱即用参数lines=True支持ndjson

代码语言:javascript
复制
import pandas as pd

df = pd.read_json('/path/to/records.ndjson', lines=True)
df.to_json('/path/to/export.ndjson', lines=True)
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63501251

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档