首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用python存储、检索(和执行)大型csv文件?

如何使用python存储、检索(和执行)大型csv文件?
EN

Stack Overflow用户
提问于 2017-09-28 13:51:26
回答 2查看 61关注 0票数 1

我有一个大小为5-6 6GB(百万行)的csv文件。所以pandas不能处理它(它给出内存错误,因为我的内存容量是2 2GB)。我想在它上使用Hadoop (即,将每个文件的块存储在不同的节点上),那么从开始有什么方法可以做到这一点,以及我使用哪个Hadoop数据库(Hive、HBase、PIG)对每个块执行操作。如果问题有什么问题,请让我知道我是这个领域的初学者。或者,我可以在SQL或Postgres中存储这些巨大的CSV文件吗?如果可以,那么如何存储?谢谢。

EN

回答 2

Stack Overflow用户

发布于 2017-09-28 14:04:10

Pandas可以通过以块为单位读取文件来处理大文件。如果您向pd.read_csv()函数提供chunksize参数,则将返回一个TextFileReader,您可以对其进行迭代,对内存中适合的每个chuck执行操作。

下面是一个示例,它一次读取1000行,并对每个块执行操作:

代码语言:javascript
复制
reader = pd.read_csv('your_file.csv', chunksize=1000)
for chunk in reader:
    # do operations on chuck which is a dataframe with 1000 rows.

请注意,您在每个chuck上执行的操作必须聚合或减小chuck的大小,而不是将它们存储在列表中,否则将耗尽内存。如果您需要对列执行操作以便不会减小DataFrame的最终大小,那么在对每个chuck进行操作之后,将结果存储在一个文件中。

票数 1
EN

Stack Overflow用户

发布于 2017-09-28 14:25:47

你可以像阅读普通文本文件一样阅读它,并每行解析一行。你可以给它做脱毛治疗。

类似于:

代码语言:javascript
复制
Header = []
with open( 'CSVFile.name' ], 'r') as InputFile:
  for Line in InputFile :
    PureData = re.split( Separator, Line[:-1])
    # assume 1st line is header
    if not Header :
      Header = PureData
    else :
      MyRecord = map( lambda x, y: { x, y }, Header, PureData)

      print( str( MyRecord))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46461851

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档