文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用python存储、检索(和执行)大型csv文件？

问如何使用python存储、检索(和执行)大型csv文件？
EN

Stack Overflow用户

提问于 2017-09-28 13:51:26

回答 2查看 61关注 0票数 1

我有一个大小为5-6 6GB(百万行)的csv文件。所以pandas不能处理它(它给出内存错误，因为我的内存容量是2 2GB)。我想在它上使用Hadoop (即，将每个文件的块存储在不同的节点上)，那么从开始有什么方法可以做到这一点，以及我使用哪个Hadoop数据库(Hive、HBase、PIG)对每个块执行操作。如果问题有什么问题，请让我知道我是这个领域的初学者。或者，我可以在SQL或Postgres中存储这些巨大的CSV文件吗?如果可以，那么如何存储？谢谢。

hadoop

nosql

sql

postgresql

csv

回答 2

Stack Overflow用户

发布于 2017-09-28 14:04:10

Pandas可以通过以块为单位读取文件来处理大文件。如果您向pd.read_csv()函数提供chunksize参数，则将返回一个TextFileReader，您可以对其进行迭代，对内存中适合的每个chuck执行操作。

下面是一个示例，它一次读取1000行，并对每个块执行操作：

reader = pd.read_csv('your_file.csv', chunksize=1000)
for chunk in reader:
    # do operations on chuck which is a dataframe with 1000 rows.

请注意，您在每个chuck上执行的操作必须聚合或减小chuck的大小，而不是将它们存储在列表中，否则将耗尽内存。如果您需要对列执行操作以便不会减小DataFrame的最终大小，那么在对每个chuck进行操作之后，将结果存储在一个文件中。

票数 1

Stack Overflow用户

发布于 2017-09-28 14:25:47

你可以像阅读普通文本文件一样阅读它，并每行解析一行。你可以给它做脱毛治疗。

类似于：

Header = []
with open( 'CSVFile.name' ], 'r') as InputFile:
  for Line in InputFile :
    PureData = re.split( Separator, Line[:-1])
    # assume 1st line is header
    if not Header :
      Header = PureData
    else :
      MyRecord = map( lambda x, y: { x, y }, Header, PureData)

      print( str( MyRecord))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46461851

复制

相似问题

问如何使用python存储、检索(和执行)大型csv文件？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python存储、检索(和执行)大型csv文件？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python存储、检索(和执行)大型csv文件？
EN