我有一个大小为5-6 6GB(百万行)的csv文件。所以pandas不能处理它(它给出内存错误,因为我的内存容量是2 2GB)。我想在它上使用Hadoop (即,将每个文件的块存储在不同的节点上),那么从开始有什么方法可以做到这一点,以及我使用哪个Hadoop数据库(Hive、HBase、PIG)对每个块执行操作。如果问题有什么问题,请让我知道我是这个领域的初学者。或者,我可以在SQL或Postgres中存储这些巨大的CSV文件吗?如果可以,那么如何存储?谢谢。
发布于 2017-09-28 14:04:10
Pandas可以通过以块为单位读取文件来处理大文件。如果您向pd.read_csv()函数提供chunksize参数,则将返回一个TextFileReader,您可以对其进行迭代,对内存中适合的每个chuck执行操作。
下面是一个示例,它一次读取1000行,并对每个块执行操作:
reader = pd.read_csv('your_file.csv', chunksize=1000)
for chunk in reader:
# do operations on chuck which is a dataframe with 1000 rows.请注意,您在每个chuck上执行的操作必须聚合或减小chuck的大小,而不是将它们存储在列表中,否则将耗尽内存。如果您需要对列执行操作以便不会减小DataFrame的最终大小,那么在对每个chuck进行操作之后,将结果存储在一个文件中。
发布于 2017-09-28 14:25:47
你可以像阅读普通文本文件一样阅读它,并每行解析一行。你可以给它做脱毛治疗。
类似于:
Header = []
with open( 'CSVFile.name' ], 'r') as InputFile:
for Line in InputFile :
PureData = re.split( Separator, Line[:-1])
# assume 1st line is header
if not Header :
Header = PureData
else :
MyRecord = map( lambda x, y: { x, y }, Header, PureData)
print( str( MyRecord))https://stackoverflow.com/questions/46461851
复制相似问题