我正在尝试读取一个5GB文件的内容,然后对它们进行排序并查找副本。该文件基本上只是一个数字列表(每个在新行上)。除了数字,没有空行或任何符号。这些数字都很大(至少6位数)。我目前正在使用
for line in f:
do something to line以避免记忆问题。我不介意用那个。但是,我想知道为什么readline()和readline()不适合我。当我尝试
print f.readline(10)无论我使用哪个数字作为参数,程序总是返回相同的行。准确地说,如果我做了readline(0),它会返回一个空行,尽管文件中的第一行是一个很大的数字。如果我尝试readline(1),它返回2,即使数字2不在文件中。当参数为>= 6时,它总是返回相同的数字: 291965。
此外,readline()方法总是返回相同的行,不管参数是什么。即使我试图打印f.readlines(2),它仍然给我一个超过1000个数字的列表。
我不确定我是否解释得很好。对不起,英语不是我的第一语言。无论如何,我可以在没有读行方法的情况下使它工作,但是我真的想知道为什么它们不能像预期的那样工作。
文件的前10行如下所示:
548098
968516
853181
485102
69638
689242
319040
610615
936181
486052发布于 2017-12-16 13:43:27
我无法再现f.readline(1)返回的2,或者返回“数千行”的f.readlines(10),但似乎您误解了这些函数的整数参数的作用。
这些数字没有指定要读取的行数,但是readline将读取的最大字节数。
>>> f = open("data.txt")
>>> f.readline(1)
'5'
>>>f.readline(100)
'48098\n'这两个命令都将从第一行(即548098)中读取;第一个命令只读取1字节,第二个命令读取行的其余部分,因为剩下的字节还不到100个。如果再次调用readline,它将继续使用第二行,等等。
类似地,f.readlines(10)将读取整行,直到读取的字节总数大于指定的数字:
>>> f.readlines(10)
['968516\n', '853181\n']https://stackoverflow.com/questions/47846234
复制相似问题