(请注意:我是蟒蛇语言的新手)
什么是索引文件的最仿生的方式,我的脚本将返回单词,然后是单词出现的所有行?
下面是我将在脚本中使用的一个示例文本。
这是最好的时代,也是最糟糕的时代,是智慧的时代,是愚蠢的时代,是信仰的时代,是怀疑的时代,是光明的季节,是黑暗的季节,是希望的春天,是绝望的冬天,我们面前什么都没有,我们都要直接上天堂,我们都是以另一种方式前进--简而言之,这段时期和现在的时期一样,一些最吵闹的当局坚持接受它,不管是好是坏,在最高级的比较中。
发布于 2014-04-22 12:01:48
集合模块是您回答这个问题的朋友。我将使用defaultdict,使用文本中的单词作为键,值将是单词已发生的行号。
from collections import defaultdict
d = defaultdict(list)
for index, line in enumerate(txt.splitlines()):
for word in line:
word_strip = word.strip(',.!?')
d[word_strip].append(index)我假设文本包含在变量txt中,并且希望去掉各种标点符号。
https://stackoverflow.com/questions/23218351
复制相似问题