我试图梳理一下csv文件中几十万单词的列表,以确定哪些单词不是英语。我知道我可以利用PyEnchant来做到这一点,但我对编码还不熟悉,在细节方面可能需要一些帮助。
到目前为止,我已经创建了一个列表"L“来打印所有的非英语单词,这样我就可以亲自检查它们了。
import enchant
import csv
L = []
with open('list.csv') as csvfile:
shortcut = csv.reader(csvfile, delimiter=" ", quotechar="|")
for row in shortcut:
d = enchant.Dict("en_US")
if d is false:
L.append(d)
print L有人能告诉我我哪里出了问题吗?
发布于 2016-06-24 22:59:04
创建附魔实例后,使用check检查文件中的每个单词。
您的代码正在读取每一行文件,但是它每一行可能包含多个单词,因此请也迭代每一行。
import enchant
import csv
with open('list.csv') as csvfile:
shortcut = csv.reader(csvfile, delimiter=" ", quotechar="|")
checker = enchant.Dict("en_US")
l = [ word for row in shortcut for word in row if not checker.check(word) ]
print lhttps://stackoverflow.com/questions/38022981
复制相似问题