我需要测试某个字符串(例如“v iks”)是否等于目录中包含的任何文件的名称。
>>>words = [ f.replace('.html', '') for f in listdir('lemma_pages/test') if isfile(join('lemma_pages/test',f)) ]
>>>words
['võibolla', 'võid', 'võiks', 'võimalik', 'võin', 'võta', 'võtan', 'võtta']
>>>'võiks' in words
False但是当我测试的时候,当我期望不一样的时候,我就会变得错误。我正在打开包含以下文字的文件:
open('et_500.txt', 'rt', encoding="utf-8")知道我做错了什么吗?
发布于 2015-05-30 14:29:02
数据可能无法标准化。在比较字符串之前,使用:
data = unicodedata.normalize('NFC', data)为了提供更多的细节,õ可以是U+00F5 (拉丁文小写字母O与TILDE),也可以是U+0062 (拉丁文小写字母B),然后是U+0303 (合并TILDE)。正规化是必要的,这样无论你得到哪种口味,它们都会进行相同的比较。
https://stackoverflow.com/questions/30547285
复制相似问题