我已经提取文本从pdf (使用pdfplumber)到txt,但有一些空格之间的文字不在PDF文件中。

我曾尝试使用"Previous_word“+ "current_word”组合来nltk查找单词,并检查NLTK.words中是否存在这些单词,以找出单词之间有额外空格的位置,但效果不佳。
我正在寻求一些建议,谢谢
发布于 2021-03-15 21:13:39
我建议查找不在您的语料库中的两个后续单词的出现情况,这应该揭示这样的拆分不会导致其他英语单词的所有情况。
发布于 2021-03-15 21:21:08
示例逻辑将中间有两个空格的单词放入列表中,然后您可以实现您喜欢的功能:
text = """
asdasd asd asdd d
uuurr ii ii rrr
"""
words = text.split(" ") #<- split if 1 spaces
dictionary = list() #<- dictionary list to compare
words_wrapper = list() #<- list of words with 2 spaces
for idx in range(len(words)):
if words[idx] == '':
word = f"{words[idx-1]} {words[idx+1]}"
words_wrapper.append(word)
if word in dictionary:
pass #<- do sth
# Print filtered words
print(words_wrapper)或者,您也可以使用.join将带有两个空格的单词组合在一起:
text = """
asdasd asd asdd d
uuurr ii ii rrr
"""
print("".join(text.split(" ")))https://stackoverflow.com/questions/66638558
复制相似问题