文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从pdfplumber解压后删除英文单词之间的空格

问如何从pdfplumber解压后删除英文单词之间的空格
EN

Stack Overflow用户

提问于 2021-03-15 21:04:48

回答 2查看 115关注 0票数 0

我已经提取文本从pdf (使用pdfplumber)到txt，但有一些空格之间的文字不在PDF文件中。

我曾尝试使用"Previous_word“+ "current_word”组合来nltk查找单词，并检查NLTK.words中是否存在这些单词，以找出单词之间有额外空格的位置，但效果不佳。

我正在寻求一些建议，谢谢

python

pdf

pdfplumber

回答 2

Stack Overflow用户

发布于 2021-03-15 21:13:39

我建议查找不在您的语料库中的两个后续单词的出现情况，这应该揭示这样的拆分不会导致其他英语单词的所有情况。

票数 0

Stack Overflow用户

发布于 2021-03-15 21:21:08

示例逻辑将中间有两个空格的单词放入列表中，然后您可以实现您喜欢的功能：

text = """
asdasd  asd asdd d
uuurr ii ii  rrr
"""

words = text.split(" ") #<- split if 1 spaces
dictionary = list() #<- dictionary list to compare
words_wrapper = list() #<- list of words with 2 spaces

for idx in range(len(words)):
    if words[idx] == '':
        word = f"{words[idx-1]} {words[idx+1]}"
        words_wrapper.append(word)
        if word in dictionary:
            pass #<- do sth 
            
# Print filtered words
print(words_wrapper)

或者，您也可以使用.join将带有两个空格的单词组合在一起：

text = """
asdasd  asd asdd d
uuurr ii ii  rrr
"""

print("".join(text.split("  ")))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66638558

复制

相似问题

问如何从pdfplumber解压后删除英文单词之间的空格
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从pdfplumber解压后删除英文单词之间的空格EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从pdfplumber解压后删除英文单词之间的空格
EN