首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从pdfplumber解压后删除英文单词之间的空格

如何从pdfplumber解压后删除英文单词之间的空格
EN

Stack Overflow用户
提问于 2021-03-15 21:04:48
回答 2查看 115关注 0票数 0

我已经提取文本从pdf (使用pdfplumber)到txt,但有一些空格之间的文字不在PDF文件中。

我曾尝试使用"Previous_word“+ "current_word”组合来nltk查找单词,并检查NLTK.words中是否存在这些单词,以找出单词之间有额外空格的位置,但效果不佳。

我正在寻求一些建议,谢谢

EN

回答 2

Stack Overflow用户

发布于 2021-03-15 21:13:39

我建议查找不在您的语料库中的两个后续单词的出现情况,这应该揭示这样的拆分不会导致其他英语单词的所有情况。

票数 0
EN

Stack Overflow用户

发布于 2021-03-15 21:21:08

示例逻辑将中间有两个空格的单词放入列表中,然后您可以实现您喜欢的功能:

代码语言:javascript
复制
text = """
asdasd  asd asdd d
uuurr ii ii  rrr
"""

words = text.split(" ") #<- split if 1 spaces
dictionary = list() #<- dictionary list to compare
words_wrapper = list() #<- list of words with 2 spaces

for idx in range(len(words)):
    if words[idx] == '':
        word = f"{words[idx-1]} {words[idx+1]}"
        words_wrapper.append(word)
        if word in dictionary:
            pass #<- do sth 
            
# Print filtered words
print(words_wrapper)

或者,您也可以使用.join将带有两个空格的单词组合在一起:

代码语言:javascript
复制
text = """
asdasd  asd asdd d
uuurr ii ii  rrr
"""

print("".join(text.split("  ")))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66638558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档