文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在使用search_for时使用Python检测连字符？

问如何在使用search_for时使用Python检测连字符？
EN

Stack Overflow用户

提问于 2022-12-01 20:03:46

回答 1查看 28关注 0票数 0

我是Fitz库的新手，我正在做一个项目，我需要在PDF页面中找到一个字符串。我遇到一种情况，即我正在搜索的页面上的文本是连字符的。我知道在搜索函数时可以使用TEXT_DEHYPHENATE标志，但这对我不起作用(如这里的https://postimg.cc/zHZPdd6v图像所示)。当我搜索连字符字符串时，我没有得到任何情况。

Python脚本

LOC = "./test.pdf"

doc = fitz.open(LOC) 
page = doc[1]
print(page.get_text())
found = page.search_for("lowcost", flags=TEXT_DEHYPHENATE)
print("DONE")
print(len(found))
found = page.search_for("low-cost", flags=TEXT_DEHYPHENATE)
print("DONE")
print(len(found))
found = page.search_for("low cost", flags=TEXT_DEHYPHENATE)
print("DONE")
print(len(found))

for rect in found: 
    print(rect)

输出

Abstract 
The objective of “XXXXXXXXXXXXXXXXXX” was design and assemble a low-
cost and efficient tool.  
 
DONE
0
DONE
0
DONE
0

有人能告诉我我怎样才能检测到文件中的连字符吗？谢谢!

pymupdf

python-pdfkit

python-pdfreader

python

回答 1

Stack Overflow用户

发布于 2022-12-02 23:43:38

您的第一种方法应该有效，请看这里：

# insert some hyphenated text
page.insert_textbox((100,100,300,300),"The objective of 'xxx' was design and assemble a low-\ncost and efficient tool.")
157.94699853658676

# now search for it again
page.search_for("lowcost")  # 2 rectangles!
[Rect(159.3009796142578, 116.24800109863281, 175.8009796142578, 131.36199951171875),
 Rect(100.0, 132.49501037597656, 120.17399597167969, 147.6090087890625)]

# each containing a text portion with hyphen removed
for rect in page.search_for("lowcost"):
    print(page.get_textbox(rect))

    
low
cost

没有原始文件，就无法告诉您失败的原因。你确定真的有文字--而不是图片或其他拼凑？

编辑:根据用户@KJ在下面的评论:PyMuPDF的C基库，MuPDF将所有的独角兽'-', 0xAD, 0x2010, 0x2011视为这种上下文中的连字符。他们的工作应该是一样的。只是在一个例子中再次证实了这一点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74647583

复制

相似问题

问如何在使用search_for时使用Python检测连字符？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在使用search_for时使用Python检测连字符？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在使用search_for时使用Python检测连字符？
EN