我试图提取超链接在每一页与他们的锚文本从pdf使用PymuPdf库。我能够提取超链接与他们的页码,但不能提取锚文本/文字为每个超链接。
有人能帮我吗?
这里是代码
import fitz # PyMuPDF
result = []
with fitz.open(file) as doc:
for page_no in range(1, len(doc)+1):
page = doc[page_no-1]
for link in page.links():
if "uri" in link:
url = link["uri"]
result.append([page_no, url])
else:
pass谢谢!
发布于 2022-10-09 21:52:07
您可以在链接的“热点区域”( link["from"]:text = page.get_textbox(link["from"]) )中提取文本。
此外,如果需要更多的文本细节(例如颜色、字体、.),也可以使用任何其他的page.get_text()变体。通过使用clip参数。例如,page.get_text("dict", clip=link["from"])提供链接矩形下的文本字典,其中包含字体名称、字体大小、字体颜色等等。
https://stackoverflow.com/questions/73933417
复制相似问题