首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用python从pdf中从每个超链接中提取锚文本/单词?

如何使用python从pdf中从每个超链接中提取锚文本/单词?
EN

Stack Overflow用户
提问于 2022-10-03 09:21:37
回答 1查看 107关注 0票数 1

我试图提取超链接在每一页与他们的锚文本从pdf使用PymuPdf库。我能够提取超链接与他们的页码,但不能提取锚文本/文字为每个超链接。

有人能帮我吗?

这里是代码

代码语言:javascript
复制
import fitz # PyMuPDF

result = []

with fitz.open(file) as doc:

    for page_no in range(1, len(doc)+1):

        page = doc[page_no-1]

        for link in page.links():

            if "uri" in link:

                url = link["uri"]
                result.append([page_no, url])  

            else:
                pass

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2022-10-09 21:52:07

您可以在链接的“热点区域”( link["from"]text = page.get_textbox(link["from"]) )中提取文本。

此外,如果需要更多的文本细节(例如颜色、字体、.),也可以使用任何其他的page.get_text()变体。通过使用clip参数。例如,page.get_text("dict", clip=link["from"])提供链接矩形下的文本字典,其中包含字体名称、字体大小、字体颜色等等。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73933417

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档