文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用python从pdf中从每个超链接中提取锚文本/单词？

问如何使用python从pdf中从每个超链接中提取锚文本/单词？
EN

Stack Overflow用户

提问于 2022-10-03 09:21:37

回答 1查看 107关注 0票数 1

我试图提取超链接在每一页与他们的锚文本从pdf使用PymuPdf库。我能够提取超链接与他们的页码，但不能提取锚文本/文字为每个超链接。

有人能帮我吗？

这里是代码

import fitz # PyMuPDF

result = []

with fitz.open(file) as doc:

    for page_no in range(1, len(doc)+1):

        page = doc[page_no-1]

        for link in page.links():

            if "uri" in link:

                url = link["uri"]
                result.append([page_no, url])  

            else:
                pass

谢谢!

python

pypdf2

pdfminer

pymupdf

pdf-extraction

回答 1

Stack Overflow用户

发布于 2022-10-09 21:52:07

您可以在链接的“热点区域”( link["from"]：text = page.get_textbox(link["from"]) )中提取文本。

此外，如果需要更多的文本细节(例如颜色、字体、.)，也可以使用任何其他的page.get_text()变体。通过使用clip参数。例如，page.get_text("dict", clip=link["from"])提供链接矩形下的文本字典，其中包含字体名称、字体大小、字体颜色等等。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73933417

复制

相似问题

问如何使用python从pdf中从每个超链接中提取锚文本/单词？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python从pdf中从每个超链接中提取锚文本/单词？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python从pdf中从每个超链接中提取锚文本/单词？
EN