文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用python识别pdf中的图形？

问如何使用python识别pdf中的图形？
EN

Stack Overflow用户

提问于 2022-11-17 12:22:17

回答 1查看 19关注 0票数 0

新的pdf解析。

我想识别一个pdf文件中的图形，所以我可以跳过它，而不是提取这种类型的文本。关于pdf，我只知道它是从word生成的(而不是扫描的)。

输入- pdf与一个图形，如这一个。输出应为-真或假

水管工识别表格，但似乎不识别图表。尝试识别曲线和矩形，但结果不一致。

也许还有别的办法？

谢谢!

pdf-parsing

pdfplumber

pdf

text-parsing

回答 1

Stack Overflow用户

发布于 2022-11-22 09:37:10

备选案文1：

(感谢@KJ注释)最后，我使用了一些批量估计来理解页面是否包含一个图表。

如果页面中有比MIN_RECTS更多的内容，我假设有一个图(列的精确值为rectengels)，或者如果有比MIN_CURVES更多的图形(对我来说是0，但这取决于页眉或页脚中是否有一些非平凡的形状)。这不是最好的，但它大部分时间起作用。

例如，一些代码--使用了函数和extract_text()之后，我得到了很好的结果。

page = pdfplumber.open("file.pdf").pages[0]

def contains_graphs(page):
  return len(page.rects) > MIN_RECTS or len(page.curves) > MIN_CURVES 

def only_chars_from_page_filter(page):
  return page.filter(lambda obj: obj["object_type"] == "char")

备选案文2：

在@G5W的评论之后，可以用pywin32将PDF转换成MS Word文件，将PDF读入Word，然后仅用python使用摘录文本。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74475396

复制

相似问题

问如何使用python识别pdf中的图形？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python识别pdf中的图形？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用python识别pdf中的图形？
EN