首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用python识别pdf中的图形?

如何使用python识别pdf中的图形?
EN

Stack Overflow用户
提问于 2022-11-17 12:22:17
回答 1查看 19关注 0票数 0

新的pdf解析。

我想识别一个pdf文件中的图形,所以我可以跳过它,而不是提取这种类型的文本。关于pdf,我只知道它是从word生成的(而不是扫描的)。

输入- pdf与一个图形,如这一个。输出应为-真或假

水管工识别表格,但似乎不识别图表。尝试识别曲线和矩形,但结果不一致。

也许还有别的办法?

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2022-11-22 09:37:10

备选案文1:

(感谢@KJ注释)最后,我使用了一些批量估计来理解页面是否包含一个图表。

如果页面中有比MIN_RECTS更多的内容,我假设有一个图(列的精确值为rectengels),或者如果有比MIN_CURVES更多的图形(对我来说是0,但这取决于页眉或页脚中是否有一些非平凡的形状)。这不是最好的,但它大部分时间起作用。

例如,一些代码--使用了函数和extract_text()之后,我得到了很好的结果。

代码语言:javascript
复制
page = pdfplumber.open("file.pdf").pages[0]

def contains_graphs(page):
  return len(page.rects) > MIN_RECTS or len(page.curves) > MIN_CURVES 

def only_chars_from_page_filter(page):
  return page.filter(lambda obj: obj["object_type"] == "char")

备选案文2:

在@G5W的评论之后,可以用pywin32将PDF转换成MS Word文件,将PDF读入Word,然后仅用python使用摘录文本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74475396

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档