新的pdf解析。
我想识别一个pdf文件中的图形,所以我可以跳过它,而不是提取这种类型的文本。关于pdf,我只知道它是从word生成的(而不是扫描的)。
输入- pdf与一个图形,如这一个。输出应为-真或假
水管工识别表格,但似乎不识别图表。尝试识别曲线和矩形,但结果不一致。
也许还有别的办法?
谢谢!
发布于 2022-11-22 09:37:10
备选案文1:
(感谢@KJ注释)最后,我使用了一些批量估计来理解页面是否包含一个图表。
如果页面中有比MIN_RECTS更多的内容,我假设有一个图(列的精确值为rectengels),或者如果有比MIN_CURVES更多的图形(对我来说是0,但这取决于页眉或页脚中是否有一些非平凡的形状)。这不是最好的,但它大部分时间起作用。
例如,一些代码--使用了函数和extract_text()之后,我得到了很好的结果。
page = pdfplumber.open("file.pdf").pages[0]
def contains_graphs(page):
return len(page.rects) > MIN_RECTS or len(page.curves) > MIN_CURVES
def only_chars_from_page_filter(page):
return page.filter(lambda obj: obj["object_type"] == "char")备选案文2:
在@G5W的评论之后,可以用pywin32将PDF转换成MS Word文件,将PDF读入Word,然后仅用python使用摘录文本。
https://stackoverflow.com/questions/74475396
复制相似问题