我是Python开发的新手,有没有办法使用python将扫描过的PDF/image转换为Excel。
我尝试了以下方法:
步骤1:安装pypandoc库,
代码文件中的pip install pypandoc和导入库,如下所示
import pypandoc
from reportlab.lib.testutils import outputfile第2步:
添加了下面的代码,以便转换为excel
canout = pypandoc.convert_file("DT.pdf", 'excel', outputfile="MyPdf.excel")
assert canout==""但却无法成功。请为同样的实施建议我。
注:如果有任何其他方式的实施也是欢迎的。
谢谢
发布于 2018-10-25 01:16:53
FYI - CLI版本允许每页指定多个感兴趣的区域.这里指定了5个区域。
java -jar .\tabula-1.0.2-jar-具有依赖性的jar 1 -p 1 -a 175,140,540,270 -a 175,265,540,390 -a 175,390,540,520 -a 175,510,540,640 -a 175,640,540,780 -o outFile.csv testfile.pdf
发布于 2021-04-13 14:54:28
-a后面的数字是X,Y像素坐标,定义了页面上感兴趣的区域。想象一下,在图像上铺上透明的图形纸,在x1=175 y1=140 x2=540 y1=140和x2=540以及y2=270 x2=540和y=540上标记这4个点。接下来,画出与这些点相交的水平线和垂直线。将创建一个边框/矩形。这是要处理的兴趣范围。
| |
| |-x1,y2
因为每个感兴趣的区域有4个唯一的x和y值,所以可以使用4个值来描述软件的最小边界框。
https://stackoverflow.com/questions/46783784
复制相似问题