首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python: python编程中扫描pdf到excel的转换

Python: python编程中扫描pdf到excel的转换
EN

Stack Overflow用户
提问于 2017-10-17 06:27:40
回答 2查看 3.3K关注 0票数 0

我是Python开发的新手,有没有办法使用python将扫描过的PDF/image转换为Excel。

我尝试了以下方法:

步骤1:安装pypandoc库,

代码文件中的pip install pypandoc和导入库,如下所示

代码语言:javascript
复制
import pypandoc
from reportlab.lib.testutils import outputfile

第2步:

添加了下面的代码,以便转换为excel

代码语言:javascript
复制
canout = pypandoc.convert_file("DT.pdf", 'excel', outputfile="MyPdf.excel")
assert canout==""

但却无法成功。请为同样的实施建议我。

注:如果有任何其他方式的实施也是欢迎的。

谢谢

EN

回答 2

Stack Overflow用户

发布于 2018-10-25 01:16:53

FYI - CLI版本允许每页指定多个感兴趣的区域.这里指定了5个区域。

java -jar .\tabula-1.0.2-jar-具有依赖性的jar 1 -p 1 -a 175,140,540,270 -a 175,265,540,390 -a 175,390,540,520 -a 175,510,540,640 -a 175,640,540,780 -o outFile.csv testfile.pdf

票数 0
EN

Stack Overflow用户

发布于 2021-04-13 14:54:28

-a后面的数字是X,Y像素坐标,定义了页面上感兴趣的区域。想象一下,在图像上铺上透明的图形纸,在x1=175 y1=140 x2=540 y1=140和x2=540以及y2=270 x2=540和y=540上标记这4个点。接下来,画出与这些点相交的水平线和垂直线。将创建一个边框/矩形。这是要处理的兴趣范围。

代码语言:javascript
复制
    |           |
    |           |

-x1,y2

因为每个感兴趣的区域有4个唯一的x和y值,所以可以使用4个值来描述软件的最小边界框。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46783784

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档