我正在自动从PDF文件中提取表格数据。我需要使用一个名为Tabula的开源库。该工具有一个选项,可以将列输入到单独的表格PDF数据中,如下所示:
-c 80, 250, 380上面将创建5列;80、250和380是列分隔符的单位。
谁能告诉我80,250和380是什么单位,以及如何确定页面上的哪个水平点是哪个数字?PDF有没有可能是通用的测量单位?
发布于 2017-07-20 23:49:52
在文档中有一节解释了how to grab the coordinates from the tabula app。
在选择所需的一个或多个区域并单击“预览和导出提取的数据”后,坐标也会出现在浏览器中开发人员工具的“控制台”选项卡中。
https://stackoverflow.com/questions/40367146
复制相似问题