首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF和Excel中抓取数据

从PDF和Excel中抓取数据
EN

Stack Overflow用户
提问于 2010-06-30 17:02:24
回答 4查看 12.1K关注 0票数 6

我正在做一些数据抓取,有3种类型的文件,我正在抓取数据。

1- HTML

2- PDF

3- Excel(xls)

对于HTML,我觉得很舒服,我正在使用HTML Agility。

对于PDF和excel,我需要任何人的建议。

提前谢谢。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-06-30 17:08:28

关于Excel。如果您在MS环境中,则可以执行Office Automation或使用OLEDB。在Java环境中,查看Apache POI。

编辑:关于Java中的PDF,试试Apache PDFBox。还可以使用IKVM在.NET中工作

票数 5
EN

Stack Overflow用户

发布于 2010-07-09 23:15:51

我可以推荐Cogniview's PDF2XL,一个相当便宜的商业产品,可以从PDF文件中的表格中提取数据到Excel中。我们使用它取得了巨大的成功。

票数 1
EN

Stack Overflow用户

发布于 2012-01-31 17:08:13

HTML Agility是一个库。它很好用。但是,为什么您需要不同的工具来实现不同的数据提取目的呢?使用Automation Anywhere从任何来源提取数据。据我所知,它将适用于您指定的所有三个来源。用谷歌搜索一下。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3147803

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档