我正在做一些数据抓取,有3种类型的文件,我正在抓取数据。
1- HTML
2- PDF
3- Excel(xls)
对于HTML,我觉得很舒服,我正在使用HTML Agility。
对于PDF和excel,我需要任何人的建议。
提前谢谢。
发布于 2010-06-30 17:08:28
关于Excel。如果您在MS环境中,则可以执行Office Automation或使用OLEDB。在Java环境中,查看Apache POI。
编辑:关于Java中的PDF,试试Apache PDFBox。还可以使用IKVM在.NET中工作
发布于 2010-07-09 23:15:51
我可以推荐Cogniview's PDF2XL,一个相当便宜的商业产品,可以从PDF文件中的表格中提取数据到Excel中。我们使用它取得了巨大的成功。
发布于 2012-01-31 17:08:13
HTML Agility是一个库。它很好用。但是,为什么您需要不同的工具来实现不同的数据提取目的呢?使用Automation Anywhere从任何来源提取数据。据我所知,它将适用于您指定的所有三个来源。用谷歌搜索一下。
https://stackoverflow.com/questions/3147803
复制相似问题