文章/答案/技术大牛

发布

社区首页 >问答首页 >具有深度分析技能的PDF爬虫

问具有深度分析技能的PDF爬虫
EN

Stack Overflow用户

提问于 2020-06-19 20:23:31

回答 1查看 64关注 0票数 0

我试图建立一个pdf爬虫为企业的年度报告-这些报告是pdf文件与大量的文本和表格也很多。

将pdf转换成txt没有任何问题，但我的实际目标是搜索特定的关键字(例如，收入、利润)，并将数据REVENUE 1.000.000.000欧元提取到数据框中。

我尝试了不同的库，特别是tabula-py和PyPDF2，但我找不到一个聪明的方法来做到这一点-有人能帮我制定一个策略吗，那就太棒了！

致以最好的问候，罗宾

analytics

numeric

tabula-py

python-3.x

回答 1

Stack Overflow用户

发布于 2020-06-19 20:54:22

从PDF中提取数据是一件棘手的事情。虽然有PDF standards ，但并不是所有的PDF都是一样的。如果您已经能够以文本形式提取所需的数据，则可以使用RegEx提取所需的数据。

亚马逊有一个名为Textract的机器学习工具，你可以在Python语言中与他们的boto3 SDK一起使用。然而，这是一项“按次付费”的服务。与使用Textract到正则表达式的主要区别是，Textract可以识别和格式化数据对和表格，这应该意味着创建您的“爬虫”更快，并且如果您的PDF向前更改，更不容易被破坏。

有一个名为Textract的Python包，但它与亚马逊网络服务提供的包不同，相反，它是一个使用pdftotext (默认)或pdfminer.six的包装器(对于PDF)。检查它是值得的，因为它可能会以更好的格式生成您的数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62470231

复制

相似问题

问具有深度分析技能的PDF爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有深度分析技能的PDF爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有深度分析技能的PDF爬虫
EN