首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何提取PDF年度报告的叙述部分以进行文本分析?

如何提取PDF年度报告的叙述部分以进行文本分析?
EN

Stack Overflow用户
提问于 2020-11-11 05:34:52
回答 1查看 104关注 0票数 1

我想使用FOG指数作为我学士学位论文的一部分来比较SFCR报告和IFRS报告中保险公司的报告。报告以PDF格式提供。

我想使用Perl中的Fathom包,但为此我需要txt格式的财务报表的叙述区域。你知道我不需要手动复制所有内容的情况下如何工作吗?

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2020-11-11 07:28:00

Python模块pdfminer可用于提取所有文本(也可以提取图形和表格中的文本):

代码语言:javascript
复制
$ pip install pdfminer
$ qpdf --decrypt --password='' report.pdf report2.pdf
$ pdf2txt.py -o report2.txt report2.pdf

这会将提取的文本保存为report2.txt。请注意,我使用的是样例aegon-integrated-annual-report-2019.pdf文件。这个文件原来是加密的,pdf2txt.py拒绝处理它,但幸运的是qpdf能够解密它,如上所示。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64777089

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档