文章/答案/技术大牛

发布

社区首页 >问答首页 >通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

问通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段
EN

Stack Overflow用户

提问于 2018-06-29 23:44:51

回答 1查看 979关注 0票数 0

我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我需要用python来做这个工作。我能够从一种类型的pdf中提取特定的信息，但需要一个模型，它将识别文件的类型，并自动识别需要提取的关键字，然后检索它们。可以通过编程方式使用python吗？任何帮助都将不胜感激。请注意，并非所有文档都是结构化的。但首先，我们可以假设文档是结构化的。

我试过用OpenCV从扫描的图像中提取文本，但结果很糟糕。我已经将整个图像转换为文本，但这不是我要找的。我只是在寻找每个pdf的具体信息。

machine-learning

text

extract

python

pdf

回答 1

Stack Overflow用户

发布于 2018-06-30 01:07:13

你需要两样东西。

对于关键字，可以使用tf-idf进行主题提取，也可以使用document classification

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51105333

复制

相似问题

问通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段
EN