首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段
EN

Stack Overflow用户
提问于 2018-06-29 23:44:51
回答 1查看 979关注 0票数 0

我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我需要用python来做这个工作。我能够从一种类型的pdf中提取特定的信息,但需要一个模型,它将识别文件的类型,并自动识别需要提取的关键字,然后检索它们。可以通过编程方式使用python吗?任何帮助都将不胜感激。请注意,并非所有文档都是结构化的。但首先,我们可以假设文档是结构化的。

我试过用OpenCV从扫描的图像中提取文本,但结果很糟糕。我已经将整个图像转换为文本,但这不是我要找的。我只是在寻找每个pdf的具体信息。

EN

回答 1

Stack Overflow用户

发布于 2018-06-30 01:07:13

你需要两样东西。

对于关键字,可以使用tf-idf进行主题提取,也可以使用document classification

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51105333

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档