我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我需要用python来做这个工作。我能够从一种类型的pdf中提取特定的信息,但需要一个模型,它将识别文件的类型,并自动识别需要提取的关键字,然后检索它们。可以通过编程方式使用python吗?任何帮助都将不胜感激。请注意,并非所有文档都是结构化的。但首先,我们可以假设文档是结构化的。
我试过用OpenCV从扫描的图像中提取文本,但结果很糟糕。我已经将整个图像转换为文本,但这不是我要找的。我只是在寻找每个pdf的具体信息。
发布于 2018-06-30 01:07:13
你需要两样东西。
对于关键字,可以使用tf-idf进行主题提取,也可以使用document classification
https://stackoverflow.com/questions/51105333
复制相似问题