问利用深度学习从PDF中提取短语
EN

Stack Overflow用户

提问于 2019-11-25 17:28:38

回答 1查看 65关注 0票数 1

我想教一个人工智能从PDF中提取特定的短语。例如，产品名称在文档中的某个位置，AI必须找到并提取它。我的问题是，是否最好将PDF作为图像或提取的字符串提供，因为文档是粗略构造的。我希望我的问题可以理解。

也许有人对我来说也有一些想法或关键词：)

我将尝试这个代码，只使用产品名称，而不是疾病。这被称为“命名实体识别”，因为每个人都有同样的问题。我希望这能行。

回答已采纳

发布于 2019-11-25 17:48:24

将pdf图像中的字符转换为文本将更像是一项计算机视觉任务，而这似乎不是您想要做的，因为您似乎对短语提取更感兴趣，这将是NLP。因此，第一步可能是在将文本输入NLP库进行短语提取之前，从pdfs中提取文本。

在Python中似乎有很多库可以进行pdf文本提取-- 这从快速的Google搜索中弹出。至于NLP，在这个领域有很多库和概念需要学习，同样，一个快速的Google搜索获得了这文章作为Python中NLP的介绍。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59037180

复制

相似问题

问利用深度学习从PDF中提取短语EN