首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用深度学习从PDF中提取短语

利用深度学习从PDF中提取短语
EN

Stack Overflow用户
提问于 2019-11-25 17:28:38
回答 1查看 65关注 0票数 1

我想教一个人工智能从PDF中提取特定的短语。例如,产品名称在文档中的某个位置,AI必须找到并提取它。我的问题是,是否最好将PDF作为图像或提取的字符串提供,因为文档是粗略构造的。我希望我的问题可以理解。

也许有人对我来说也有一些想法或关键词:)

编辑:多亏了伊西蒙斯的暗示,我找到了一种开始的方法:https://appliedmachinelearning.blog/2019/04/01/training-deep-learning-based-named-entity-recognition-from-scratch-disease-extraction-hackathon/

我将尝试这个代码,只使用产品名称,而不是疾病。这被称为“命名实体识别”,因为每个人都有同样的问题。我希望这能行。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-25 17:48:24

将pdf图像中的字符转换为文本将更像是一项计算机视觉任务,而这似乎不是您想要做的,因为您似乎对短语提取更感兴趣,这将是NLP。因此,第一步可能是在将文本输入NLP库进行短语提取之前,从pdfs中提取文本。

在Python中似乎有很多库可以进行pdf文本提取-- 从快速的Google搜索中弹出。至于NLP,在这个领域有很多库和概念需要学习,同样,一个快速的Google搜索获得了文章作为Python中NLP的介绍。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59037180

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档