首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >AI/ML在PDF文本挖掘中的应用

AI/ML在PDF文本挖掘中的应用
EN

Stack Overflow用户
提问于 2018-06-06 15:08:24
回答 1查看 654关注 0票数 0

当涉及到NLP时,我是一个新手,因为我刚刚开始学习它。因此,如果这个问题看起来过于简单,请耐心听我说:)

我有一堆PDF文件(很多),任务是:每当有人问一个问题,答案是在这些PDF中的一个可用,要么包含答案的部分被提取或该特定PDF的页码显示为答案。您可以将每个PDF视为某个产品的手册;总共有数百个PDF文件。

我知道使用PDF搜索引擎可以很容易地解决这个问题;但是从文本挖掘和AI/ML的角度来看,有什么潜在的方法可以解决这个问题吗?也许我可以在一些PDF上训练模型,它可以用于rest?

最近我一直在尝试做一些研究,到目前为止,我得到的结果是:每当有人提出问题时,我都可以使用nltk python (大量在线资源)从问题中提取关键字。但真正困扰我的是接下来的部分,pdf文本/信息开始发挥作用。

提前感谢:)

EN

回答 1

Stack Overflow用户

发布于 2018-06-06 15:29:06

如果我是你,我会从收集或创建训练机器所需的数据开始。

例如:

  1. 客户查询包含以下关键字house timber nails

因此,您在文档中搜索这些关键字,然后向它们发送一个您希望获得反馈的house_timber.pdf

  • Then,以了解您所做的操作是正确还是错误。

例如,要求客户对结果进行反馈。

或者,你也可以自己练习,并在最初的几百/上千次中自己训练它。

然后,我会将所有这些训练查询和结果存储在一个数据库中,这样每当有新的查询出现时,您就可以通过训练并得出最准确的答案。

然后再次请求反馈,并将新结果存储在数据库中。(继续这个反馈循环!)

通过运行测试,您可以自己训练它。

与给出关键字一样,检查这些关键字是否存在于.pdf中,然后根据结果将结果标记为yes [1]no [0]

我发现你训练得越多,它就越准确。只要你继续从反馈中训练它,那么你的结果就会继续提高准确性。

我还发现,如果你给它太多的训练数据,并让它多次运行变化。结果并没有太大的改善,只是需要更多的时间。因此,尝试找到合适的数据量和合适的训练迭代次数也很重要。(如果您正在尝试快速响应)。

开始使用机器学习来发现模式是一次很酷的冒险。玩得开心!

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50714194

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档