文章/答案/技术大牛

发布

社区首页 >问答首页 >AI/ML在PDF文本挖掘中的应用

问AI/ML在PDF文本挖掘中的应用
EN

Stack Overflow用户

提问于 2018-06-06 15:08:24

回答 1查看 654关注 0票数 0

当涉及到NLP时，我是一个新手，因为我刚刚开始学习它。因此，如果这个问题看起来过于简单，请耐心听我说:)

我有一堆PDF文件(很多)，任务是:每当有人问一个问题，答案是在这些PDF中的一个可用，要么包含答案的部分被提取或该特定PDF的页码显示为答案。您可以将每个PDF视为某个产品的手册；总共有数百个PDF文件。

我知道使用PDF搜索引擎可以很容易地解决这个问题；但是从文本挖掘和AI/ML的角度来看，有什么潜在的方法可以解决这个问题吗？也许我可以在一些PDF上训练模型，它可以用于rest？

最近我一直在尝试做一些研究，到目前为止，我得到的结果是:每当有人提出问题时，我都可以使用nltk python (大量在线资源)从问题中提取关键字。但真正困扰我的是接下来的部分，pdf文本/信息开始发挥作用。

提前感谢:)

nltk

reinforcement-learning

machine-learning

nlp

artificial-intelligence

回答 1

Stack Overflow用户

发布于 2018-06-06 15:29:06

如果我是你，我会从收集或创建训练机器所需的数据开始。

例如：

客户查询包含以下关键字house timber nails。

因此，您在文档中搜索这些关键字，然后向它们发送一个您希望获得反馈的house_timber.pdf

Then，以了解您所做的操作是正确还是错误。

例如，要求客户对结果进行反馈。

或者，你也可以自己练习，并在最初的几百/上千次中自己训练它。

然后，我会将所有这些训练查询和结果存储在一个数据库中，这样每当有新的查询出现时，您就可以通过训练并得出最准确的答案。

然后再次请求反馈，并将新结果存储在数据库中。(继续这个反馈循环！)

通过运行测试，您可以自己训练它。

与给出关键字一样，检查这些关键字是否存在于.pdf中，然后根据结果将结果标记为yes [1]或no [0]。

我发现你训练得越多，它就越准确。只要你继续从反馈中训练它，那么你的结果就会继续提高准确性。

我还发现，如果你给它太多的训练数据，并让它多次运行变化。结果并没有太大的改善，只是需要更多的时间。因此，尝试找到合适的数据量和合适的训练迭代次数也很重要。(如果您正在尝试快速响应)。

开始使用机器学习来发现模式是一次很酷的冒险。玩得开心!

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50714194

复制

相似问题

问AI/ML在PDF文本挖掘中的应用
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AI/ML在PDF文本挖掘中的应用EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AI/ML在PDF文本挖掘中的应用
EN